中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
鲲鹏小智

Spearman

用例编号

4.2.18

测试目的

Spearman(斯皮尔曼等级相关系数)性能测试

测试组网

测试组网如图1所示。

预置条件

  1. 按照测试组网已完成集群部署。
  2. 获取算法对应的测试样例工具kal-test,样例工程目录结构参考README,以下测试过程中均需使用辅助代码。
  3. 将算法所用的数据集上传至HDFS指定目录,参考测试数据集

测试步骤

  1. 将已获取的测试工具kal-test文件夹部署到指定目录中,如“/home/test/boostkit/”

    若该目录不存在,先创建目录。

    mkdir -p /home/test/boostkit/
  2. 参考《鲲鹏BoostKit大数据使能套件 机器学习算法加速库 特性指南》完成软件编译软件部署,将获得的boostkit-ml-kernel-scala_version-kal_version-spark_version-aarch64.jar、boostkit-ml-acc_scala_version-kal_version-spark_version.jar和boostkit-ml-core_scala_version-kal_version-spark_version.jar放入到“/home/test/boostkit/kal-test/lib”下。
  3. 进入“/home/test/boostkit/kal-test”目录中。
    cd /home/test/boostkit/kal-test
  4. 查看“/etc/hosts”节点名,如下图,计算节点为agent1、agent2、agent3。
    cat /etc/hosts

  5. 根据4中得到的计算节点名,修改“bin/ml/spearman_run.sh”中对应的计算节点名称,修改方式如下。
    1. 打开“bin/ml/spearman_run.sh”文件。
      vim bin/ml/spearman_run.sh
    2. “i”进入编辑模式,修改图中红框中对应的计算节点名称为agent1、agent2、agent3,如果计算节点不为3个,根据实际个数对该行增加或者删除。

    3. “Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  6. 创建结果保存路径。
    mkdir logs report
  7. 运行相应测试用例脚本,如测试CP10M1K数据集的性能。
    sh bin/ml/spearman_run.sh dataframe CP10M1K no no 2>&1 | tee -a logs/spearman_CP10M1K.log
  8. 运行结束后可在“/home/test/boostkit/kal-test/report/算法名称_写入文件时间.yml”文件中查看耗时、结果存放路径等数据。其中costTime为算法耗时,saveDataPath为结果保存的HDFS路径。
    cat report/算法名称_写入文件时间.yml

预期结果

  1. 脚本执行成功。
  2. 生成“report/算法名称_写入文件时间.yml”文件,且文件中打印相关结果信息。

测试结果

  

备注

  1. 如果更换目录名称或者位置,则需要在脚本中修改相应的位置。
  2. 不同集群上Spark提交的最优参数可能会有差异,需要通过搜参找到最优参数,可以在“conf/ml/spearman/spearman.yml”中修改模型参数,在“conf/ml/spearman/spearman_spark.properties”中修改Spark运行参数。