中文
注册

Word2Vec

用例编号

4.2.23

测试目的

Word2Vec(词向量)性能测试

测试组网

测试组网如图1所示。

预置条件

  1. 按照测试组网已完成集群部署。
  2. 获取算法对应的测试样例工具kal-test,样例工程目录结构参考README,以下测试过程中均需使用辅助代码。
  3. 将算法所用的数据集上传至HDFS指定目录,参考测试数据集

测试步骤

  1. 将已获取的测试工具kal-test文件夹部署到指定目录中,如“/home/test/boostkit/”

    若该目录不存在,先创建目录。

    mkdir -p /home/test/boostkit/
  2. 参考《鲲鹏BoostKit大数据使能套件 机器学习算法加速库 特性指南》完成软件编译软件部署,将获得的boostkit-ml-kernel-scala_version-kal_version-spark_version-aarch64.jar、boostkit-ml-acc_scala_version-kal_version-spark_version.jar和boostkit-ml-core_scala_version-kal_version-spark_version.jar放入到“/home/test/boostkit/kal-test/lib”下。
  3. 进入“/home/test/boostkit/kal-test”目录中。
    cd /home/test/boostkit/kal-test
  4. 查看“/etc/hosts”节点名,如下图,计算节点为agent1、agent2、agent3。
    cat /etc/hosts

  5. 根据4中得到的计算节点名,修改“bin/ml/word2vec_run.sh”中对应的计算节点名称,修改方式如下。
    1. 打开“bin/ml/word2vec_run.sh”文件。
      vim bin/ml/word2vec_run.sh
    2. “i”进入编辑模式,修改图中红框中对应的计算节点名称为agent1、agent2、agent3,如果计算节点不为3个,根据实际个数对该行增加或者删除。

    3. “Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  6. 创建结果保存路径。
    mkdir logs report
  7. 运行相应测试用例脚本,如测试cate(函数接口fit)数据集的性能。
    sh bin/ml/word2vec_run.sh cate fit no 2>&1 | tee -a logs/word2vec_cate_fit.log
  8. 运行结束后可在“/home/test/boostkit/kal-test/report/算法名称_写入文件时间.yml”文件中查看耗时、结果存放路径等数据。其中costTime为算法耗时,metric为指标值。
    cat report/算法名称_写入文件时间.yml

预期结果

  1. 脚本执行成功。
  2. 生成“report/算法名称_写入文件时间.yml”文件,且文件中打印相关结果信息。

测试结果

  

备注

  1. 如果更换目录名称或者位置,则需要在脚本中修改相应的位置。
  2. 不同集群上Spark提交的最优参数可能会有差异,需要通过搜参找到最优参数,可以在“conf/ml/word2vec/word2vec.yml”中修改模型参数,在“conf/ml/word2vec/word2vec_spark.properties”中修改Spark运行参数。
搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词