中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

DBSCAN

用例编号

4.2.2

测试目的

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)性能测试

测试组网

测试组网如图1所示。

预置条件

  1. 按照测试组网已完成集群部署。
  2. 获取算法对应的测试样例工具kal-test,样例工程目录结构参考README,以下测试过程中均需使用该测试框架。
  3. 将算法所用的数据集上传至HDFS指定目录,参考测试数据集

测试步骤

  1. 进入“/home/test/boostkit/kal-test”目录中。
    1
    cd /home/test/boostkit/kal-test
    
  2. 查看“/etc/hosts”节点名,如下图,计算节点为agent1、agent2、agent3。
    1
    cat /etc/hosts
    

  3. 根据2中得到的计算节点名,修改“bin/ml/dbscan_run.sh”中对应的计算节点名称,修改方式如下。
    1. 打开“bin/ml/dbscan_run.sh”文件。
      1
      vi bin/ml/dbscan_run.sh
      
    2. “i”进入编辑模式,修改图中红框中对应的计算节点名称为agent1、agent2、agent3,如果计算节点不为3个,根据实际个数对该行增加或者删除。

    3. “Esc”键,输入:wq!,按“Enter”保存并退出编辑。
  4. 创建结果保存路径。
    1
    mkdir logs report
    
  5. 运行相应测试用例脚本,如测试house数据集的性能。
    1
    sh bin/ml/dbscan_run.sh house no 2>&1 | tee -a logs/dbscan_house.log
    
  6. 运行结束后可在“/home/test/boostkit/kal-test/report/算法名称_写入文件时间.yml”文件中查看耗时、结果存放路径等数据。其中costTime为算法耗时。
    cat report/算法名称_写入文件时间.yml

预期结果

  1. 脚本执行成功。
  2. 生成“report/算法名称_写入文件时间.yml”文件,且文件中打印相关结果信息。

测试结果

  

备注

  1. 如果更换目录名称或者位置,则需要在脚本中修改相应的位置。
  2. 不同集群上Spark提交的最优参数可能会有差异,需要通过搜参找到最优参数,可以在“conf/ml/dbscan/dbscan.yml”中修改模型参数,在“conf/ml/dbscan/dbscan_spark.properties”中修改Spark运行参数。