DBSCAN

用例编号

4.2.2

测试目的

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）性能测试

测试组网

测试组网如图1所示。

预置条件

测试步骤

进入“/home/test/boostkit/kal-test”目录中。

            
                 cd /home/test/boostkit/kal-test

查看“/etc/hosts”节点名，如下图，计算节点为agent1、agent2、agent3。

            
                 cat /etc/hosts

根据2中得到的计算节点名，修改“bin/ml/dbscan_run.sh”中对应的计算节点名称，修改方式如下。

打开“bin/ml/dbscan_run.sh”文件。

              
                   vi bin/ml/dbscan_run.sh

创建结果保存路径。

            
                 mkdir logs report

运行相应测试用例脚本，如测试house数据集的性能。

            
                 sh bin/ml/dbscan_run.sh house no 2>&1 | tee -a logs/dbscan_house.log

运行结束后可在“/home/test/boostkit/kal-test/report/算法名称_写入文件时间.yml”文件中查看耗时、结果存放路径等数据。其中costTime为算法耗时。
```
cat report/算法名称_写入文件时间.yml
```

预期结果

测试结果

备注

如果更换目录名称或者位置，则需要在脚本中修改相应的位置。
不同集群上Spark提交的最优参数可能会有差异，需要通过搜参找到最优参数，可以在“conf/ml/dbscan/dbscan.yml”中修改模型参数，在“conf/ml/dbscan/dbscan_spark.properties”中修改Spark运行参数。

父主题： 机器学习算法测试