算法参数调优

一般情况下，图分析算法影响性能的参数主要是Spark分区数量（numPartitions），如果有比较特殊的算法，如Betweenness算法，请参见Betweenness算法调优。

参数	说明	建议
numPartitions	Spark分区数量，分区越多意味着任务数太多，每次调度耗时会增加，分区太少，会导致一些节点没有分配到任务，并且会使每个分区处理的数据量增大，从而使每个agent节点内存提高。	在0.5~1.5倍的总核数（executor_cores与num_executor乘积）进行网格搜索，建议使用1倍总核数。

简单介绍Betweenness算法Spark作业参数对性能的影响。配置文件默认目录是“$KAL_TEST/conf/graph/betweenness”，“$KAL_TEST/conf/”是kal-test测试工具部署路径。

参数	说明	建议
spark.boostkit.graph.betweenness.partnum	任务执行时的分区数。	建议为计算节点总核数的3到12倍
spark.boostkit.graph.betweenness.threadnum	任务执行时，每个分区内部的线程数。	建议值为2

父主题： 优化过程