-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3
-x UCX_BUILTIN_DEGREE_INTRA_FANIN=8
-x UCX_BUILTIN_DEGREE_INTER_FANOUT=7 -x UCX_BUILTIN_DEGREE_INTER_FANIN=7
-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3 -x UCX_BUILTIN_DEGREE_INTRA_FANIN=8
为提高性能,也可加入以下选项:
--bind-to core -x UCX_TLS=sm,rc_x
综上,在调用MPI_Allreduce时,推荐选用算法8,其中K值需根据具体的节点及ppn数目调节,运行命令示例如下(ARM):
mpirun -np 16 -N 2 --hostfile hf --mca btl ^vader,tcp,openib --map-by socket --rank-by core --bind-to core -x UCX_TLS=sm,rc_x -x UCX_BUILTIN_ALLREDUCE_ALGORITHM=8 -x UCX_BUILTIN_DEGREE_INTER_FANOUT=7 -x UCX_BUILTIN_DEGREE_INTER_FANIN=7 -x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3 -x UCX_BUILTIN_DEGREE_INTRA_FANIN=8 osu_allreduce
-x UCX_BUILTIN_DEGREE_INTER_FANOUT=7
-x UCX_BUILTIN_DEGREE_INTRA_FANOUT=3
为提高性能,也可加入以下选项:
--bind-to core –x UCX_TLS=sm,rc_x
综上,在调用MPI_Bcast时,推荐选用算法3,其中K值需根据具体的节点及ppn数目调节,运行命令示例如下(ARM):
mpirun -np 16 -N 2 --hostfile hf --mca btl ^vader,tcp,openib --bind-to core -x UCX_TLS=sm,rc_x -x UCX_BUILTIN_BCAST_ALGORITHM=3 -x UCX_BUILTIN_DEGREE_INTER_FANOUT=7 osu_bcast
从表3可知,Barrier的算法是Allreduce算法的子集,因此可参考MPI_Allreduce指定算法说明部分,此处不再赘述。