传输模式选择说明
可执行以下命令查看网络设备及支持的传输模式。
ucx_info -d
部分回显示例:
Transport: ud_verbs # Device: mlx5_0:1 # # capabilities: # bandwidth: 10957.84/ppn + 0.00 MB/sec # latency: 1030 nsec # overhead: 105 nsec # am_short: <= 116 # am_bcopy: <= 1016 # am_zcopy: <= 1016, up to 7 iov # am_opt_zcopy_align: <= 512 # am_align_mtu: <= 1K # am header: <= 880 # connection: to ep, to iface # device priority: 38 # device num paths: 1 # max eps: inf # device address: 17 bytes # iface address: 3 bytes # ep address: 6 bytes # error handling: peer failure
ud_verbs为传输模式,mlx5_0:1为网络设备。
-x UCX_TLS可用于调整MPI使用的传输模式。目前常用的参数有ud,rc,shm,rc_x,ud_x等。
更多的传输模式以及含义可参见:https://github.com/openucx/ucx/wiki/UCX-environment-parameters。
默认的参数在某些场景下可能不是最优的,可尝试如下等组合:
-x UCX_TLS=shm,rc_x,ud_x
-x UCX_TLS=shm,ud_x
-x UCX_TLS=shm,dc_x
-x UCX_TLS=mm,rc_x,ud_x
其中:shm和mm二选一;rc,ud,rc_x,ud_x,dc_x可以选一个或多个。
默认不设置时等同于-x UCX_TLS=all。
建议:Mellanox网卡环境使用ud_x与shm组合传输模式,鲲鹏RoCE网卡环境使用ud和shm组合的传输模式,原因是ud模式下创建QP的数量远低于rc模式且通讯速率较快,鲲鹏RoCE网卡环境不支持ud_x模式。
父主题: 命令说明及示例