中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

传输模式选择说明

可执行以下命令查看网络设备及支持的传输模式。

ucx_info -d

部分回显示例:

Transport: ud_verbs
#      Device: mlx5_0:1
#
#      capabilities:
#            bandwidth: 10957.84/ppn + 0.00 MB/sec
#              latency: 1030 nsec
#             overhead: 105 nsec
#             am_short: <= 116
#             am_bcopy: <= 1016
#             am_zcopy: <= 1016, up to 7 iov
#   am_opt_zcopy_align: <= 512
#         am_align_mtu: <= 1K
#            am header: <= 880
#           connection: to ep, to iface
#      device priority: 38
#     device num paths: 1
#              max eps: inf
#       device address: 17 bytes
#        iface address: 3 bytes
#           ep address: 6 bytes
#       error handling: peer failure

ud_verbs为传输模式,mlx5_0:1为网络设备。

-x UCX_TLS可用于调整MPI使用的传输模式。目前常用的参数有ud,rc,shm,rc_x,ud_x等。

更多的传输模式以及含义可参见:https://github.com/openucx/ucx/wiki/UCX-environment-parameters

默认的参数在某些场景下可能不是最优的,可尝试如下等组合:

-x UCX_TLS=shm,rc_x,ud_x

-x UCX_TLS=shm,ud_x

-x UCX_TLS=shm,dc_x

-x UCX_TLS=mm,rc_x,ud_x

其中:shm和mm二选一;rc,ud,rc_x,ud_x,dc_x可以选一个或多个。

默认不设置时等同于-x UCX_TLS=all。

建议:Mellanox网卡环境使用ud_x与shm组合传输模式,鲲鹏RoCE网卡环境使用ud和shm组合的传输模式,原因是ud模式下创建QP的数量远低于rc模式且通讯速率较快,鲲鹏RoCE网卡环境不支持ud_x模式。