指定GID后报 invalid gid,destination is unreachable 等错误
报错一:
ib_device.c:1018 UCX ERROR Invalid gid[3] on mlx5_0:1
报错二:
pml_ucx.c:384 Error: ucp_ep_create(proc=1) failed: Destination is unreachable
问题原因:
- 命令指定的gid与服务器gid不一致。
- 多台主机上gid不一致。
解决方案:
可通过以下命令查询gid,其中hns_2为网络设备名称,1为设备端口,请根据实际情况修改命令:
cd /sys/class/infiniband/hns_2/ports/1 grep -r 0000:0000:0000:0000:0000 gids/ | grep -v 0000:0000:0000:0000:0000:0000:0000:0000 | awk -F: '{print $1}' | awk -F/ '{print $2}' 2>/dev/null | xargs -i grep --with-filename -o "[Vv].*" "gid_attrs/types/"{}
回显如下:
gid_attrs/types/5:v2 gid_attrs/types/4:v1
- 根据需要使用的协议版本,在命令中指定查询相对应的gid。
- 检查所有节点上相同协议的gid是否一致,若不一致需在各节点通过设置环境变量的方式设置该参数。
父主题: 常见问题及处理方式