中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

指定GID后报 invalid gid,destination is unreachable 等错误

报错一:

ib_device.c:1018 UCX  ERROR Invalid gid[3] on mlx5_0:1

报错二:

pml_ucx.c:384  Error: ucp_ep_create(proc=1) failed: Destination is unreachable

问题原因:

  1. 命令指定的gid与服务器gid不一致。
  2. 多台主机上gid不一致。

解决方案:

可通过以下命令查询gid,其中hns_2为网络设备名称,1为设备端口,请根据实际情况修改命令:

cd /sys/class/infiniband/hns_2/ports/1
grep -r 0000:0000:0000:0000:0000 gids/ | grep -v 0000:0000:0000:0000:0000:0000:0000:0000 | awk -F: '{print $1}' | awk -F/ '{print $2}' 2>/dev/null | xargs -i grep --with-filename -o "[Vv].*" "gid_attrs/types/"{}

回显如下:

gid_attrs/types/5:v2
gid_attrs/types/4:v1
  1. 根据需要使用的协议版本,在命令中指定查询相对应的gid。
  2. 检查所有节点上相同协议的gid是否一致,若不一致需在各节点通过设置环境变量的方式设置该参数。