在-x UCX_IB_GID_INDEX命令中指定GID后报错
现象描述
在-x UCX_IB_GID_INDEX命令中指定无效GID后,出现如下报错:
ib_device.c:848 UCX ERROR ibv_query_gid(dev=mlx5_0 port=1 index=10) failed: No such file or directory
在-x UCX_IB_GID_INDEX命令中指定GID后,出现如下报错:
pml_ucx.c:384 Error: ucp_ep_create(proc=1) failed: Destination is unreachable
可能原因
- 命令行指定的GID与服务器GID不一致。
- 多台作业执行节点GID不一致。
恢复步骤
- 命令行指定的GID与服务器GID不一致。
- 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
- 执行以下命令,查询GID的值。
show_gids | grep -E "((25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3}(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])" | grep v2 | awk '{print $3}'
5
5:表示查询到的GID值。
- 执行以下命令,指定GID值为2中查询到的GID的值,例如5。
-x UCX_IB_GID_INDEX=5
- 多台作业执行节点GID不一致。
- 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
- 执行以下命令,修改“~/.bashrc”文件。
- 执行以下命令,使配置生效。
父主题: FAQ