中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

在-x UCX_IB_GID_INDEX命令中指定GID后报错

现象描述

在-x UCX_IB_GID_INDEX命令中指定无效GID后,出现如下报错:

ib_device.c:848 UCX ERROR ibv_query_gid(dev=mlx5_0 port=1 index=10) failed: No such file or directory

在-x UCX_IB_GID_INDEX命令中指定GID后,出现如下报错:

pml_ucx.c:384  Error: ucp_ep_create(proc=1) failed: Destination is unreachable

可能原因

  • 命令行指定的GID与服务器GID不一致。
  • 多台作业执行节点GID不一致。

恢复步骤

  • 命令行指定的GID与服务器GID不一致。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 执行以下命令,查询GID的值。

      show_gids | grep -E "((25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3}(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])" | grep v2 | awk '{print $3}'

      5

      5:表示查询到的GID值。

    3. 执行以下命令,指定GID值为2中查询到的GID的值,例如5。

      -x UCX_IB_GID_INDEX=5

  • 多台作业执行节点GID不一致。
    1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
    2. 执行以下命令,修改“~/.bashrc”文件。
      1. 打开“~/.bashrc”文件。

        vi ~/.bashrc

      2. 按“i”进入编辑模式,添加如下内容。
        v2_gid=$(show_gids | grep -E "((25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])\.){3}(25[0-5]|2[0-4][0-9]|1[0-9][0-9]|[1-9]?[0-9])" | grep v2 | awk '{print $3}')
        export UCX_IB_GID_INDEX=$v2_gid
      3. 按“Esc”键,输入:wq!,按“Enter”保存并退出编辑。
    3. 执行以下命令,使配置生效。

      source ~/.bashrc