指定网络类型错误,提示指定的网络类型不可用

现象描述

可能原因

运行mpirun命令时指定了无效的-x UCX_TLS参数,不同网络设备所支持的传输模式不同。

恢复步骤

  1. 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
  2. 执行以下命令,查询当前作业执行节点所有可用的网卡类型以及相应的网络协议。

    ucx_info -d

    1
    2
    Transport: rc_mlx5
    Device: mlx5_0:1
    

  3. 执行以下命令,将网络协议修改为当前可用网络协议。

    mpirun -np 16 -N 2 --hostfile ~/hmpifile_2021/hostfile/hf8 -x UCX_NET_DEVICES=mlx5_0:1 -x UCX_TLS=rc_mlx5 ~/hmpifile_2021/allreduce/AllReduce

    • ~/hmpifile_2021/hostfile:表示指定作业运行节点的文件路径。
    • hf8:表示指定作业运行节点的文件。
    • ~/hmpifile_2021/allreduce:表示指定运行作业的路径。
    • AllReduce:表示指定的运行作业。
    • mlx5_0:1:表示2查询到的网卡类型。
    • rc_mlx5:表示2查询到的网络协议。