指定网卡名称错误
现象描述
提交MPI作业时指定的网卡名称错误导致mpirun命令运行失败。
运行失败示例如下:
$ mpirun -np 8 -N 1 --hostfile ~/hmpifile_2021/hostfile/hf8 -x UCX_NET_DEVICES=mlx5_0:2 ~/hmpifile_2021/allreduce/AllReduce [1632383945.549496] [arm-node132:2635376:0] ucp_context.c:732 UCX WARN network device 'mlx5_0:2' is not available, please use one or more of: 'enp189s0f0'(tcp), 'enp1s0'(tcp), 'mlx5_0:1'(ib)
可能原因
运行mpirun命令时指定的网卡资源名称有误。
恢复步骤
- 使用PuTTY工具,以Hyper MPI普通用户,如“hmpi_user”登录作业执行节点。
- 执行以下命令,查询当前作业执行节点所有可用的网卡名称。
ibdev2netdev
mlx5_0 port 1 ==> enp1s0 (Up)
- 执行以下命令,将网卡名称修改为当前可用网卡名称,如mlx5_0:1。
mpirun -np 16 -N 2 --hostfile ~/hmpifile_2021/hostfile/hf8 -x UCX_NET_DEVICES=mlx5_0:1 ~/hmpifile_2021/allreduce/AllReduce
- ~/hmpifile_2021/hostfile:为指定作业运行节点的文件路径,用户可根据实际情况进行替换。
- hf8:为指定作业运行节点的文件,用户可根据实际情况对该文件名进行修改。
- ~/hmpifile_2021/allreduce:为指定运行作业的路径。
- AllReduce:为指定的运行作业,用户可根据实际情况进行修改。
- mlx5_0:1:为2查询到的网卡名称。
父主题: FAQ