现象描述
多节点运行MPI作业,作业无法正常运行,返回如下报错信息:
| [1703209660.081479] [node167:2042308:0] sock.c:272 UCX ERROR connect(fd=37, dest_addr=66.66.66.168:49703) failed: Connection timed out
[node167:2042308] pml_ucx.c:426 Error: ucp_ep_create(proc=0) failed: Destination is unreachable
|
可能原因
- 防火墙没有关闭,导致建链失败。
- 如果使用RoCE网络,可能是RoCE网络没有配置,网口没有指定IP地址,通过show_gids命令检查发现RoCE网口没有配置IP地址。
| DEV PORT INDEX GID IPv4 VeR DEV
--- ---- ----- --- ------------ --- ---
mlx5_0 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v1 enplsOfOnp0
mlx5_0 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v2 enp1s0fOnp0
mlx5_1 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 v1 enp1s0f1npl
mlx5_1 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 v2 enp1s0f1npl
n gids found=4
|
恢复步骤
- 关闭防火墙。
- 配置RoCE网络。
| DEV PORT INDEX GID IPv4 VeR DEV
--- ---- ----- --- ------------ --- ---
mlx5_0 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v1 enplsOfOnp0
mlx5_0 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v2 enp1s0fOnp0
mlx5_1 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx v1 enp1s0f1npl
mlx5_1 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx v2 enp1s0f1npl
n gids found=4
|