由于网卡配置不当引起的超时报错:connect... failed:Connection timed out
现象描述
多节点运行MPI作业,作业无法正常运行,返回如下报错信息:
1 2 | [1703209660.081479] [node167:2042308:0] sock.c:272 UCX ERROR connect(fd=37, dest_addr=66.66.66.168:49703) failed: Connection timed out [node167:2042308] pml_ucx.c:426 Error: ucp_ep_create(proc=0) failed: Destination is unreachable |
可能原因
- 防火墙没有关闭,导致建链失败。
- 如果使用RoCE网络,可能是RoCE网络没有配置,网口没有指定IP地址,通过show_gids命令检查发现RoCE网口没有配置IP地址。
1 2 3 4 5 6 7
DEV PORT INDEX GID IPv4 VeR DEV --- ---- ----- --- ------------ --- --- mlx5_0 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v1 enplsOfOnp0 mlx5_0 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v2 enp1s0fOnp0 mlx5_1 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 v1 enp1s0f1npl mlx5_1 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 v2 enp1s0f1npl n gids found=4
恢复步骤
- 关闭防火墙。
- 配置RoCE网络。
1 2 3 4 5 6 7
DEV PORT INDEX GID IPv4 VeR DEV --- ---- ----- --- ------------ --- --- mlx5_0 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v1 enplsOfOnp0 mlx5_0 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b8 v2 enp1s0fOnp0 mlx5_1 1 0 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx v1 enp1s0f1npl mlx5_1 1 1 fe80:0000:0000:0000:0ac0:ebff:fe8c:23b9 xx.xx.xx.xxx v2 enp1s0f1npl n gids found=4
父主题: FAQ