由于丢包等网络问题造成的UCP request timeout超时报错
现象描述
MPI运行过程中卡死,卡死超过五分钟后打印超时警告,日志信息如下:
1 | UCP request timeout! request tag *** local proc: *** peer proc: *** peer hostname: *** |
可能原因
- 使用RoCE网络运行,但是没有配置网卡侧和交换机侧的无损网络,导致通信过程中丢包。
- 计算节点间的网络线路出现故障。
恢复步骤
- 在日志信息中获取发生超时的请求中对端进程所在计算节点。
- 如果没有配置网卡侧和交换机侧的无损网络,需要配置后再运行作业。
- 如果无损网络没有问题,排查出错节点间的网络线路是否有问题。
- 如果网络线路没问题,检查网卡侧或交换机侧的丢包记录,确认硬件上是否丢包。
- 如果物理链路和硬件配置上未排查出问题,且使用RC协议,则可以使用UD协议暂时规避问题(RC依赖硬件的重传,而UD软件上会做重传)。
父主题: FAQ