中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

由于丢包等网络问题造成的UCP request timeout超时报错

现象描述

MPI运行过程中卡死,卡死超过五分钟后打印超时警告,日志信息如下:

1
UCP request timeout! request tag *** local proc: *** peer proc: *** peer hostname: ***

可能原因

  • 使用RoCE网络运行,但是没有配置网卡侧和交换机侧的无损网络,导致通信过程中丢包。
  • 计算节点间的网络线路出现故障。

恢复步骤

  1. 在日志信息中获取发生超时的请求中对端进程所在计算节点。
  2. 如果没有配置网卡侧和交换机侧的无损网络,需要配置后再运行作业。
  3. 如果无损网络没有问题,排查出错节点间的网络线路是否有问题。
  4. 如果网络线路没问题,检查网卡侧或交换机侧的丢包记录,确认硬件上是否丢包。
  5. 如果物理链路和硬件配置上排查出问题,且使用RC协议,可以使用UD协议暂时规避问题(RC依赖硬件的重传,而UD软件上会做重传)。