运行MPI作业,网卡驱动报错:transport retry counter exceeded

现象描述

运行MPI作业,网卡驱动报错:

rc_verbs_iface.c:120 send completion with error: transport retry counter exceeded [qpn 0x272 wrid 0x1 vendor_err 0x15]

可能原因

HUCX中的传输层RC不会在软件中做重试,而是借助网卡的硬件重试机制;HUCX在初始化传输层时会配置默认的RC超时时间与重试次数,当数据在集群中传输较慢时,如果超出配置的总超时时间,网卡会返回给HUCX超时事件,HUCX获取到对应超时事件后退出应用。

恢复步骤

需结合网络实际延迟合理设置上述两个参数。

  • 若参数设置过大,则会延迟网卡的故障检测,占用系统资源。
  • 若参数设置过小,在某些场景(例如网络链路发生拥塞)下会导致网卡超时,应用不稳定,性能下降。
  • 若遇到超时错误,建议逐步增大该值并观察结果,合理值需略高于网络最大延迟,避免极端调高。