运行MPI作业,网卡驱动报错:
rc_verbs_iface.c:120 send completion with error: transport retry counter exceeded [qpn 0x272 wrid 0x1 vendor_err 0x15]
HUCX中的传输层RC不会在软件中做重试,而是借助网卡的硬件重试机制;HUCX在初始化传输层时会配置默认的RC超时时间与重试次数,当数据在集群中传输较慢时,如果超出配置的总超时时间,网卡会返回给HUCX超时事件,HUCX获取到对应超时事件后退出应用。
需结合网络实际延迟合理设置上述两个参数。