运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:ibv_wr_complete fail, ret 12

现象描述

运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:

ibv_wr_complete fail, ret 12

可能原因

Stars部分算法(如Bcast算法3、4,Allgatherv算法1)在ibv qp上下发的任务数较多,在作业进程数较大的场景下可能产生qp队列溢出的情况,造成以上报错。

恢复步骤