运行MPI作业,指定传输协议为RC或者UD时创建qp报错:No space left on device

现象描述

运行MPI作业,指定传输协议为RC或者UD时创建qp报错:

1
2
UCX ERROR Failed to create RC QP TX wr:256 sge:5 in1:64 resp:64 RX wr:0 sge:1 resp:64: No space left on device failed: No space left on device
UCX ERROR Failed to create UD QP TX wr:256 sge:6 inl:64 resp:0 RX wr:4096 sge:1 resp:0: No space left on device failed: No space left on device

可能原因

当MPI作业的建链数过大,所需qp数量超过硬件最大限制而资源不足时,会发生该报错。通过执行ibv_devinfo -v命令可以查看网口能够创建的最大qp数量max_qp。

1
max_qp:    1048576

恢复步骤

为了确保MPI作业能够正常运行,可以尝试从以下两个方面进行优化: