运行MPI作业,指定传输协议为RC或者UD时创建qp报错:
1 2 | UCX ERROR Failed to create RC QP TX wr:256 sge:5 in1:64 resp:64 RX wr:0 sge:1 resp:64: No space left on device failed: No space left on device UCX ERROR Failed to create UD QP TX wr:256 sge:6 inl:64 resp:0 RX wr:4096 sge:1 resp:0: No space left on device failed: No space left on device |
当MPI作业的建链数过大,所需qp数量超过硬件最大限制而资源不足时,会发生该报错。通过执行ibv_devinfo -v命令可以查看网口能够创建的最大qp数量max_qp。
1 | max_qp: 1048576 |
为了确保MPI作业能够正常运行,可以尝试从以下两个方面进行优化: