运行MPI作业提示网络设备内存无法分配
现象描述
运行MPI作业时,提示网络设备内存无法分配:
1 | ERROR ibv_open_device(mlx5_0) failed: Cannot allocate memory |
可能原因
MPI作业执行节点内存不足,导致提示网络设备内存无法分配。
恢复步骤
- 使用PuTTY工具,以Hyper MPI普通用户(例如“hmpi_user”)登录至作业执行节点。
- 执行以下命令,查看作业执行节点运行进程。
top
- 关闭与MPI作业执行无关的进程。
父主题: FAQ