多节点运行mpirun时报某个文件无法找到或打开
现象描述
- 多节点运行mpirun命令时,报某个.so文件无法找到或打开。
$ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce mpirun: error while loading shared libraries: libopen-rte.so.40: cannot open shared object file: No such file or directory
- 多节点运行mpirun命令时,报某个文件无法找到或打开。
$ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2 /AllReduce bash: /Hyper-MPI_1.2.0_aarch64_CentOS7.6_GCC9.3_MLNX-OFED5.0/ompi/bin/orted: No such file or directory
恢复步骤
- 报某个.so文件无法找到或打开。
- 使用PuTTY工具,以Hyper MPI普通用户,如“hmpi_user”用户登录作业执行节点。
- 检查环境变量是否配置正确,详情请参考配置环境变量。
- 报某个文件无法找到或打开。
- 使用PuTTY工具,以Hyper MPI普通用户,如“hmpi_user”用户登录作业执行节点。
- 建议将Hyper MPI安装在已挂载的共享目录上。
父主题: FAQ