中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

多节点运行mpirun时报某个文件无法找到或打开

现象描述

  • 多节点运行mpirun命令时,报某个.so文件无法找到或打开。
    $ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2  /AllReduce
    mpirun: error while loading shared libraries: libopen-rte.so.40: cannot open shared object file: No such file or directory
  • 多节点运行mpirun命令时,报某个文件无法找到或打开。
    $ mpirun --allow-run-as-root -np 4 -N 2 --hostfile /hf2  /AllReduce
    bash: /Hyper-MPI_1.2.0_aarch64_CentOS7.6_GCC9.3_MLNX-OFED5.0/ompi/bin/orted: No such file or directory

可能原因

  • 报某个.so文件无法找到或打开。

    “bashrc”文件未配置“LD_LIBRARY_PATH”环境变量。

  • 报某个文件无法找到或打开。

    两个节点Hyper MPI安装路径不同。

恢复步骤

  • 报某个.so文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户,如“hmpi_user”用户登录作业执行节点。
    2. 检查环境变量是否配置正确,详情请参考配置环境变量
  • 报某个文件无法找到或打开。
    1. 使用PuTTY工具,以Hyper MPI普通用户,如“hmpi_user”用户登录作业执行节点。
    2. 建议将Hyper MPI安装在已挂载的共享目录上。