中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
鲲鹏小智

故障处理流程

Hyper MPI提交任务出现异常或者报错时,可通过“回退法”来定位故障原因,并通过以下步骤进行故障处理。

操作步骤

  1. 切换成默认算法(不指定算法编号)。
    • 如无故障,说明指定算法不支持当前场景,可联系华为技术支持获取帮助。
    • 如仍有故障,执行2
  2. 屏蔽coll-ucg模块。

    mpirun命令中增加--mca coll ^ucg参数进行提交,如无故障,说明Open MPI支持此场景但Hyper MPI不支持。

    如仍有故障,可能性有两个:

    • Open MPI本身不支持该场景。
    • MPI使用方法不当。可从环境变量设置、MPI安装等多方面进行排查,具体故障可参考故障处理其他章节。