环境open files值较大时导致Hyper MPI启动慢

现象描述

环境ulimit中open files值太大(如1073741816),Hyper MPI在多节点上执行任务,mpirun命令会卡住3分钟。

可能原因

执行SSH之前需要遍历并关闭所有的fd(文件描述符),当环境中使用ulimit -n命令设置的open files太大时,Hyper MPI的启动时延会增加。

恢复步骤

  1. 排查是否由于fdmax值过大引起Hyper MPI启动时延慢,排查方法如下:

    在运行命令中添加--mca plm_base_verbose 11参数打开日志开关,在打印内容中查找“plm:rsh: close max fd”字段内容,查看当前fdmax值。通常当fdmax值大于1073741816时,启动时延将大于3min,值越大,时延成线性增加。

  2. 若由于fdmax值过大引起Hyper MPI启动时延慢,可以根据需要使用ulimit -n open files值命令修改当前的open files值,fdmax值会取“当前fd的最大值”与“open files值”的更小者,然后参考1查看修改的fdmax值是否生效。