环境ulimit中open files值太大(如1073741816),Hyper MPI在多节点上执行任务,mpirun命令会卡住3分钟。
执行SSH之前需要遍历并关闭所有的fd(文件描述符),当环境中使用ulimit -n命令设置的open files太大时,Hyper MPI的启动时延会增加。
在运行命令中添加--mca plm_base_verbose 11参数打开日志开关,在打印内容中查找“plm:rsh: close max fd”字段内容,查看当前fdmax值。通常当fdmax值大于1073741816时,启动时延将大于3min,值越大,时延成线性增加。