FAQ
故障处理流程
作业进程数过大,报错:There are not enough slots available...
多节点运行mpirun时异常
多节点运行mpirun时报某个文件无法找到或打开
运行MPI作业提示网络设备内存无法分配
指定网卡名称错误,报错:network device '***' is not available
指定网络类型错误,提示指定的网络类型不可用
指定主机名错误,报错:Name or service not known
通信过程建链报错:ucp_ep_create(...)failed:Destination is unreachable
在-x UCX_IB_GID_INDEX命令中指定GID后报错
找不到ARP表项引起的超时报错:ibv_create_ah...failed: Connection timed out
由于网卡配置不当引起的超时报错:connect... failed:Connection timed out
由于丢包等网络问题造成的UCP request timeout超时报错
由于丢包等网络原因引起的UD超时报错:UD endpoint ...... unhandled timeout error
运行报错failed to bind memory,但应用仍可以正常结束
Allgatherv算法4指定TCP传输,np大规格执行报错
Allreduce算法8精度问题导致多次执行结果不一致
超线程环境中rank进程未绑定至逻辑核上
UCX版本不匹配告警
UCP请求超时
运行osu_alltoall/osu_alltoallv/osu_alltoallw/osu_ialltoall/osu_ialltoallv/osu_ialltoallw时出现内存耗尽问题
运行Alltoallv算法2报错:gatherv phase don't support displs >= 2^31 bytes
环境open files值较大时导致Hyper MPI启动慢
UCX使用SDMA时,报错:UCX ERROR Failed to create sdma_device[0] handle
运行MPI作业,指定传输协议为RC或者UD时创建qp报错:Invalid argument
运行MPI作业,指定传输协议为RC或者UD时创建qp报错:No space left on device
运行MPI作业,并使能Stars集合通信卸载,指定Stars传输协议为rc_acc时报错:ibv_wr_complete fail, ret 12
运行MPI作业,网卡驱动报错:transport retry counter exceeded
父主题:
Hyper MPI 开发指南