UCP请求超时

现象描述

测试OSU集合通信osu_iallgather和osu_iallgatherv时,当size大于32768,UCP request timeout。

可能原因

尝试使用开源Open MPI 4.1.1+Open UCX 1.15.0的环境运行指令,也会出现相同问题,说明问题发生在开源组件上。可能是bcopy进行切包而默认的接队列长度不足导致有包没收到。

恢复步骤

在运行命令中添加参数“-x UCX_RNDV_THRESH=8192”