测试OSU集合通信osu_iallgather和osu_iallgatherv时,当size大于32768,UCP request timeout。
尝试使用开源Open MPI 4.1.1+Open UCX 1.15.0的环境运行指令,也会出现相同问题,说明问题发生在开源组件上。可能是bcopy进行切包而默认的接收队列长度不足导致有包没收到。
在运行命令中添加参数“-x UCX_RNDV_THRESH=8192”。