创建HPC集群检查任务
功能描述
HPC集群检查,可对HPC物理机或虚拟机集群各节点,进行节点间软件、硬件配置的一致性检查,并给出优化建议。
前提条件
- 不存在“离线”状态的节点。
- 容器环境暂不支持此任务。
创建HPC集群检查任务
- 单击系统性能分析后面的。
选择“通用分析”,打开新建任务页面。
- 参考“任务管理”和表1配置任务参数。
创建HPC集群检查任务,如图1所示。
表1 创建HPC集群检查参数说明 参数
说明
运行mpirun节点
配置需要检查的mpi节点。
共享目录
配置分析共享目录。
采集特权指标
配置是否采集拥有特殊权限的数据。默认关闭,若mpirun运行用户为非特权用户,需在所有节点上进行sudo配置,以便执行特权用户才可执行的命令
mpirun运行用户
配置mpirun运行用户名。
说明:因采集过程中所有操作将使用root用户进行,可能存在风险,建议使用普通用户。
密码
配置mpirun运行用户的密码。
mpirun所在路径
配置mpirun应用所在路径。
mpirun参数(可选)
配置mpirun运行参数;参数中需明确指定任务节点(如--hostfile),仅使用-np参数将使任务随机发至节点,导致集群检查和mpi运行环境不一致,造成任务失败。
hostfile(可选)
上传hostfile配置文件,仅支持文本格式且不大于10MB的文件;可下载模板参考。
环境变量文件(可选)
上传环境变量文件,仅支持文本格式且不大于10MB的文件;可下载模板参考。
- 单击“确认”完成分析任务的创建。
单击任务名称后面对应的图标可以执行如下操作:
- :停止分析任务,停止分析任务后,已采集的信息会被删除。
- :重启分析任务,可修改任务参数配置并重新启动分析任务,取消任务或任务失败时可使用。
- :删除分析任务,删除分析任务会将该分析任务下的数据都删除,请谨慎操作。
- :再次分析任务,自动命名任务并重新启动分析任务。
- :修改任务或报告名称,可修改对应任务或报告名称(报告名称规则同任务名称一致)。
父主题: HPC集群检查