背景
HPC(High-performance computing,高性能计算)是能够执行一般电脑无法处理的大资料量与高速运算的并行计算系统,将大规模运算任务拆分并分发到各个服务器上进行并行运算,再将计算结果汇总得到最终结果,从而实现强大的计算功能。
HPC解决方案已经广泛应用于政府HPC、制造、气象、EDA等行业,但仍然面临诸多挑战:
- 命令行交互操作复杂
- HPC集群用户大多数为非IT从业人员,不擅长使用命令行方式进行任务管理和数据管理操作。
- 资源管理的维度不是基于客户视角设计,使用之前需要学习一些概念。
- 资源管理配置比较复杂,用户不能快速掌握,配置容易出错。
- 行业应用复杂
- 数据安全问题
- 异常监控
- 工作流程不连续
传统高性能计算系统与用户现有的工作流程脱节。用户需要登录不同的终端分别进行数据处理和传输,没有统一的门户对仿真业务流程进行整合。
- 资源利用率较低
- 集群规模小
- 集群吞吐量低,资源利用率低
集群吞吐量随集群规模的增大逐渐下降,当前开源或者商业的调度器架构陈旧,对新场景无法支持,造成一个业务一个集群,进一步降低资源利用率。
- MPI耗时
为应对以上挑战,HPC 22.0应运而生。HPC 22.0通过自研线下多瑙管理平台(Donau Portal)、多瑙调度器(Donau Scheduler)和华为高性能通信库Hyper MPI,构建HPC集群核心软件系统,充分释放计算性能,实现智能集群管理与调度以及通讯接口性能优化。