中文
注册

背景

HPC(High-performance computing,高性能计算)是能够执行一般电脑无法处理的大资料量与高速运算的并行计算系统,将大规模运算任务拆分并分发到各个服务器上进行并行运算,再将计算结果汇总得到最终结果,从而实现强大的计算功能。

HPC解决方案已经广泛应用于政府HPC、制造、气象、EDA等行业,但仍然面临诸多挑战:

  • 命令行交互操作复杂
    • HPC集群用户大多数为非IT从业人员,不擅长使用命令行方式进行任务管理和数据管理操作。
    • 资源管理的维度不是基于客户视角设计,使用之前需要学习一些概念。
    • 资源管理配置比较复杂,用户不能快速掌握,配置容易出错。
  • 行业应用复杂

    HPC应用行业复杂,多种类型软件并存,需持续升级。

  • 数据安全问题

    数据频繁传输,效率和安全性问题需要保障。

  • 异常监控

    需及时发现集群中的异常、实现多集群统一管理、用户异常行为监控,异常监控项多变。

  • 工作流程不连续

    传统高性能计算系统与用户现有的工作流程脱节。用户需要登录不同的终端分别进行数据处理和传输,没有统一的门户对仿真业务流程进行整合。

  • 资源利用率较低

    孤岛式的用户工作模式,每个用户在自己的桌面工作站上工作,并不利于协同作业,容易因为资源闲置而造成浪费。

  • 集群规模小

    集群规模小,需要多个集群才能支持业务,增加运维工作量,无法支撑大规模并行MPI作业。

  • 集群吞吐量低,资源利用率低

    集群吞吐量随集群规模的增大逐渐下降,当前开源或者商业的调度器架构陈旧,对新场景无法支持,造成一个业务一个集群,进一步降低资源利用率。

  • MPI耗时

    MPI通信耗时问题凸显,成为集群计算关键瓶颈。

为应对以上挑战,HPC 22.0应运而生。HPC 22.0通过自研线下多瑙管理平台(Donau Portal)、多瑙调度器(Donau Scheduler)和华为高性能通信库Hyper MPI,构建HPC集群核心软件系统,充分释放计算性能,实现智能集群管理与调度以及通讯接口性能优化。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词