HPC基础知识
发表于 2023/12/12
0
尊敬的鲲鹏开发者你好,为了帮助您快速掌握鲲鹏HPC集群环境搭建技能。本文将从HPC集群的关键组件、搭建流程以及HPC集群的特征等方面系统性讲解鲲鹏HPC基础知识,并通过实例指导开发者如何使用1~2台鲲鹏服务器,完成一个简易的HPC集群搭建。
本文主要介绍了以下知识:
(1)HPC基础知识
(2)如何使用鲲鹏服务器快速搭建HPC集群
什么是鲲鹏HPC集群
1. 什么是HPC
高性能计算 (High Performance Computing) 和通用计算一样,区别在于它的计算能力更强大。一个 HPC 集群由数百或数千个互联的计算服务器组成,每个服务器都称为一个节点。集群中的节点彼此并行工作,提高处理速度,从而实现高性能计算。
下图是某集群的机房。

2. 鲲鹏HPC方案全景
从上图内容中可知,鲲鹏提供了一整套完整的HPC解决方案。一套完整的集群涵盖计算服务器、存储、网络、基础软件等,通过上述的全景图,能够清晰了解HPC集群的关键组成部分及其应用场景,其中关键组件特征如下:
(1)计算服务器:鲲鹏服务器是基于鲲鹏ARM处理器全自研的服务器,技术上自主可控,而且提供了多样化的配置,可以覆盖多样化的应用场景。
(2)共享存储:HPC集群包含成百上千个计算节点,若要协同计算同一任务,必须访问同一共享存储,同时还需要满足高带宽、低时延、高并发等特点
(3)网络通信:HPC应用计算时由于存在集合通信,需要超大的网络带宽和极低的网络时延;RDMA(Remote Direct Memory Access)是一种远程直接内存访问技术,通过网络把数据直接传入另一台服务器(设备)的某一块内存区域,无需OS、CPU offload。主要通过将可靠传输协议固化到硬件并且支持零拷贝技术实现。集群场景(IB网络),HPC绝大部分的应用都可以支持MPI并行化,IB和RoCE网络是目前HPC场景的主流网络方案。
下面利用2台鲲鹏服务器介绍如何搭建简易的HPC集群。