特性清单
-
鲲鹏BoostKit大数据使能套件支持Apache开源大数据组件,同时支持多个商业第三方大数据平台,针对FusionInsight平台,支持鲲鹏服务器和x86服务器混合部署。
适用于虚拟机部署的大数据平台的部署。
-
开源大数据平台混合部署(HDP)
-
大数据集群支持x86与鲲鹏混合部署
约束及详情1、组件约束
- 支持混部的开源组件:HDFS、Yarn(MR)、Hive、Spark、Flink、HBase、Elasticsearch、Storm、Kafka、Flume、ZooKeeper、Solr。
- 不支持混部的开源组件:Redis。
- 不涉及混部的组件(单节点服务):Hue、Sqoop、Oozie。
2、管理控制节点约束
管理节点不支持混合部署。
3、JDK版本限制
原集群与扩容集群需保证JDK版本一致,例如均为JDK 1.8。
支持CentOS 7.6/openEuler 20.03 LTS
支持单组件内x86与鲲鹏混合部署、组件与组件间混合部署
约束及详情1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
2、集群要求
- x86集群要求:CentOS 6.4及以上、SUSE 11.1及以上、EulerOS 2.1及以上、NeoKylin 6.9及以上。
- 鲲鹏集群要求:CentOS/SUSE/EulerOS/NeoKylin,OS版本以鲲鹏服务器兼容性列表为准。
- 支持x86集群和鲲鹏集群不同类型OS不同版本的混合部署。
3、硬件配置限制
除CPU外,建议其他硬件配置,例如内存、硬盘、网络等与原集群配置保持一致。
- 支持混部的开源组件:HDFS、Yarn(MR)、Hive、Spark、Flink、HBase、Elasticsearch、Storm、Kafka、Flume、ZooKeeper、Solr。
-
-
FusionInsight 6.5.1混合部署
-
支持CentOS 7.6
大数据集群支持x86与鲲鹏混合部署
约束及详情1、操作系统支持
CentOS 7.6。
2、组件约束
- 支持的组件:HDFS、Yarn(MR)、Hive、Spark、Flink、HBase、Elasticsearch、Storm、Kafka、Flume、ZooKeeper、FTP-Server、GraphBase。
- 不支持的组件:Redis。
- 不涉及混部的组件(单节点服务):Hue、Loader、Oozie、SmallFS。
3、管理控制节点约束
管理节点不支持混合部署。
支持CentOS 7.6/SUSE 15.1
支持单组件内x86与鲲鹏混合部署、组件与组件间混合部署
约束及详情1、操作系统支持
CentOS 7.6、SUSE 15.1、NeoKylin 7.5。
2、混部方案
FI目前仅支持以下两种OS混部方案:
- 支持x86与鲲鹏相同OS类型相同OS版本号混合部署,例如都是CentOS 7.6或都是中标麒麟7.5。
- 支持RedHat 6.8/7.4版本 + 鲲鹏服务器CentOS7.6版本;Suse 11.4/12.4-x86 + Suse 15.1-鲲鹏混部。
3、硬件配置约束
除CPU外,建议其他硬件配置,例如内存、硬盘、网络等与原集群配置保持一致。
适用于虚拟机部署的大数据平台的部署。
-
-
基于Ceph的libRGW提供直连的数据访问优化。
约束及详情1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
2、组件约束
适用Hadoop 3.1.1和Ceph 14.2,其他Hadoop 2.X/3.X、Ceph 14.X版本技术上支持,根据市场需求适配。
3、性能指标
存算分离下Spark、Hive、HBase性能持平三副本。
与硬件组网强相关,虚拟化场景不适用。
-
基于Trie Index优化HBase的索引格式,降低内存使用量。约束及详情
1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS SP1。
2、组件约束
适用HBase 2.2.3,其他HBase版本技术上支持,根据市场需求适配。3、性能指标
原生索引50%命中、Trie Index全命中场景下HBase随机读性能提升1倍+。HBase软件内核优化,适用虚拟化场景。
-
openEuler操作系统基于大数据核心组件Hive、Spark实现性能优化。
约束及详情1、操作系统支持
openEuler 20.03 LTS。
2、组件约束
适用Hive 2.X/3.X,Spark 2.X。
3、性能指标
Hive性能提升2%~25%,Spark性能提升3%~25%。
-
毕昇JDK基于大数据核心组件Hive、Spark实现性能优化。约束及详情
1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
2、组件约束适用Hive 2.X/3.X,Spark 2.X。
3、性能指标
Hive性能提升5%~12%,Spark性能提升4%~20%。
-
基于Spark分布式机器学习&图分析算法加速库。
约束及详情1、算法列表
- 机器学习算法:分类回归(随机森林、GBDT、SVM、逻辑回归、线性回归、决策树、XGBoost)算法、聚类(Kmeans、DBSCAN、LDA)算法、特征工程(PCA、SVD、Pearson、Covariance、Spearman、IDF)算法、模式挖掘(PreFixSpan、SimRank)。
- 图分析算法:群体分析(极大团、弱团、Louvain、标签传播、连通分量、强连通分量)、路径分析(最短路径、循环检测、广度优先搜索)、骨干分析(PageRank、KCore、TrustRank、PersonalizedPageRank、Betweenness、Closeness、Degree、增量PageRank、有权PageRank)算法、拓扑度量(三角形计数、Cluster Coefficient、Modularity)算法、相似分类算法(子图匹配)、图表示学习类算法(Node2Vec)。
2、操作系统支持
CentOS 7.6、openEuler 20.03 LTS。
3、组件约束
适配Spark 2.3.2、Spark 2.4.5、Spark 2.4.6版本,部分算法支持Spark 3.1.1和Spark 3.3.1,与原生算法库提供相同的接口;其他Spark 2.X、Spark 3.X版本技术上兼容,根据需求适配。 4、硬件约束 仅支持鲲鹏服务器。5、混部约束
通过计算队列支持鲲鹏与其他芯片架构服务器混部的Spark集群;不支持机器学习&图分析算法与开源算法混合运行在同一个任务。
6、性能指标
基于鲲鹏5220的机器学习&图分析算法加速库相比基于Intel 5318的Spark原生MLlib和GraphX,相同精度下计算性能提升20%以上。 -
基于Spark、openLooKeng实现SQL算子下推。
约束及详情1、操作系统支持
CentOS 7.6、openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
-
适用于存算分离场景或大规模存算融合场景。
- 适用Spark 3.0.0、Spark 3.1.1、Hive 3.1.0(Tez 0.10.0)、openLooKeng 1.4.0和openLooKeng 1.6.1版本,其他Spark及openLooKeng版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
Spark和openLooKeng基于TPC-H测试用例12条算子下推的SQL性能平均提升40%。Hive基于TPC-H测试用例4条算子下推SQL性能平均提升20%。
-
基于Spark、Hive实现Native算子加速,支持与OmniRuntime Shuffle加速叠加使用。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
-
适用Spark 3.1.1和openLooKeng 1.6.1版本,其他Spark及openLooKeng版本技术上支持,根据市场需求适配。
不支持鲲鹏和其他芯片服务器混部场景。3、性能指标
算子加速基于TPC-DS 99条SQL实现Spark性能提升30%。 -
基于Spark、Clickhouse实现物化视图智能推荐。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
- 适用Spark 3.1.1,其他Spark版本技术上支持,根据市场需求适配。
- 适用ClickHouse 22.3.6.5,其他Spark版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
物化视图基于TPC-DS基准测试用例实现Spark组件计算性能平均提升30%,基于Star Schema BenchMark实现ClickHouse计算性能平均提升数倍。
-
基于OCK for Spark实现Shuffle过程加速,支持与OmniRuntime OmniOperator叠加使用。约束及详情
1、操作系统支持
CentOS 7.6、EulerOS 2.0 (SP9)、openEuler 20.03 LTS。
2、组件约束
- 网卡驱动 Mellanox 5.1-2.4.1.0 JDK 1.8.0_292 GCC 7.3.0 ZooKeeper 3.7.0 Hadoop 3.1.1 Spark 2.4.6及以上 Python 2.7及以上 Hibench 7.1(推荐) 不支持鲲鹏和其他芯片服务器混部场景
3、性能指标
ESS模式下
- 384GB内存/节点、3+1服务器2*鲲鹏920 5220处理器、至少10GE网络(10GE TCP、25GE TCP/RDMA、100GE TCP/RDMA)、12*4TB SATA盘典型配置下。
- Terasort场景:1TB数据量,性能提升40%+。
- PageRank(Spark Core)场景: 90GB数据量,性能提升100%+。
- TPC-DS场景:8TB数据量,OmniShuffle Spark性能提升30%,OmniShuffle叠加OmniOperator Spark性能提升60%+。RSS模式下TPC-DS场景:3TB数据量,相比友商Celeborn性能提升10%。
-
使用AI实现Spark/Hive参数自动推荐。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1。
2、组件约束
- 适用Spark 3.1.1、Spark 3.3.1和Hive 3.1.0(只支持Hive on Tez模式),其他Spark及Hive版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
OmniAdvisor基于TPC-DS 10条SQL实现Spark性能提升10%。 -
HBase全局二级索引,倍级提升非Rowkey列查询。约束及详情
1、操作系统支持
openEuler 20.03 LTS SP1和openEuler 22.03 LTS SP1。2、组件约束
- 适用HBase 2.4.14,其他Spark及Hive版本技术上支持,根据市场需求适配。
- 不支持鲲鹏和其他芯片服务器混部场景。
3、性能指标
OmniHBaseGSI在100并发下,平均时延小于30ms,P99时延小于300ms。
-
OmniShield基于TEE环境,提供Spark数据、网络、磁盘加解密和应用级远程证明能力,保障数据在存储、传输、计算全生命周期的安全性。约束及详情
1、操作系统支持
openEuler 22.03 LTS SP4。2、组件约束
- 当前只支持AES/GCM/NOPadding 128位或256位密钥长度。只支持SM4/GCM/NOPadding 128位密钥长度。
- OmniShield机密大数据不提供KMS服务,也不限定使用的KMS,需用户自己提供KMS服务和KMS的实现。
- 适用Spark 3.3.1,其他Spark版本技术上支持,根据市场需求适配。
3、性能指标OmniShield基于大数据联盟TPCDS 99条基准测试用例实现全计算链路安全对比物理机平均性能损耗不超过20%。
支持OBS2.0
支持OBS 2.0
支持CentOS 7.6/openEuler 20.03 LTS
支持openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持CentOS 7.6/openEuler 20.03 LTS
支持openEuler 20.03 LTS
支持openEuler 20.03 LTS
支持CentOS 7.6 ARM、EulerOS 2.0 SP9 ARM、openEuler 20.03 LTS
支持openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1
支持openEuler 20.03 LTS SP1、openEuler 22.03 LTS SP1
支持openEuler 22.03 LTS SP4