中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助
鲲鹏小智

OmniShuffle特性

介绍OmniShuffle特性架构。

OmniShuffle特性是一个大数据引擎Spark的性能加速组件,运行在客户数据中心的大数据集群内,通过内存池统一编址、数据内存语义交换及融合Shuffle等关键特性,减少数据磁盘I/O开销,提高数据分析的时效性和集群资源利用率。OmniShuffle作为Spark的性能加速组件,通过Spark提供的插件机制,实现Shuffle Manager和Broadcast Manager插件接口,无侵入式替换Spark的原生Shuffle和Broadcast。

OmniShuffle通过实现Shuffle Manager插件接口使能In-memory Shuffle,即在内存池中通过内存语义完成Shuffle过程,减少Shuffle数据落盘,降低数据落盘读取、序列化和反序列化、压缩和解压缩带来的时间开销和算力开销。通过实现Broadcast Manager接口使能基于内存池共享的方式进行变量广播,提升广播变量在各个Executor之间的共享传输效率。同时,OmniShuffle支持RDMA(Remote Direct Memory Access)和TCP两种网络模式。相比TCP,RDMA可提高传输效率,降低对算力的要求,实现节点间数据的高效交换。

OmniShuffle通过基于历史记录的实时调整方式实现Spark SQL作业的并行度自动调整,消除用户针对并行度的调优工作量,同时消除90%以上Shuffle Reduce侧Spill,从而实现缩短作业运行时间,提高大数据集群作业吞吐量。

整体方案

OmniShuffle通过实现Shuffle/Broadcast插件的Shuffle Manager插件接口使能In-memory Shuffle,OmniShuffle整体方案架构如图1所示,子系统的介绍如表1所示。

图1 OmniShuffle逻辑架构图
表1 子系统介绍

子系统

子系统介绍

内存池套件

提供分布式共享内存基础设施,并提供基础的内存语义。

元数据

保存Shuffle数据、节点相关信息的基础信息。

Shuffle语义

提供Spark Shuffle语义实现的相关接口。

BroadCast语义

提供Spark Broadcast语义实现的相关接口。

业务流程

OmniShuffle主要通过实现Spark Shuflle Manager接口,实现In-memory Shuffle,OmniShuffle业务具体流程如图2所示。

图2 业务流程图

OmniShuffle与Spark对接后,用户通过访问Spark的CLI可以查看集群的运行状态。管理员和运维人员可以通过OmniShuffle的CLI查看集群的运行状态。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词