大数据

什么是鲲鹏BoostKit机器学习算法库？

鲲鹏BoostKit机器学习算法库是经过优化的算法库，兼容Spark原生API，对机器学习算法进行了性能优化，大幅提升了大数据算法场景的计算性能。

详情请参见：机器学习算法特性详情页

什么是鲲鹏BoostKit图分析算法库？

鲲鹏BoostKit图分析算法库是经过优化的算法库，兼容Spark原生API，对典型图分析算法进行了性能优化，大幅提升了大规模场景的图分析算法计算性能。

详情请参见：图分析算法特性详情页

鲲鹏BoostKit大数据算法加速库基于Spark原生算法做了哪些创新优化？

鲲鹏BoostKit大数据算法加速库，基于Spark原生算法在算法原理和鲲鹏亲和性上进行了深度优化，算法执行效率倍级提升，最高可达20倍。优化项主要体现在算法共性原理创新和鲲鹏亲和性优化两个方面。

鲲鹏亲和性优化。为了充分匹配和发挥鲲鹏架构的硬件优势，鲲鹏BoostKit从稀疏访存优化、多核并行等方面进行算法亲和性优化。详细介绍请参见：机器学习-鲲鹏亲和性优化、图分析-鲲鹏亲和性优化
算法原理优化。鲲鹏BoostKit大数据算法加速库通过算法原理上的优化，降低算法复杂度，在同等计算精度下，实现计算性能大幅度提升。详细介绍请参见：机器学习-算法原理优化、图分析-算法原理优化

什么是鲲鹏BoostKit大数据OmniRuntime特性？

大数据OmniRuntime是鲲鹏BoostKit大数据面向应用加速推出的一系列特性，旨在通过插件化的形式，端到端提升数据加载、数据计算和数据交换的性能，从而提升大数据分析的性能。OmniRuntime系列特性包括：算子下推（OmniData）、算子加速（OmniOperator）、Shuffle加速（OmniShuffle）、物化视图（OmniMV）。其中，在数据加载阶段，使用算子下推特性实现近数据计算，减少网络数据流量；在数据计算阶段，使用算子加速特性，用高性能Native算子替换原生Java算子，提升算子效率；对于存在重复查询或存在重复子查询的场景，通过AI方式识别出收益比高的物化视图，减少重复子查询的开销，提升查询效率。

详情请参见：OmniRuntime特性指南

OmniRuntime算子加速特性做了哪些创新优化？

OmniRuntime算子加速主要做了以下2个创新优化：

实现了高性能算子。充分利用硬件尤其是异构算力的计算能力，使用Native Code实现了Omni算子，相对于原始的Java算子和Scala算子，Omni算子极大地提升了计算引擎的性能。
实现了高效数据组织方式。定义了一种与语言无关的列式内存格式，使用堆外内存实现了OmniVec，它可以支持零副本读取数据，且没有序列化开销，使用者能够更高效地处理内存中的数据。

详情请参见：算子加速特性

OmniRuntime算子加速特性支持哪些大数据引擎？

OmniRuntime算子加速特性当前支持Spark引擎。

OmniRuntime物化视图特性做了哪些创新优化？

OmniRuntime物化视图特性，通过AI算法从历史SQL查询中推荐出最优物化视图，并会在Spark中自动对用户SQL进行物化视图匹配，将匹配成功的物化视图替换用户执行计划的部分SQL，大幅减少重复计算，提升查询性能，主要做了如下创新优化：

实现了对批量查询的预计算和缓存技术，相对于原始的从基表查询，物化视图极大地提升了计算引擎的性能。
通过深度学习算法和强化学习算法实现了最优物化视图的推荐。

详情请参见：OmniRuntime物化视图

OmniRuntime物化视图特性支持哪些大数据引擎？

OmniRuntime物化视图特性当前支持Spark和ClickHouse引擎。

OmniRuntime算子下推特性做了哪些创新优化？

OmniRuntime算子下推特性通过将数据选择率低的算子下推到存储节点执行，实现在存储节点本地读取数据进行计算，有效的结果数据集通过网络返回到计算节点，提升网络传输效率，优化大数据计算性能。主要做了如下创新优化：

存算协同。聚合算子到存储节点执行计算，降低计算节点的CPU使用率，提升总体计算效率。
数据过滤。过滤非必要数据，减少计算节点处理数据量。

详情请参见：OmniRuntime算子下推

OmniRuntime算子下推特性支持哪些大数据引擎？

OmniRuntime算子下推特性当前支持Spark、Hive和openLooKeng引擎。

父主题： 加速特性