中文
注册

大数据

什么是鲲鹏BoostKit机器学习算法库?

鲲鹏BoostKit机器学习算法库是经过优化的算法库,兼容Spark原生API,对机器学习算法进行了性能优化,大幅提升了大数据算法场景的计算性能。

详情请参见:机器学习算法特性详情页

什么是鲲鹏BoostKit图分析算法库?

鲲鹏BoostKit图分析算法库是经过优化的算法库,兼容Spark原生API,对典型图分析算法进行了性能优化,大幅提升了大规模场景的图分析算法计算性能。

详情请参见:图分析算法特性详情页

鲲鹏BoostKit大数据算法加速库基于Spark原生算法做了哪些创新优化?

鲲鹏BoostKit大数据算法加速库,基于Spark原生算法在算法原理和鲲鹏亲和性上进行了深度优化,算法执行效率倍级提升,最高可达20倍。优化项主要体现在算法共性原理创新和鲲鹏亲和性优化两个方面。

什么是鲲鹏BoostKit大数据OmniRuntime特性?

大数据OmniRuntime是鲲鹏BoostKit大数据面向应用加速推出的一系列特性,旨在通过插件化的形式,端到端提升数据加载、数据计算和数据交换的性能,从而提升大数据分析的性能。OmniRuntime系列特性包括:算子下推(OmniData)、算子加速(OmniOperator)、Shuffle加速(OmniShuffle)、物化视图(OmniMV)。其中,在数据加载阶段,使用算子下推特性实现近数据计算,减少网络数据流量;在数据计算阶段,使用算子加速特性,用高性能Native算子替换原生Java算子,提升算子效率;对于存在重复查询或存在重复子查询的场景,通过AI方式识别出收益比高的物化视图,减少重复子查询的开销,提升查询效率。

详情请参见:OmniRuntime特性指南

OmniRuntime算子加速特性做了哪些创新优化?

OmniRuntime算子加速主要做了以下2个创新优化:

  • 实现了高性能算子。充分利用硬件尤其是异构算力的计算能力,使用Native Code实现了Omni算子,相对于原始的Java算子和Scala算子,Omni算子极大地提升了计算引擎的性能。
  • 实现了高效数据组织方式。定义了一种与语言无关的列式内存格式,使用堆外内存实现了OmniVec,它可以支持零副本读取数据,且没有序列化开销,使用者能够更高效地处理内存中的数据。

详情请参见:算子加速特性

OmniRuntime算子加速特性支持哪些大数据引擎?

OmniRuntime算子加速特性当前支持Spark引擎。

OmniRuntime物化视图特性做了哪些创新优化?

OmniRuntime物化视图特性,通过AI算法从历史SQL查询中推荐出最优物化视图,并会在Spark中自动对用户SQL进行物化视图匹配,将匹配成功的物化视图替换用户执行计划的部分SQL,大幅减少重复计算,提升查询性能,主要做了如下创新优化:

  • 实现了对批量查询的预计算和缓存技术,相对于原始的从基表查询,物化视图极大地提升了计算引擎的性能。
  • 通过深度学习算法和强化学习算法实现了最优物化视图的推荐。

详情请参见:OmniRuntime物化视图

OmniRuntime物化视图特性支持哪些大数据引擎?

OmniRuntime物化视图特性当前支持Spark和ClickHouse引擎。

OmniRuntime算子下推特性做了哪些创新优化?

OmniRuntime算子下推特性通过将数据选择率低的算子下推到存储节点执行,实现在存储节点本地读取数据进行计算,有效的结果数据集通过网络返回到计算节点,提升网络传输效率,优化大数据计算性能。主要做了如下创新优化:

  • 存算协同。聚合算子到存储节点执行计算,降低计算节点的CPU使用率,提升总体计算效率。
  • 数据过滤。过滤非必要数据,减少计算节点处理数据量。

详情请参见:OmniRuntime算子下推

OmniRuntime算子下推特性支持哪些大数据引擎?

OmniRuntime算子下推特性当前支持Spark、Hive和openLooKeng引擎。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词