中文
注册

架构

鲲鹏BoostKit大数据支持多个大数据平台,包括离线分析、实时检索、实时流处理等多个场景。

离线分析,通常是指对T-1产生的海量数据进分析和处理,形成结果数据,供下一步数据应用使用。离线处理对处理时间要求不高,但是所处理数据量较大,占用计算存储资源较多,通常通过MR或者Spark作业或者SQL作业实现。典型特点如下:

  • 处理时间要求不高
  • 处理数据量巨大,PB级
  • 处理数据格式多样
  • 多个作业调度复杂
  • 占用计算存储资源多
  • 支持SQL类作业和自定义作业
  • 容易产生资源抢占

离线分析系统数据底座以HDFS分布式存储系统为主,计算引擎以基于MapReduce的Hive和基于Spark的SparkSQL为主,详细的系统架构如图1所示。

图1 大数据离线计算场景架构
表1 大数据离线场景各类节点说明

名称

说明

数据源

数据源的种类包括流式数据(Socket流、OGG日志流、日志文件),批量文件数据、数据库等。

实时数据采集系统

  • Flume:用于Socket流或者日志文件等的数据采集。
  • 第三方采集工具:第三方或者定制开发的数据采集工具或程序,较为常见的模式有采集后送入Kafka + Spark Streaming进行数据预处理和实时加载。

批量采集系统

  • Flume:用于批量采集数据文件日志文件。
  • Sqoop:用于批量采集数据库数据。
  • 第三方采集/ETL工具:第三方数据采集、加载、处理工具。

离线批处理引擎

  • Hive:传统SQL批处理引擎,用于处理SQL类批处理作业,使用广泛,海量数据下表现稳定,但处理速度较慢。
  • MapReduce:传统批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业, 使用广泛,海量数据下表现稳定,但处理速度较慢。
  • Spark SQL:新型SQL批处理引擎,用于处理SQL类批处理作业,适合海量数据,处理速度高效。
  • Spark:新型批处理引擎,用于处理非SQL类,尤其是数据挖掘和机器学习类批处理作业,适合海量数据,处理速度高效。
  • Yarn:资源调度引擎,为各种批处理引擎提供资源调度能力,是多租户资源分配的基础。
  • HDFS:分布式文件系统,为各种批处理引擎提供数据存储服务,可以存储各种文件格式数据。

业务应用

查询并使用批处理结果的业务应用,由ISV开发。

搜索结果
找到“0”个结果

当前产品无相关内容

未找到相关内容,请尝试其他搜索词