架构

鲲鹏BoostKit大数据支持多个大数据平台，包括离线分析、实时检索、实时流处理等多个场景。

离线分析，通常是指对T-1产生的海量数据进分析和处理，形成结果数据，供下一步数据应用使用。离线处理对处理时间要求不高，但是所处理数据量较大，占用计算存储资源较多，通常通过MR或者Spark作业或者SQL作业实现。典型特点如下：

处理时间要求不高
处理数据量巨大，PB级
处理数据格式多样
多个作业调度复杂
占用计算存储资源多
支持SQL类作业和自定义作业
容易产生资源抢占

离线分析系统数据底座以HDFS分布式存储系统为主，计算引擎以基于MapReduce的Hive和基于Spark的SparkSQL为主，详细的系统架构如图1所示。

图1 大数据离线计算场景架构
点击放大

表1 大数据离线场景各类节点说明
名称	说明
数据源	数据源的种类包括流式数据（Socket流、OGG日志流、日志文件），批量文件数据、数据库等。
实时数据采集系统	Flume：用于Socket流或者日志文件等的数据采集。第三方采集工具：第三方或者定制开发的数据采集工具或程序，较为常见的模式有采集后送入Kafka + Spark Streaming进行数据预处理和实时加载。
批量采集系统	Flume：用于批量采集数据文件日志文件。 Sqoop：用于批量采集数据库数据。第三方采集/ETL工具：第三方数据采集、加载、处理工具。
离线批处理引擎	Hive：传统SQL批处理引擎，用于处理SQL类批处理作业，使用广泛，海量数据下表现稳定，但处理速度较慢。 MapReduce：传统批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，使用广泛，海量数据下表现稳定，但处理速度较慢。 Spark SQL：新型SQL批处理引擎，用于处理SQL类批处理作业，适合海量数据，处理速度高效。 Spark：新型批处理引擎，用于处理非SQL类，尤其是数据挖掘和机器学习类批处理作业，适合海量数据，处理速度高效。 Yarn：资源调度引擎，为各种批处理引擎提供资源调度能力，是多租户资源分配的基础。 HDFS：分布式文件系统，为各种批处理引擎提供数据存储服务，可以存储各种文件格式数据。
业务应用	查询并使用批处理结果的业务应用，由ISV开发。

父主题： 离线分析