架构

鲲鹏BoostKit大数据支持多个大数据平台，包括离线分析、实时检索、实时流处理等多个场景。

实时检索，通常是指数据实时写入，对海量数据基于索引主键实时查询，查询响应时间要求较高，查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后，通过主键查询。全域数据既包含了结构化数据又包含了文本数据。典型特点：

实时检索详细的系统架构如图1所示。

图1 大数据实时检索场景架构

表1 大数据实时检索场景各类节点说明
名称	说明
数据源	数据源的种类包括文件数据（TXT、CSV等）和流式数据（Socket流、OGG日志流等）。
数据采集系统	文件数据通过批量加载（Flume或者其他第三方加载工具）写入数据。流式数据通过实时加载（Spark Streaming或者其他第三方采集工具）写入数据。
实时检索引擎	HBase：用于主键查询（Key-Value）检索，查询条件简单，主要通过主键进行查询。 Elasticsearch：用于全文检索或者当做HBase存储的非主键索引。Elasticsearch可以既存数据又存索引，但由于性价比低，只适合小规模局点。实时检索引擎（Elasticsearch+HBase）适合快速检索，也就是根据指定条件查询结果，不适用于统计（Group、Sum等）和复杂查询（Join、In、子查询等）。
业务应用	使用Elasticsearch、HBase API、RESTful接口等开发的实时检索应用，由ISV开发。

父主题： 实时检索