中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

架构

鲲鹏BoostKit大数据支持多个大数据平台,包括离线分析、实时检索、实时流处理等多个场景。

实时检索,通常是指数据实时写入,对海量数据基于索引主键实时查询,查询响应时间要求较高,查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后,通过主键查询。全域数据既包含了结构化数据又包含了文本数据。典型特点:

  • 查询响应时间要求较高,毫秒级
  • 高并发
  • 处理数据量巨大,PB级
  • 能够同时处理结构化和非结构化的数据
  • 全文检索功能
  • 近实时索引

实时检索详细的系统架构如图1所示。

图1 大数据实时检索场景架构
表1 大数据实时检索场景各类节点说明

名称

说明

数据源

数据源的种类包括文件数据(TXT、CSV等)和流式数据(Socket流、OGG日志流等)。

数据采集系统

  • 文件数据通过批量加载(Flume或者其他第三方加载工具)写入数据。
  • 流式数据通过实时加载(Spark Streaming或者其他第三方采集工具)写入数据。

实时检索引擎

  • HBase:用于主键查询(Key-Value)检索,查询条件简单,主要通过主键进行查询。
  • Elasticsearch:用于全文检索或者当做HBase存储的非主键索引。Elasticsearch可以既存数据又存索引,但由于性价比低,只适合小规模局点。
  • 实时检索引擎(Elasticsearch+HBase)适合快速检索,也就是根据指定条件查询结果,不适用于统计(Group、Sum等)和复杂查询(Join、In、子查询等)。

业务应用

使用Elasticsearch、HBase API、RESTful接口等开发的实时检索应用,由ISV开发。