架构
鲲鹏BoostKit大数据支持多个大数据平台,包括离线分析、实时检索、实时流处理等多个场景。
实时检索,通常是指数据实时写入,对海量数据基于索引主键实时查询,查询响应时间要求较高,查询条件相对比较简单。查询条件复杂的可以根据关键词在全域数据中通过索引搜索主键后,通过主键查询。全域数据既包含了结构化数据又包含了文本数据。典型特点:
- 查询响应时间要求较高,毫秒级
- 高并发
- 处理数据量巨大,PB级
- 能够同时处理结构化和非结构化的数据
- 全文检索功能
- 近实时索引
实时检索详细的系统架构如图1所示。
名称 |
说明 |
---|---|
数据源 |
数据源的种类包括文件数据(TXT、CSV等)和流式数据(Socket流、OGG日志流等)。 |
数据采集系统 |
|
实时检索引擎 |
|
业务应用 |
使用Elasticsearch、HBase API、RESTful接口等开发的实时检索应用,由ISV开发。 |
父主题: 实时检索