鸿鹄使用手册
鸿鹄简介
鸿鹄是由上海炎凰数据科技有限公司打造的异构数据即时分析平台的社区版。用户可以加入鸿鹄技术社区,即可免费下载使用鸿鹄轻松完成各类数据任务。
鸿鹄是针对时间序列做特殊优化、基于”读时模式“和列式存储的能够处理各种不同类型数据的大数据平台,同时也具有和兼容“写时模式”。鸿鹄提供从数据的采集、导入、索引、搜索到最终的数据展示和任务告警等一系列服务,帮助用户更快的从海量数据中定位问题以及提供解决方案,从而更好的完成在这个新的信息化时代下的数字化转型,使用数据驱动业务发展,发挥数据的价值。炎凰数据平台的业务范围涵盖了金融、银行、医疗、交通、信息安全、IT运维、智慧城市、物联网服务等各个领域。
鸿鹄是一个全栈式的大数据分析平台,它包含前端页面展示,中间 web 层以及后端基于时间序列的非结构化数据库。鸿鹄提供的是端到端的解决方案,包括了数据导入、存储、管理、查询计算,以及最终的可视化展示的功能。
tip
鸿鹄只能部署在一个节点上,不支持集群部署。如果有大数据量分析的需求,需要使用集群,请选择炎凰数据平台商业版,支撑海量数据分析的场景。关于更多炎凰数据平台商业版产品的信息,请联系我们。
基本概念和技术术语
在了解鸿鹄之前,首先要明确如下一些基本的基本概念和技术术语,这些术语会贯穿于使用手册的各个部分。
- 事件( Event ): 事件是指一条带有时间戳的包含了结构化,半结构化或者非结构化的文本数据的记录。它是平台存储数据的时候的逻辑抽象实体。日常生活中存在大量事件,例如互联网公司通常记录的用户行为数据,每个记录,就是一个事件。又例如,在日常聊天软件中,每一条聊天记录,也可以看成是一个事件。每一条事件,都会包含一个特定的时间戳,表示这个事实发生的时间点,同时,事件是不可变的(immutable),每一条事件发生了,被记录了,就成为了一个事实,是不能修改的。
- 字段( Field ):在平台当中,字段是事件中的特定信息。一个事件可以包含很多个字段,每个字段由字段名(Field Name)和字段值(Field Value)两部分组成。因此,事件是由多个字段共同构成的。字段的值是有类型区分的,包括字符串,整数,浮点数和布尔类型。
- 内置字段( Built-in Field ):每一条存储于平台的事件,都包含着有如下字段名的内置字段
_message
: 一个字符串类型的字段,它存储着event的原始的信息。通常,一条日志(log)的内容就会被存储到该字段当中。_datatype
: 一个字符串类型的字段,每一个event都必须要有的字段,该字段是event的元信息字段,用来标记event的数据源类型和结构。_source
:一个字符串类型的字段,用来标记event的来源,也属于event的元信息字段。例如,从某个应用系统来的日志,通常,该字段会被设置为应用的名称,或者是日志文件的文件名。_host
:一个字符串类型的字段,用来标记生成event的机器信息,也属于event的元信息字段。例如,某个event从某个终端机器采集得到,那么该字段就是这个采集event的程序所在机器的机器名或者机器ID。
- 数据集( Event Set ):数据集是一个一组事件的集合,用来存储事件的容器。每一个查询,都需要描述清楚从哪个数据集开始进行查询。导入数据的时候,都需要明确的指出事件存储在哪个数据集中。
- 索引( Index ):平台在存储事件的时候,会针对事件的内容做倒排索引,同时,也会针对时间的时间戳做特定的索引,索引的功能只是用于加速查询,并不会用于保存原始数据。
鸿鹄产品概览
图中虚线部分是鸿鹄的产品服务模块概览,鸿鹄包含若干个运行在容器中的服务,服务之间通过API通信。