跳到主要内容
版本:2.15.0

数据导入方式概述

数据导入总体分为推(Push)拉(Pull)两类。

  • 推的方式是指外部系统通过调用炎凰数据平台的API接口,将数据主动发送到平台当中。
  • 拉的方式是利用特定的数据采集程序,在程序中设置采集任务,将待集采的数据导入到炎凰数据平台当中存储。

针对推的数据接入方式

针对推的模式,炎凰数据平台可以支持

  1. 上传文件
  2. 通过API导入数据
  3. 通过搜索语句导入数据
  4. 通过Vector导入数据
  5. 采集Kafka数据
  6. 采集Syslog数据

针对拉的数据导入方式

针对拉的模式,用户可以灵活的选择自己熟悉的数据采集Agent,通过配置Agent的采集任务,将目标机器上的数据采集和预处理之后,发送给炎凰数据平台。

以下是常用的开源数据采集器配置说明

  1. 通过Vector导入数据

鸿鹄数据导入链路的数据持久化

警告

关于鸿鹄数据导入过程中的数据持久化和可靠性

  1. 数据导入鸿鹄之后,鸿鹄存储引擎会先将数据缓存到内存,达到一定条件之后,再将数据批量写入磁盘完成持久化。因此,请务必使用 honghuctl stop 命令停止鸿鹄服务,在鸿鹄正常退出的时候,会把内存中的数据写入磁盘。如果直接强制关机,或者在极端情况下操作系统强制重启,则可能引发内存中的数据丢失。
  2. 鸿鹄的数据导入通路中,暂时没有提供ack机制,在数据导入过程中,鸿鹄提供的数据传输保证是"尽力而为地传输"(best effort)。在极端情况下,譬如有超大数据流量直接发送到鸿鹄数据采集通路时,可能引发数据丢失。对于大数据量导入的场景,我们推荐使用鸿鹄对接业界成熟的数据采集或消息队列方案(例如Kafka)来进行,确保数据采集流量的稳定平滑。我们也更推荐使用炎凰数据平台商业版,在商业版中,数据导入全过程都保证数据的持久化,数据进入炎凰数据平台商业版之后,无需担心数据丢失,同时,数据传输保证是“至少传输一次”(at least onace)。