Skip to main content
Version: 2.13.0

数据加工

对于导入炎凰数据平台的各种数据,支持对数据进行二次加工,从原始数据当中提取有用的信息,生成新字段,以满足实际业务需求。

字段抽取

通过字段抽取功能,用户可以对指定数据抽取额外的字段,目前支持查询时的字段抽取功能。

使用说明

创建字段抽取规则

步骤:

1.在查询页面输入SQL来查询数据,点击抽取新字段按钮。 field_extraction_search_page

note

只有查询结果中包含_message_datatype字段才可以进行字段抽取。

2.进入字段抽取页面,选择目标数据源类型。 select_data_type 如果选择的数据源类型为内置数据源类型,会有提示框确认要对内置数据源类型的字段抽取规则进行修改。 select_buildIn_dataypte_1 select_buildIn_dataypte_2

caution

如非必要,请不要选择内置数据源类型进行字段抽取。由于内置数据源类型被许多数据所使用,对其修改可能导致其他不相关数据字段抽取产生问题。

3.选中一条事件作为样例事件。 select_sample_event 4.点击下一步进入抽取规则设置页面。在该页面,可以编辑抽取规则,并预览抽取结果。 目前支持的抽取规则包括:

  • 键值对抽取:针对类似key=value的字段,会抽取出新的字段key,对应的值为value。
  • JSON抽取:对于JSON类型的字段进行解析。
  • IP地址抽取:对于包含地理信息的字段,解析出对应的地理字段信息。
  • 正则抽取:通过正则表达式从数据中抽取一个或多个新字段,每个字段在正则表达式中表现为一个捕获组。 field_extraction_edit 对于正则抽取,默认可以通过划词的方式来进行字段抽取,会自动生成对应的正则表达式。可点击显示正则表达式按钮,查看生成的正则表达式。 view_regex_extraction 如果划词无法生成字段,则需要手动点击该字段并删除。 regex_failed 如果划词生成的正则无法满足抽取需求,可以点击编辑正则表达式,手动输入正则来进行字段抽取。 manual_edit_regexfield_extraction_edit_regex
caution

选择手动编辑正则表达式后,将无法再使用划词生成正则表达式的功能。

5.点击下一步进入抽取规则预览页面,预览并命名字段抽取规则。 field_extraction_preview 6.点击保存,完成字段抽取规则创建。

字段抽取页面

在字段抽取页面,用户可以新建字段抽取规则,或者对已有字段抽取规则进行编辑,删除等操作。 field_extraction_list_page 如果需要删除字段抽取规则,必须确保该抽取规则没有绑定任何数据源类型并且不是内置抽取规则。可以点击解除绑定按钮来进行解绑操作。 field_extraction_delete_pipeline 点击新建规则应用按钮,可以进入字段抽取页面创建新字段抽取规则。在该页面,可以通过选择数据集,数据源类型,查询时间范围和关键字快速搜索数据,其他流程和创建字段抽取规则步骤一致。 field_extraction_from_list_page