Skip to main content
Version: 2.15.0

数据加工

对于导入炎凰数据平台的各种数据,支持对数据进行二次加工,从原始数据当中提取有用的信息,生成新字段,以满足实际业务需求。

字段抽取

字段抽取规则

通过字段抽取功能,用户可以对指定数据抽取额外的字段,用于查询分析。字段抽取基本操作包含:键值对抽取、JSON抽取、正则抽取、IP地址抽取等。对于单个数据源类型的数据而言,抽取过程包含上述操作的各种组合,YHP将组合后的抽取过程用字段抽取规则来表示。在数据源类型中将字段抽取规则赋值给search_time_extraction即可使得对应数据源类型的数据在查询时自动生成所需的抽取字段。您可以在字段加工页面自定义字段抽取规则以满足您的需求。由于查询时抽取的字段不会被存储,仅在查询阶段动态生成,您可在数据导入后,按需调试抽取规则。

预定义字段抽取规则

YHP提供了少量预定义字段抽取规则,当您不需要复杂的抽取过程时,可直接使用预定义抽取规则填入数据源类型的search_time_extraction选项中:

  • autokv_pipeline: 仅对数据进行键值对抽取
  • json_pipeline: 仅对数据进行JSON抽取
  • apache_access_log_pipeline: 预定义的apache access log抽取规则
  • nginx_access_log_pipeline: 预定义的nginx access log抽取规则
  • yhp_connector_log_pipeline: 预定义的YHP connector log抽取规则

自定义字段抽取规则

创建字段抽取规则

步骤:

1.在查询页面输入SQL来查询数据,点击抽取新字段按钮。 field_extraction_search_page

note

只有查询结果中包含_message_datatype字段才可以进行字段抽取。

2.进入字段抽取页面,选择目标数据源类型。 select_data_type 如果选择的数据源类型为内置数据源类型,会有提示框确认要对内置数据源类型的字段抽取规则进行修改。 select_buildIn_dataypte_1 select_buildIn_dataypte_2

caution

如非必要,请不要选择内置数据源类型进行字段抽取。由于内置数据源类型被许多数据所使用,对其修改可能导致其他不相关数据字段抽取产生问题。

3.选中一条事件作为样例事件。 select_sample_event 4.点击下一步进入抽取规则设置页面。在该页面,可以编辑抽取规则,并预览抽取结果。 目前支持的抽取规则包括:

  • 键值对抽取:针对类似key=value的字段,会抽取出新的字段key,对应的值为value。
  • JSON抽取:对于JSON类型的字段进行解析。
  • IP地址抽取:对于包含地理信息的字段,解析出对应的地理字段信息。
  • 正则抽取:通过正则表达式从数据中抽取一个或多个新字段,每个字段在正则表达式中表现为一个捕获组。 field_extraction_edit 对于正则抽取,默认可以通过划词的方式来进行字段抽取,会自动生成对应的正则表达式。可点击显示正则表达式按钮,查看生成的正则表达式。 view_regex_extraction 如果划词无法生成字段,则需要手动点击该字段并删除。 regex_failed 如果划词生成的正则无法满足抽取需求,可以点击编辑正则表达式,手动输入正则来进行字段抽取。 manual_edit_regexfield_extraction_edit_regex
caution

选择手动编辑正则表达式后,将无法再使用划词生成正则表达式的功能。

5.点击下一步进入抽取规则预览页面,预览并命名字段抽取规则。 field_extraction_preview 6.点击保存,完成字段抽取规则创建。

字段抽取页面

在字段抽取页面,用户可以新建字段抽取规则,或者对已有字段抽取规则进行编辑,删除等操作。 field_extraction_list_page 如果需要删除字段抽取规则,必须确保该抽取规则没有绑定任何数据源类型并且不是内置抽取规则。可以点击解除绑定按钮来进行解绑操作。 field_extraction_delete_pipeline 点击新建规则应用按钮,可以进入字段抽取页面创建新字段抽取规则。在该页面,可以通过选择数据集,数据源类型,查询时间范围和关键字快速搜索数据,其他流程和创建字段抽取规则步骤一致。 field_extraction_from_list_page