数据集管理
综述
炎凰数据平台提供数据集管理页面,用户可以在这个页面对数据集进行创建/修改/删除/导入数据等常规操作。
炎凰数据平台内置了一些数据集,比如main
, _audit
, _internal
等等,默认情况下访问_audit
, _internal
等数据集需要管理员权限。
管理数据集
创建数据集
步骤:
输入用户名和密码,登录YHP
点击左侧导航栏导航栏中的
数据管理
标签按钮,进入数据集界面- 点击页面右上角
新建数据集
按钮,开始创建新的数据集。创建数据集需要数据集
页面新建资源
权限,具体的内容参考权限管理
- 点击页面右上角
填入
数据集名称
,点击确定,则成功创建一个空的数据集。最大容量(MB)
限制数据集中数据大小,包含温数据和冷数据,默认为100GB(102400MB),超过限制的数据将会被删除;数据保存时间(小时)
限制数据集中数据保存的时间,默认为不限制;比如设置为90天(2160小时),那么时间(_time
)在90天之前的事件将会被删除;- 可以打开
启用归档
,当数据集中温数据大小超过设置的归档触发大小阈值(MB)
或者温数据时间超过归档触发时间阈值(小时)
的时候,满足条件的数据会被归档到指定路径; - 当同时有满足删除条件的温数据和冷数据,冷数据会优先被删除, 删除的过程是先将数据对应的元数据表标记为删除,实际磁盘数据延迟删除,延迟时间默认为10分钟;
- 可以打开
启用查询已归档数据
,这样搜索的数据结果集里面会包含已经归档的数据,默认是关闭。查询已经归档的数据相对查询未归档的数据会慢;
数据集名称
请以小写字母起始,可包含小写字母、数字、下划线的字符串命名数据集- 如果限制数据集最大容量,
最大容量(MB)
必须为正整数,最小值为1024(MB) - 如果需要限制数据集保存时间,
数据保存时间(小时)
必须为正整数,最小值是1(小时) - 在开启归档情况下,
归档触发大小阈值(MB)
应小于最大容量(MB)
,归档触发时间阈值(小时)
应小于数据保存时间(小时)
- 数据集的
当前容量
是指该数据集在磁盘上的数据量大小,包含温数据和冷数据,但不包含在内存中的热数据 - 为了防止误删除数据,默认情况下,在创建数据集的时候,除系统管理员外的任何角色(包括创建者)对新创建的数据集都没有数据删除的权限,在确实需要的时候,可以手动添加,建议删除数据后将此权限移除来防止误删除
- 以下划线开头的内置数据集是不允许删除数据的,即使是系统管理员也不可以,常规创建的数据集,系统管理员是默认有数据删除权限的。
编辑数据集
步骤:
- 表格中右侧的
编辑
按钮来编辑一个已经建好的数据集; - 用户可以修改
最大容量(MB)
/数据保存时间(小时)
; - 用户可以打开
启用归档
或者启用查询已归档数据
,修改归档触发大小阈值(MB)
和归档触发时间阈值(小时)
;
修改数据集相关设置对应的值需要注意修改所带来的影响。
- 如果将
归档触发大小阈值(MB)
或归档触发时间阈值(小时)
对应的值改大,那么已经归档的数据(冷数据)无法恢复为温数据;
- 假设数据集创建设置为
数据保存时间(小时)
为180天,归档触发时间阈值(小时)
为90天,现修改归档触发时间阈值(小时)
为120天,对应时间在90~120天的数据已经归档,属于冷数据,这部分数据不会恢复为温数据,要查询这部分数据必须开启启用查询已归档数据
; - 假设数据集创建设置为
最大容量(MB)
为100GB,归档触发大小阈值(MB)
为50GB,现修改归档触发大小阈值(MB)
为80GB,原来因为超过50GB已经被归档的数据不会恢复为温数据,要查询这部分数据必须开启启用查询已归档数据
;
- 如果将
最大容量(MB)
或数据保存时间(小时)
对应的值改小,那么超过设定值的数据将被删除
- 假设数据集创建设置为
数据保存时间(小时)
为180天,归档触发时间阈值(小时)
为90天,现修改数据保存时间(小时)
为120天,归档触发时间阈值(小时)
为60天,对应时间在60~90天的数据会被立即归档,对应时间在120~180天的数据会被删除;
删除数据集
步骤:
- 点击表格中右侧的
删除
按钮来删除一个已经建好的数据集
- 删除数据集时,并不会立即删除任何数据,炎凰数据平台只是将元数据表标记为已删除。最终表数据删除前的延迟由STONEWAVE_SYSTEM_STORAGE_GC_INTERVAL设置指定,默认延迟为10分钟。在延迟到达时,且所有查询任务已经完成,数据集将被实际删除。
- 删除数据集,已经归档的数据也会一起被删除。
禁止导入/允许导入数据集
如果用户拥有一个数据集的修改权限,则可以:
对于处于 "已启用" 状态的数据集,可以点击
禁止导入
按钮将其暂时禁用。该数据集处于只读状态,无法继续导入数据,但该数据集的编辑、权限、删除等功能仍可使用。注意: 点击禁止导入
按钮到数据集不再更新数据,中间会有一定的延时,用来停止进行中的数据导入。对于处于 "已禁用" 状态的数据集,可以点击
允许导入
按钮将其重新启用。该数据集将能被再次允许导入数据。
导入数据到对应数据集
步骤: 如果用户拥有数据导入页面访问权限,则可以:
- 点击“导入数据”按钮,会跳转到数据导入页面。
- 导入数据到指定数据集, 您可以参考导入数据
一些内置的数据集是不能被删除,禁用以及导入数据的,比如_internal
。
数据归档设置
数据生命周期
数据的生命周期是一个连续的过程,由多个阶段组成,代表数据的创建,索引创建,归档,删除的过程。 数据在炎凰数据平台中会经历如下四个阶段:
- 热数据
- 温数据
- 冷数据
- 数据删除
热数据
数据导入数据集之后,会存在内存中,处在这个阶段的数据被称为热数据。当热数据满足如下条件之后会转化为温数据,存储到磁盘。
- 数据数目超过设定的值(默认是10万)
- 数据大小超过设定的值(默认是100MB)
- 数据集没有新数据进入的空余时间(默认是1天)
温数据
热数据在满足上述条件之后会存储到磁盘变成温数据,温数据是带索引的数据,数据对应的查询快。
冷数据
如果对数据集设置了归档,当温数据超过一定的大小阈值或者时间阈值时,会转化为冷数据。冷数据同样存储在磁盘,但是没有索引。可以开启对归档数据的查询,不过查询响应速度会相对温数据慢。
如果要将冷数据恢复为温数据,则需要将冷数据重新导入,建立索引。
数据删除
如果对数据集设置了大小或者时间限制,超过限制的数据会被删除,删除的数据无法恢复,也不能被查询。
删除数据是需要额外的数据删除的权限,为了防止数据被误删除,即使是数据集的创建者,默认情况下也没有数据删除的权限,建议在确实需要删除的的情况下给相应的角色添加此权限,而在删除数据后将此权限移除。 以下划线开头的内置数据集是不允许删除数据的,即使是系统管理员也不可以;常规创建的数据集,系统管理员默认有数据删除权限。