上传文件导入数据
通过WEB上传文件到炎凰数据平台
步骤
进入炎凰数据平台 点击左侧导航栏中的导入数据, 进入“从文件导入数据”的页面。 默认情况下,“user”角色可以访问“从文件导入数据”页面,并上传、导入文件到目标数据集。具体的内容参考权限管理
上传文件
预览数据 在此步骤中您可以通过点击"数据格式"下拉菜单去选择数据格式。目前,平台内置若干种常用的数据格式。具体内容请参考内置datatype
当然在此步骤中您也可以自定义数据格式,并选择是否保存自定义数据格式。
导入数据 您可以选择事件需要存储的数据集名称,数据源的主机名称和数据源的名称。通常,数据源主机名就是上传文件当前主机的主机名,数据源的名称就是文件名。 还可以即时创建所需要的数据集,新创建的数据集会被默认选中。 点击"导入"按钮将数据导入目标数据集。
完成 您可以选择继续导入其他数据或打开搜索查询页面
事件的预览
在上传文件的时候,确定上传数据之前,可以预览数据解析的结果。例如上传csv数据的时候,可以预览对csv解析的结果,确保选择的数据源类型属性ingestion_time_extraction=csv
,炎凰数据平台会将csv的所有字段解析,并且构建索引。样例如下:
预览事件的时间戳提取
上传文件的时候,可以预览文件当中的事件的时间戳解析结果。时间戳解析的表属性配置,请参考数据目录中的数据源类型属性
时间戳提取配置样例
有如下一份csv样本的数据,存储的是新冠疫情每日的汇总报表数据。
FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incidence_Rate,Case-Fatality_Ratio
,,,Afghanistan,2020-10-28 04:24:39,33.93911,67.709953,41032,1523,34217,5292,Afghanistan,105.40392666617876,3.7117371807369857
,,,Albania,2020-10-28 04:24:39,41.1533,20.1683,19729,487,10808,8434,Albania,685.55841267635,2.4684474631253486
每一行是一个事件,事件的时间戳需要从Last_Update字段提取。那么需要配置数据源类型属性如下
table_name = "covid_daily_report"
ingestion_time_extraction = "csv"
timestamp_config = "config"
timestamp_field = "Last_Update"
timestamp_format = "%F %T"
更多时间戳解析的配置样例,可参考配置时间戳解析的样例
导入压缩文件到炎凰数据平台
上传压缩文件
炎凰数据平台支持除了导入文件外还支持上传压缩类型(zip、tar、tar.gz、tgz)文件并导入到目标数据集。
压缩类型文件预览
压缩类型文件的预览不同于单独文件的预览显示字段提取内容,而是显示压缩文件的目录结构。
压缩类型文件导入
导入压缩文件完成后会显示内部文件的导入结果
查询导入结果
在实例中,导入示例文件'Archive.zip'到数据集'zipimport'之后,打开查询页面输入查询语句例如select _source from zipimport
运行查看结果