数据标注
- 在数据服务首页左侧导航,选择 。
- 在“我的数据集”页签单击新增的数据集。
- 单击 。
- 配置“选择文件”页面,如图1所示。
主要参数说明如下:
- 任务名称:自定义输入。
- 文件:待标注数据文件,只支持.CSV格式的文件。若数据源为OBS数据源,请从对应OBS桶中选择文件; 若数据源为本地数据,请从本地路径选择文件。
- 分隔符:选择分隔符。
- 数据输出:选择已标注的结果文件或者输入本次标注结果文件存储路径。
- 标签组:选择已有标签组或者新增标签组。
- 单击“下一步”,配置“选择数据”页面,如图2所示。
- 单击“行数据过滤”右侧的“新增”。
- 配置过滤列的列名及列值。
- 如需配置多个筛选条件,可继续单击“新增”,配置过滤列及列值。
最多仅允许设置3列过滤列,且3列的取值组合不能超过6个。
- 在“指标分组”下方“Group1”分组内设置该分组需要展示的指标,一个分组内可同时设置多个指标。
- 如需设置其他分组,单击“指标分组”右侧的“添加分组”,继续设置分组内的指标。
最多允许设置5个分组。如果当前行数据过滤的列值有多个取值,则只允许设置一个分组。
- 行数据过滤:将数据文件中的列作为筛选条件对需要标注的数据进行筛选。如一份文件中包含多个网元的指标数据,可以根据网元筛选出所需标注的指标数据。
- 指标分组:根据业务对指标进行分组,方便用户识别。一个分组对应一个结果图表,同一分组内的指标在同一个结果图表内展示。
- 单击“开始标注”,得到数据信息图,如图3所示。
- 根据数据信息图判断异常数据,选用标注工具将异常数据标注为异常值,完成数据标注。
用户可以选择如下几种标注方法:
- :横向选择工具,可横向选择连续时间戳的数据进行批量标注。
- :纵向选择工具,可纵向选择连续值区域内的数据进行批量标注。
- :局部选择工具,可在坐标轴内选择任意连续区域内的数据进行批量标注。
- :自动标注工具,可按照系统定义的规则对当前数据进行自动检测,自动标注;也可自定义阈值规则对数据进行自动检测和标注;自定义概念漂移参数对数据进行概念漂移检测。
- :坐标轴修改工具,可修改主次坐标以及主次坐标的取值范围。如果一个图表内指标数量大于一个,可以设置指标对应的主次坐标。
- :清除标注工具,可以一键清除已标注的未保存数据内容。
- :切割工具,按某列特征数据将一个文件分类切割为多个文件后进行标注。
- :聚类工具,将不同列按共同特征数据进行聚合进行标注。分为自动聚类和手动聚类。
- 单击界面右上角“保存结果”或者单击图表内右上角的“”,保存标注结果。
“保存结果”保存当前页所有的标注结果;“”保存当前分组的标注结果,如果只有一个分组,二者保存内容一致。
系统默认以*_Label.csv的格式将当前数据标注结果保存到租户OBS空间中。
标注后的数据文件存放在与KPI原始文件相同的路径中。用户使用“数据加载”工具,将数据从OBS空间迁移到数据服务MRS中,进而在“数据建模”和“数据处理”中对MRS中的已标注数据进行数据处理,最后通过“数据集”发布数据集。订阅数据集中的数据,在“模型训练服务”中进行模型训练,如图4所示。