更新时间:2026-06-16 GMT+08:00
分享

人工校准

您可以通过可视化标注界面,对数据集进行人工校准,并一键生成标准化数据集并同步至我的数据,供智能精炼等任务使用。

约束限制

  • 一个IAM账号最大创建10个人工校准任务。
  • 数据集样本数大小不能超过一万个。

创建人工校准任务

  1. 登录ModelArts管理控制台,在左侧导航栏选择“数据准备 > 数据精炼”。
  2. “人工校准”页签右上角,单击“创建”,在“创建人工校准”页面,配置相关信息,单击“确定”
    图1 创建人工校准
    表1 创建人工校准参数说明

    参数

    说明

    示例值

    基本信息

    名称

    默认为data-calibration-年月日时分秒,您也可以自定义名称。名称需以中文、字母开头,以中文、字母、数字结尾,长度2~64的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    data-calibration-20260425164425

    描述

    自定义人工校准的描述。只能包含中文、大小写字母、数字,以及空格、中划线、下划线、逗号、句号、括号、冒号、顿号,不支持其他字符。最大支持256个字符。

    -

    任务到期时间

    最多可配置30天,人工校准任务到期后将无法操作,请在截止日期前完成。

    2026/05/25 23:59:59

    校准配置

    标准类型

    支持文本类型。您可以按需选择单轮问答或多轮问答。

    • 单轮问答:精准配对问答,适配静态知识,高效构建单轮对话样本。
    • 多轮问答:延续上下文语境,适配深度咨询,打造逻辑连贯交互样本。

    多轮问答

    关联数据集

    根据您所选择的校准场景,自动筛选可进行人工校准的我的数据集类型。单击卡片,按需选择数据集,单击“确定”

    多轮问答思维链ShareGPT-0327-001

    当人工校准任务状态变为“进行中”时,表示任务创建成功。

执行校准任务

通过可视化标注界面完成校准。支持修正标注错误、补充缺失标注,融合精准校验、批量核对功能,确保数据准确。下文以多轮问答任务为例进行说明。

  1. “人工校准”页签,在状态为“进行中”的人工校准任务右侧,单击“标注”
  2. 对问答对中的输入、思考过程、输出进行校对,单击“提交”
    • 内容不正确:按需修改不正确的内容。
    • 内容无效:在页面右下角单击“无效数据”。设为无效数据后将重置标注内容恢复到初始内容。

    人工校准任务名称右侧会显示任务的进度。当所有数据均标注后,任务状态会显示为“已完成”

生成数据集

将校准结果汇总导出,整合校准数据。支持预览详情、校验完整性,一键生成标准化数据集并同步至我的数据,供后续使用。

  1. “人工校准”页签,单击人工校准任务右侧的“生成”
  2. “生成数据集”面板,配置相关信息,单击“确定”
    表2 生成数据集参数说明

    参数

    说明

    示例值

    数据集名称

    自定义数据集的名称。名称需以中文、字母开头,以中文、字母、数字结尾,长度2~63的字符。只允许输入中文、字母、数字、中划线、下划线字符。

    dataset

    输出数据内容

    按需选择已标注数据、未标注内容、有效数据、无效数据。

    已标注数据、有效数据

    存储地址

    支持选择“对象存储 OBS - 对象桶”或者“对象存储 OBS - 并行文件系统”。您可以单击图标选择OBS存储地址或者手动输入存储地址。存储地址必须以“obs://”或者“/”开头,以“/”结尾,且除前缀外不得出现“//”,例如obs://bucketname/path/或者/bucketname/path/。

    obs://bucketname/path/

    数据集属性

    单击图标,可按需配置数据集的属性,例如行业、语言等。

    -

    描述

    自定义数据集的描述。可输入中文、大小写字母、数字,以及空格、中划线、下划线、逗号、句号、括号、冒号、顿号,不支持其他字符。最大长度不超过100个字符。

    -

    数据集状态

    上线后的数据集才可被下游模型训练等作业任务调用。

    • 打开“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为上线状态,可以被下游模型训练等作业直接使用。
    • 关闭“立即上线数据集”,生成数据集在“资产管理 > 数据 >我的数据”页面为下线状态,不可被下游模型训练等作业直接使用,需要手动上线数据集后才能使用。

    打开“立即上线数据集”

查看校准任务详情

“人工校准”页签,单击人工校准任务名称,可以查看校准任务详情,例如已完成校准的样本数、总样本数、总进度、校准任务的基本信息、关联的数据集、生成的数据集等。

图2 校准任务详情

删除人工校准任务

对于不需要的人工校准任务,可以进行删除操作。删除后,人工校准任务无法恢复,请谨慎操作。

  1. “人工校准”页签,单击人工校准任务名称右侧的“删除”
  2. “删除人工校准任务”对话框,输入DELETE,单击“确定”

后续操作

生成的数据集可用于二次人工校准、智能精炼模型训练等操作。

相关文档