更新时间:2024-09-03 GMT+08:00
分享

检测数据集质量

数据集创建成功后,平台将对数据集中的数据进行质量校验,并给出健康度评分、合规度评分与数据长度分布。

检测数据集质量

  1. 在“数据工程 > 数据管理”页面,选择“我的数据集”或者“训练数据集”页签。
  2. 单击数据集名称,进入数据集详情页,查看详细的数据质量。

    其中,数据长度按照token长度划分为2K以下、2K-4K、4K-8K等多个区间,用户可以参考模型训练所需数据量与数据格式要求,调整训练数据。

    图1 校验数据集质量
    表1 健康度校验规则说明

    校验项

    说明

    异常符号校验

    数据中不能存在异常字符,异常字符示例如下。

    \u0000 \u0001 \u0002 � ● █ ◆ ◪ ►  ♒ ♉ ♋  ♔ ♖ ✓ ✕ ✗ ☐ ☒ ✔ ✖ ✘ ↓ ◇ ↑ ■☺ ✉ ☏ ☂ ☃ ✿ ❁ ❦ ❂ ☮ ☪ ✄ ☸ ☣ ⚡ ♻ ☠ ⇠ ← ↑ ↔ ▲ ▼ ➔ ➨ ➜ ➟ ➤ ➦ ➵ ➼ ➺ ➾ → ↓ ↕ ► ◄ 

    表情符号校验

    校验数据中是否存在表情符号,如 ⛪ 璉等,常见表情符清单请参见Full Emoji List

    空值校验

    校验数据中是否存在空字符串。

    异常格式校验

    检查数据是否满足数据格式要求

    冗余换行符校验

    检查数据中是否存在连续两个及以上的换行符。

    表2 健康度状态说明

    正常数据量

    健康度颜色

    是否可用于训练

    >=80%

    绿色

    可用

    >=40%

    黄色

    预警,需要优化数据

    <40%

    红色

    告警,需要优化数据

    • 正常数据量:数据集中,有效数据占总体数据的比例。
    • 预警:数据集中,有效数据占总体数据的比例在40%-80%之间,表示数据质量较差,提示需要进行优化。
    • 告警:数据集中,有效数据占总体数据的比例低于40%,表示数据质量极差,提示需要进行优化。
    表3 合规度校验规则说明

    校验项

    说明

    个人隐私

    校验数据中是否存在个人隐私信息,例如,身份证号、手机号、固定电话、Email地址、护照号、车牌号、军官证、车架号、GPS地址、IP地址、MAC地址和IMEI码等。

    敏感关键词

    校验数据中是否存在敏感关键字,如涉政信息。

    表4 合规度状态说明

    合规数据量

    合规度颜色

    是否可用于训练

    >=80%

    绿色

    可用

    >=40%

    黄色

    预警,需要优化数据

    <40%

    红色

    告警,需要优化数据

  3. (可选)当“我的数据集”的OBS数据发生变更时,可以单击右上角“检测”按钮重新校验数据集,也可以在“我的数据集”页签中,单击操作栏中的“更多 > 检测”,重新校验数据集。历史存量未校验过的数据集也可以进行重新校验。
    图2 重新校验数据集质量1
    图3 重新校验数据集质量2

相关文档