检测数据集质量
数据集创建成功后,平台将对数据集中的数据进行质量校验,并给出健康度评分、合规度评分与数据长度分布。
检测数据集质量
- 在“数据工程 > 数据管理”页面,选择“我的数据集”或者“训练数据集”页签。
- 单击数据集名称,进入数据集详情页,查看详细的数据质量。
其中,数据长度按照token长度划分为2K以下、2K-4K、4K-8K等多个区间,用户可以参考模型训练所需数据量与数据格式要求,调整训练数据。
图1 校验数据集质量
表1 健康度校验规则说明 校验项
说明
异常符号校验
数据中不能存在异常字符,异常字符示例如下。
\u0000 \u0001 \u0002 � ● █ ◆ ◪ ► ♒ ♉ ♋ ♔ ♖ ✓ ✕ ✗ ☐ ☒ ✔ ✖ ✘ ↓ ◇ ↑ ■☺ ✉ ☏ ☂ ☃ ✿ ❁ ❦ ❂ ☮ ☪ ✄ ☸ ☣ ⚡ ♻ ☠ ⇠ ← ↑ ↔ ▲ ▼ ➔ ➨ ➜ ➟ ➤ ➦ ➵ ➼ ➺ ➾ → ↓ ↕ ► ◄
表情符号校验
校验数据中是否存在表情符号,如 ⛪ 璉等,常见表情符清单请参见Full Emoji List。
空值校验
校验数据中是否存在空字符串。
异常格式校验
检查数据是否满足数据格式要求。
冗余换行符校验
检查数据中是否存在连续两个及以上的换行符。
表2 健康度状态说明 正常数据量
健康度颜色
是否可用于训练
>=80%
绿色
可用
>=40%
黄色
预警,需要优化数据
<40%
红色
告警,需要优化数据
- 正常数据量:数据集中,有效数据占总体数据的比例。
- 预警:数据集中,有效数据占总体数据的比例在40%-80%之间,表示数据质量较差,提示需要进行优化。
- 告警:数据集中,有效数据占总体数据的比例低于40%,表示数据质量极差,提示需要进行优化。
表3 合规度校验规则说明 校验项
说明
个人隐私
校验数据中是否存在个人隐私信息,例如,身份证号、手机号、固定电话、Email地址、护照号、车牌号、军官证、车架号、GPS地址、IP地址、MAC地址和IMEI码等。
敏感关键词
校验数据中是否存在敏感关键字,如涉政信息。
表4 合规度状态说明 合规数据量
合规度颜色
是否可用于训练
>=80%
绿色
可用
>=40%
黄色
预警,需要优化数据
<40%
红色
告警,需要优化数据
- (可选)当“我的数据集”的OBS数据发生变更时,可以单击右上角“检测”按钮重新校验数据集,也可以在“我的数据集”页签中,单击操作栏中的“更多 > 检测”,重新校验数据集。历史存量未校验过的数据集也可以进行重新校验。
图2 重新校验数据集质量1
图3 重新校验数据集质量2