更新时间:2024-12-02 GMT+08:00
分享

文本类数据集格式要求

ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1

表1 文本类数据集格式要求

文件内容

文件格式

文件要求

文档

txt、mobi、epub、docx、pdf

数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

网页

html

数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

预训练文本

jsonl

  • jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下:
    {"text":"盘古大模型,是华为推出盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
  • 数据集最大100万个文件,单文件最大2GB,整个数据集最大1.5TB。

单轮问答

jsonl、csv

  • jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
    {"context": "你好,请介绍自己", "target": "我是盘古大模型"}
  • csv格式:csv文件的第一列对应context,第二列对应target,具体格式示例如下:
    "你好,请介绍自己","我是盘古大模型"
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

多轮问答

jsonl

  • jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案,具体格式示例如下:
    [{"context":"你好","target":"你好,请问有什么可以帮助你"},{"context":"请介绍一下盘古大模型","target":"盘古大模型,是华为推出盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}]
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

问答排序

jsonl、csv

  • jsonl格式:context表示问题,targets的回答1、回答2、回答3表示答案的优劣顺序,最好的答案排在最前面。targets内容的数量至少为2个,且最多为6个,具体格式示例如下:
    { "context":"context内容","targets":["回答1","回答2","回答3"]}
  • csv格式:csv文件的第一列对应context,其余列为答案,具体格式示例如下:
    "问题","回答1","回答2","回答3"
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

单轮问答(人设)

jsonl、csv

  • jsonl格式:system表示人设,context、target分别表示问题、答案,具体格式示例如下:
    {"system":"机智幽默","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"}
  • csv格式:csv文件的第一列对应system,第二三列分别对应context、target,具体格式示例如下:
    {"机智幽默","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。"}
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

多轮问答(人设)

jsonl

  • jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案,具体格式示例如下:
    [{"system":"书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
  • 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。

相关文档