更新时间:2025-01-23 GMT+08:00
分享

文本类数据集格式要求

ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1

表1 文本类数据集格式要求

文件内容

文件格式

文件要求

文档

txt、mobi、epub、docx、pdf

单个文件大小不超过50GB,文件数量最多1000个。

网页

html

单个文件大小不超过50GB,文件数量最多1000个。

预训练文本

jsonl

  • jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下:
    {"text":"盘古大模型,是华为推出的盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"}
  • 单个文件大小不超过50GB,文件数量最多1000个。。

单轮问答

jsonl、csv

  • jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
    {"context": "你好,请介绍自己", "target": "我是盘古大模型"}
  • csv格式:csv文件的第一列对应context,第二列对应target,具体格式示例如下:
    "你好,请介绍自己","我是盘古大模型"
  • 单个文件大小不超过50GB,文件数量最多1000个。。

单轮问答(人设)

jsonl、csv

  • jsonl格式:system表示人设,context、target分别表示问题、答案。
    {"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"}
  • csv格式:csv文件的第一列对应system,第二三列分别对应context、target。
    "你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。"
  • 单个文件大小不超过50GB,文件数量最多1000个。。

多轮问答

jsonl

  • jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案。
    [{"context":"你好","target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
  • 单个文件大小不超过50GB,文件数量最多1000个。。

多轮问答(人设)

jsonl

  • jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案。
    [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
  • 单个文件大小不超过50GB,文件数量最多1000个。

问答排序

jsonl、csv

  • jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。
    { "context":"context内容","targets":["回答1","回答2","回答3"]}
  • csv格式:csv文件的第一列对应context,其余列为答案。
    "问题","回答1","回答2","回答3"
  • 单个文件大小不超过50GB,文件数量最多1000个。

相关文档