更新时间:2026-02-05 GMT+08:00
分享

文本类数据集格式要求

ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1

表1 文本类数据集格式要求

文件内容

文件格式

文件要求

单轮问答

jsonl、csv

  • jsonl盘古格式-非思维链:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
    {"context": ["你好,请介绍自己"], "target": "我是盘古大模型"}
  • jsonl盘古格式-非思维链(用于RFT):context为问题的描述,target为问题的标答。具体格式示例如下:
    {"context": "你是一位经验丰富的医生。请基于患者的症状信息,对候选疾病进行可能性排序。\n\n输入信息包括:\n1.显性症状列表:[['咳嗽', 'True'], ['鼻塞', 'True'], ['黄鼻涕', 'True'], ['绿鼻涕', 'True']]\n2.隐性症状列表:[['出生后20天左右着凉', 'True'], ['清鼻涕', 'True'], ['哭时喉咙里有痰', 'True'], ['右边眼睛发痒', 'True'], ['有黄眼屎', 'True']]\n3.候选疾病列表:['呼吸道感染', '腺样体肥大', '上呼吸道感染']\n\n请按照以下步骤进行分析:\n1.综合分析所有症状信息\n2.对每个候选疾病评估其与症状的匹配程度\n3.基于症状表现的典型性和特异性进行排序\n4.将疾病按可能性从高到低排序,并以json格式输出最终的排序列表\n\n示例输出:\n{\n    \"possible_diseases\": [\"疾病1\", \"疾病2\", \"疾病3\"]\n}\n\n请基于以上标准对该患者的候选疾病进行分析并给出排序结果。", "target": "上呼吸道感染"}
  • jsonl盘古格式-非思维链(用于GRPO):目前仅支持数学类数据,context和target分别代表问题和可验证的回答。target的内容为问题的标准答案,不包含任何推理流程,只需要最终结果。具体格式示例如下:
    {"context": "Let $P(x)$ be a polynomial of degree $3n$ such that\n\\begin{align*} P(0) = P(3) = \\dots = P(3n) &= 2, \\\\ P(1) = P(4) = \\dots = P(3n+1-2) &= 1, \\\\ P(2) = P(5) = \\dots = P(3n+2-2) &= 0. \\end{align*}\nAlso, $P(3n+1) = 730$. Determine $n$.", "target": "1"}
  • jsonl盘古格式-思维链:数据由问答对构成,context、target分别表示问题、答案,并且target必须包含think标签对表示思考过程,具体格式示例如下:
    {"context": ["你好,请介绍自己"], "target": "<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>我是盘古大模型"}
  • csv盘古格式-非思维链:csv文件的第一列对应context,第二列对应target,具体格式示例如下:
    "你好,请介绍自己","我是盘古大模型"
  • csv盘古格式-思维链:csv文件的第一列对应context,第二列对应target,并且target必须包含think标签对,具体格式示例如下:
    "你好,请介绍自己","<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>我是盘古大模型"
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

单轮问答(人设)

jsonl、csv

  • jsonl盘古格式-非思维链:system表示人设,context、target分别表示问题、答案。具体格式示例如下:
    {"system":"你是一个机智幽默问答助手","context":["你好,请介绍自己"],"target":"哈哈,你好呀,我是你的聪明助手。"}
  • jsonl盘古格式-非思维链(用于RFT):system代表人设,context为问题的描述,target为问题的标答。具体格式示例如下:
    {"system": "你是一个擅长于逻辑推理的AI助手,专注于针对用户的问题给出高质量解答。", "context": "你是一位经验丰富的医生。请基于患者的症状信息,对候选疾病进行可能性排序。\n\n输入信息包括:\n1.显性症状列表:[['咳嗽', 'True'], ['鼻塞', 'True'], ['黄鼻涕', 'True'], ['绿鼻涕', 'True']]\n2.隐性症状列表:[['出生后20天左右着凉', 'True'], ['清鼻涕', 'True'], ['哭时喉咙里有痰', 'True'], ['右边眼睛发痒', 'True'], ['有黄眼屎', 'True']]\n3.候选疾病列表:['呼吸道感染', '腺样体肥大', '上呼吸道感染']\n\n请按照以下步骤进行分析:\n1.综合分析所有症状信息\n2.对每个候选疾病评估其与症状的匹配程度\n3.基于症状表现的典型性和特异性进行排序\n4.将疾病按可能性从高到低排序,并以json格式输出最终的排序列表\n\n示例输出:\n{\n    \"possible_diseases\": [\"疾病1\", \"疾病2\", \"疾病3\"]\n}\n\n请基于以上标准对该患者的候选疾病进行分析并给出排序结果。", "target": "上呼吸道感染"}
  • jsonl盘古格式-非思维链(用于GRPO):目前仅支持数学类数据,system代表人设,context和target分别代表问题和可验证的回答。target的内容为问题的标准答案,不包含任何推理流程,只需要最终结果。具体格式示例如下:
    {"system":"数学专家", "context": "Let $P(x)$ be a polynomial of degree $3n$ such that\n\\begin{align*} P(0) = P(3) = \\dots = P(3n) &= 2, \\\\ P(1) = P(4) = \\dots = P(3n+1-2) &= 1, \\\\ P(2) = P(5) = \\dots = P(3n+2-2) &= 0. \\end{align*}\nAlso, $P(3n+1) = 730$. Determine $n$.", "target": "1"}
  • jsonl盘古格式-思维链:system表示人设,context、target分别表示问题、答案, 并且target必须包含think标签对表示思考过程,具体格式示例如下:
    {"system":"你是一个机智幽默问答助手","context":["你好,请介绍自己"],"target":"<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>哈哈,你好呀,我是你的聪明助手。"}
  • csv盘古格式-非思维链:csv文件的第一列对应system,第二三列分别对应context、target。具体格式示例如下:
    "你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。"
  • csv盘古格式-思维链:csv文件的第一列对应system,第二三列分别对应context、target, 并且target必须包含think标签对表示思考过程,具体格式示例如下:
    "你是一个机智幽默问答助手","你好,请介绍自己","<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>哈哈,你好呀,我是你的聪明助手。"
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

多轮问答

jsonl

  • jsonl盘古格式-非思维链:数组格式,由一轮或多轮问答对构成。context、target分别表示问题、答案,具体格式示例如下:
    [{"context":["你好"],"target":"你好,请问有什么可以帮助你的?"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
  • jsonl盘古格式-思维链:数组格式,由一轮或多轮问答对构成,其中context、target分别表示问题、答案,并且至少有一轮问答的target包含think标签对表示思考过程,具体格式示例如下:
    [{"context":["你好"],"target":"<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>你好,请问有什么可以帮助你的?"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

多轮问答(人设)

jsonl

  • jsonl盘古格式-非思维链:数组格式,由一轮或多轮问答对构成。system表示人设,context、target分别表示问题、答案。具体格式示例如下:
    [{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"嗨!你好,需要点什么帮助吗?"},{"context":["能给我推荐点书吗?"],"target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
  • jsonl盘古格式-思维链:数组格式,由人设一轮或多轮问答对构成。system表示人设,context、target分别表示问题、答案,并且至少有一轮问答的target包含think标签对表示思考过程,具体格式示例如下:
    [{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"<think>用户在打招呼,需要回复以及询问</think>嗨!你好,需要点什么帮助吗?"},{"context":["能给我推荐点书吗?"],"target":"<think>我需要以专家的身份给客户推荐书籍</think>当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

问答排序

jsonl、csv

  • jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。
    { "context":"context内容","targets":["回答1","回答2","回答3"]}
  • csv格式:csv文件的第一列对应context,其余列为答案。
    "问题","回答1","回答2","回答3"
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

偏好优化DPO

jsonl

  • jsonl盘古格式-非思维链:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。具体格式示例如下:
    单轮问答
    {"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
    多轮问答
    {"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"}
  • jsonl盘古格式-思维链:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,答案中至少有一个包含think标签对表示思考过程,具体格式示例如下:
    单轮问答
    {"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
    多轮问答
    {"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"}
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

偏好优化DPO(人设)

jsonl

  • jsonl盘古格式-非思维链:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。具体格式示例如下:
    带人设单轮问答
    {"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
    带人设多轮问答
    {"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"}
  • jsonl盘古格式-思维链:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,答案中至少有一个包含think标签对表示思考过程,具体格式示例如下:
    带人设单轮问答
    {"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
    带人设多轮问答
    {"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"}
  • 从OBS导入:单个文件/压缩包大小不超过20GB,文件数量不限制。

相关文档