文本类数据集格式要求

ModelArts Studio大模型开发平台支持创建文本类数据集，创建时可导入多种形式的数据，具体格式要求详见表1。

表1 文本类数据集格式要求
文件内容	文件格式	文件要求
文档	txt、mobi、epub、docx、pdf	从OBS导入：单个文件大小不超过1GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
网页	html	从OBS导入：单个文件大小不超过1GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
预训练文本	jsonl	jsonl格式：text表示预训练所使用的文本数据，具体格式示例如下： {"text":"盘古大模型，是华为推出的盘古系列AI大模型，包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
单轮问答	jsonl、csv	jsonl盘古格式-非思维链：数据由问答对构成，context、target分别表示问题、答案，具体格式示例如下： {"context": ["你好，请介绍自己"], "target": "我是盘古大模型"} jsonl盘古格式-非思维链（用于RFT）：context为问题的描述，target为问题的标答。具体格式示例如下： {"context": "你是一位经验丰富的医生。请基于患者的症状信息，对候选疾病进行可能性排序。\n\n输入信息包括：\n1.显性症状列表：[['咳嗽', 'True'], ['鼻塞', 'True'], ['黄鼻涕', 'True'], ['绿鼻涕', 'True']]\n2.隐性症状列表：[['出生后20天左右着凉', 'True'], ['清鼻涕', 'True'], ['哭时喉咙里有痰', 'True'], ['右边眼睛发痒', 'True'], ['有黄眼屎', 'True']]\n3.候选疾病列表：['呼吸道感染', '腺样体肥大', '上呼吸道感染']\n\n请按照以下步骤进行分析：\n1.综合分析所有症状信息\n2.对每个候选疾病评估其与症状的匹配程度\n3.基于症状表现的典型性和特异性进行排序\n4.将疾病按可能性从高到低排序，并以json格式输出最终的排序列表\n\n示例输出：\n{\n \"possible_diseases\": [\"疾病1\", \"疾病2\", \"疾病3\"]\n}\n\n请基于以上标准对该患者的候选疾病进行分析并给出排序结果。", "target": "上呼吸道感染"} jsonl盘古格式-非思维链（用于GRPO）：目前仅支持数学类数据，context和target分别代表问题和可验证的回答。target的内容为问题的标准答案，不包含任何推理流程，只需要最终结果。具体格式示例如下： {"context": "Let $P(x)$ be a polynomial of degree $3n$ such that\n\\begin{align} P(0) = P(3) = \\dots = P(3n) &= 2, \\\\ P(1) = P(4) = \\dots = P(3n+1-2) &= 1, \\\\ P(2) = P(5) = \\dots = P(3n+2-2) &= 0. \\end{align}\nAlso, $P(3n+1) = 730$. Determine $n$.", "target": "1"} jsonl盘古格式-思维链：数据由问答对构成，context、target分别表示问题、答案，并且target必须包含think标签对表示思考过程，具体格式示例如下： {"context": ["你好，请介绍自己"], "target": "<think>用户让我介绍一下自己。首先，我需要明确用户的身份和使用场景</think>我是盘古大模型"} csv盘古格式-非思维链：csv文件的第一列对应context，第二列对应target，具体格式示例如下： "你好，请介绍自己","我是盘古大模型" csv盘古格式-思维链：csv文件的第一列对应context，第二列对应target，并且target必须包含think标签对，具体格式示例如下： "你好，请介绍自己","<think>用户让我介绍一下自己。首先，我需要明确用户的身份和使用场景</think>我是盘古大模型" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
单轮问答（人设）	jsonl、csv	jsonl盘古格式-非思维链：system表示人设，context、target分别表示问题、答案。具体格式示例如下： {"system":"你是一个机智幽默问答助手","context":["你好，请介绍自己"],"target":"哈哈，你好呀，我是你的聪明助手。"} jsonl盘古格式-非思维链（用于RFT）：system代表人设，context为问题的描述，target为问题的标答。具体格式示例如下： {"system": "你是一个擅长于逻辑推理的AI助手，专注于针对用户的问题给出高质量解答。", "context": "你是一位经验丰富的医生。请基于患者的症状信息，对候选疾病进行可能性排序。\n\n输入信息包括：\n1.显性症状列表：[['咳嗽', 'True'], ['鼻塞', 'True'], ['黄鼻涕', 'True'], ['绿鼻涕', 'True']]\n2.隐性症状列表：[['出生后20天左右着凉', 'True'], ['清鼻涕', 'True'], ['哭时喉咙里有痰', 'True'], ['右边眼睛发痒', 'True'], ['有黄眼屎', 'True']]\n3.候选疾病列表：['呼吸道感染', '腺样体肥大', '上呼吸道感染']\n\n请按照以下步骤进行分析：\n1.综合分析所有症状信息\n2.对每个候选疾病评估其与症状的匹配程度\n3.基于症状表现的典型性和特异性进行排序\n4.将疾病按可能性从高到低排序，并以json格式输出最终的排序列表\n\n示例输出：\n{\n \"possible_diseases\": [\"疾病1\", \"疾病2\", \"疾病3\"]\n}\n\n请基于以上标准对该患者的候选疾病进行分析并给出排序结果。", "target": "上呼吸道感染"} jsonl盘古格式-非思维链（用于GRPO）：目前仅支持数学类数据，system代表人设，context和target分别代表问题和可验证的回答。target的内容为问题的标准答案，不包含任何推理流程，只需要最终结果。具体格式示例如下： {"system":"数学专家", "context": "Let $P(x)$ be a polynomial of degree $3n$ such that\n\\begin{align} P(0) = P(3) = \\dots = P(3n) &= 2, \\\\ P(1) = P(4) = \\dots = P(3n+1-2) &= 1, \\\\ P(2) = P(5) = \\dots = P(3n+2-2) &= 0. \\end{align}\nAlso, $P(3n+1) = 730$. Determine $n$.", "target": "1"} jsonl盘古格式-思维链：system表示人设，context、target分别表示问题、答案，并且target必须包含think标签对表示思考过程，具体格式示例如下： {"system":"你是一个机智幽默问答助手","context":["你好，请介绍自己"],"target":"<think>用户让我介绍一下自己。首先，我需要明确用户的身份和使用场景</think>哈哈，你好呀，我是你的聪明助手。"} csv盘古格式-非思维链：csv文件的第一列对应system，第二三列分别对应context、target。具体格式示例如下： "你是一个机智幽默问答助手","你好，请介绍自己","哈哈，你好呀，我是你的聪明助手。" csv盘古格式-思维链：csv文件的第一列对应system，第二三列分别对应context、target，并且target必须包含think标签对表示思考过程，具体格式示例如下： "你是一个机智幽默问答助手","你好，请介绍自己","<think>用户让我介绍一下自己。首先，我需要明确用户的身份和使用场景</think>哈哈，你好呀，我是你的聪明助手。" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
多轮问答	jsonl	jsonl盘古格式-非思维链：数组格式，由一轮或多轮问答对构成。context、target分别表示问题、答案，具体格式示例如下： [{"context":["你好"],"target":"你好，请问有什么可以帮助你的？"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] jsonl盘古格式-思维链：数组格式，由一轮或多轮问答对构成，其中context、target分别表示问题、答案，并且至少有一轮问答的target包含think标签对表示思考过程，具体格式示例如下： [{"context":["你好"],"target":"<think>用户让我介绍一下自己。首先，我需要明确用户的身份和使用场景</think>你好，请问有什么可以帮助你的？"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
多轮问答（人设）	jsonl	jsonl盘古格式-非思维链：数组格式，由一轮或多轮问答对构成。system表示人设，context、target分别表示问题、答案。具体格式示例如下： [{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"嗨！你好，需要点什么帮助吗？"},{"context":["能给我推荐点书吗？"],"target":"当然可以，基于你的兴趣，我推荐你阅读《自动驾驶的未来》。"}] jsonl盘古格式-思维链：数组格式，由人设一轮或多轮问答对构成。system表示人设，context、target分别表示问题、答案，并且至少有一轮问答的target包含think标签对表示思考过程，具体格式示例如下： [{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"<think>用户在打招呼，需要回复以及询问</think>嗨！你好，需要点什么帮助吗？"},{"context":["能给我推荐点书吗？"],"target":"<think>我需要以专家的身份给客户推荐书籍</think>当然可以，基于你的兴趣，我推荐你阅读《自动驾驶的未来》。"}] 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
问答排序	jsonl、csv	jsonl格式：context表示问题，targets答案1、2、3表示答案的优劣顺序，最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式：csv文件的第一列对应context，其余列为答案。 "问题","回答1","回答2","回答3" 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
偏好优化DPO	jsonl	jsonl盘古格式-非思维链：context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。具体格式示例如下：单轮问答 {"context": ["你好，请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"} 多轮问答 {"context": ["你好，请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} jsonl盘古格式-思维链：context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案，答案中至少有一个包含think标签对表示思考过程，具体格式示例如下：单轮问答 {"context": ["你好，请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"} 多轮问答 {"context": ["你好，请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。
偏好优化DPO（人设）	jsonl	jsonl盘古格式-非思维链：system表示人设，context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案。具体格式示例如下：带人设单轮问答 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己"], "target":"哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "bad_target":"我不会回答"} 带人设多轮问答 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己", "哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多，不仅涵盖计算、存储和网络，还有更多选择哦！", "bad_target":"我不会回答"} jsonl盘古格式-思维链：system表示人设，context表示问题，target表示期望的正确答案，bad_target表示不符合预期的错误答案，答案中至少有一个包含think标签对表示思考过程，具体格式示例如下：带人设单轮问答 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己"], "target":"哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "bad_target":"我不会回答"} 带人设多轮问答 {"system": "你是一位机智幽默的问答助手", "context": ["你好，请介绍自己", "哈哈，你好呀，我是你的聪明助手，怎么帮到你？", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>我们产品种类繁多，不仅涵盖计算、存储和网络，还有更多选择哦！", "bad_target":"我不会回答"} 从OBS导入：单个文件大小不超过50GB，文件数量不限制。本地上传：单个文件大小不超过10M，文件数量最多100个。