文档 |
txt、mobi、epub、docx、pdf |
从OBS导入:单个文件大小不超过1GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。 |
网页 |
html |
从OBS导入:单个文件大小不超过1GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。 |
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
- jsonl盘古格式-非思维链:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下:
{"context": ["你好,请介绍自己"], "target": "我是盘古大模型"}
- jsonl盘古格式-思维链:数据由问答对构成,context、target分别表示问题、答案,并且target必须包含think标签对表示思考过程,具体格式示例如下:
{"context": ["你好,请介绍自己"], "target": "<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>我是盘古大模型"}
- csv盘古格式-非思维链:csv文件的第一列对应context,第二列对应target,具体格式示例如下:
"你好,请介绍自己","我是盘古大模型"
- csv盘古格式-思维链:csv文件的第一列对应context,第二列对应target,并且target必须包含think标签对,具体格式示例如下:
"你好,请介绍自己","<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>我是盘古大模型"
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
单轮问答(人设) |
jsonl、csv |
- jsonl盘古格式-非思维链:system表示人设,context、target分别表示问题、答案。具体格式示例如下:
{"system":"你是一个机智幽默问答助手","context":["你好,请介绍自己"],"target":"哈哈,你好呀,我是你的聪明助手。"}
- jsonl盘古格式-思维链:system表示人设,context、target分别表示问题、答案, 并且target必须包含think标签对表示思考过程,具体格式示例如下:
{"system":"你是一个机智幽默问答助手","context":["你好,请介绍自己"],"target":"<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>哈哈,你好呀,我是你的聪明助手。"}
- csv盘古格式-非思维链:csv文件的第一列对应system,第二三列分别对应context、target,具体格式示例如下:
"你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。"
- csv盘古格式-思维链:csv文件的第一列对应system,第二三列分别对应context、target, 并且target必须包含think标签对表示思考过程,具体格式示例如下:
"你是一个机智幽默问答助手","你好,请介绍自己","<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>哈哈,你好呀,我是你的聪明助手。"
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
多轮问答 |
jsonl |
- jsonl盘古格式-非思维链:数组格式,由一轮或多轮问答对构成,其中context、target分别表示问题、答案,具体格式示例如下:
[{"context":["你好"],"target":"你好,请问有什么可以帮助你的?"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
- jsonl盘古格式-思维链:数组格式,由一轮或多轮问答对构成,其中context、target分别表示问题、答案,并且至少有一轮问答的target包含think标签对表示思考过程,具体格式示例如下:
[{"context":["你好"],"target":"<think>用户让我介绍一下自己。首先,我需要明确用户的身份和使用场景</think>你好,请问有什么可以帮助你的?"},{"context":["请介绍一下华为云的产品。"],"target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
多轮问答(人设) |
jsonl |
- jsonl盘古格式-非思维链:数组格式,由人设和一轮或多轮问答对构成。system表示人设,context、target分别表示问题、答案,具体格式示例如下:
[{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"嗨!你好,需要点什么帮助吗?"},{"context":["能给我推荐点书吗?"],"target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
- jsonl盘古格式-思维链:数组格式,由人设一轮或多轮问答对构成。system表示人设,context、target分别表示问题、答案,并且至少有一轮问答的target包含think标签对表示思考过程,具体格式示例如下:
[{"system":"你是一位书籍推荐专家"},{"context":["你好"],"target":"<think>用户在打招呼,需要回复以及询问</think>嗨!你好,需要点什么帮助吗?"},{"context":["能给我推荐点书吗?"],"target":"<think>我需要以专家的身份给客户推荐书籍</think>当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
问答排序 |
jsonl、csv |
- jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。
{ "context":"context内容","targets":["回答1","回答2","回答3"]}
- csv格式:csv文件的第一列对应context,其余列为答案。
"问题","回答1","回答2","回答3"
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
偏好优化DPO |
jsonl |
- jsonl盘古格式-非思维链:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,具体格式示例如下:
单轮问答
{"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
多轮问答
{"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"}
- jsonl盘古格式-思维链:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,答案中至少有一个包含think标签对表示思考过程,具体格式示例如下:
单轮问答
{"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
多轮问答
{"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"}
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
偏好优化DPO(人设) |
jsonl |
- jsonl盘古格式-非思维链:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,具体格式示例如下:
带人设单轮问答
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
带人设多轮问答
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"}
- jsonl盘古格式-思维链:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案,答案中至少有一个包含think标签对表示思考过程,具体格式示例如下:
带人设单轮问答
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
带人设多轮问答
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"<think>客户想要了解产品</think>我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"}
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|