文档 |
txt、mobi、epub、docx、pdf |
从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。 |
网页 |
html |
从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。 |
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
|
单轮问答(人设) |
jsonl、csv |
- jsonl格式:system表示人设,context、target分别表示问题、答案。
{"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"}
- csv格式:csv文件的第一列对应system,第二三列分别对应context、target。
"你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。"
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
多轮问答 |
jsonl |
- jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案。
[{"context":"你好","target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}]
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
多轮问答(人设) |
jsonl |
- jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案。
[{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}]
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
问答排序 |
jsonl、csv |
- jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。
{ "context":"context内容","targets":["回答1","回答2","回答3"]}
- csv格式:csv文件的第一列对应context,其余列为答案。
"问题","回答1","回答2","回答3"
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
偏好优化DPO |
jsonl |
- jsonl格式:context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。
单轮问答
{"context": ["你好,请介绍自己"], "target":"我是盘古大模型", "bad_target":"我不会回答"}
多轮问答
{"context": ["你好,请介绍自己", "我是盘古大模型", "请介绍一下有哪些产品。"], "target":"提供包括但不限于计算、存储、网络等产品服务。", "bad_target":"我不会回答"}
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|
偏好优化DPO(人设) |
jsonl |
- jsonl格式:system表示人设,context表示问题,target表示期望的正确答案,bad_target表示不符合预期的错误答案。
带人设单轮
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己"], "target":"哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "bad_target":"我不会回答"}
带人设多轮
{"system": "你是一位机智幽默的问答助手", "context": ["你好,请介绍自己", "哈哈,你好呀,我是你的聪明助手,怎么帮到你?", "请介绍一下有哪些产品。"], "target":"我们产品种类繁多,不仅涵盖计算、存储和网络,还有更多选择哦 !", "bad_target":"我不会回答"}
- 从OBS导入:单个文件大小不超过50GB,文件数量不限制。
本地上传:单个文件大小不超过10M,文件数量最多100个。
|