文本类数据集格式要求
ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。
文件内容 |
文件格式 |
文件要求 |
---|---|---|
文档 |
txt、mobi、epub、docx、pdf |
数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 |
网页 |
html |
数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 |
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
|
多轮问答 |
jsonl |
|
问答排序 |
jsonl、csv |
|
单轮问答(人设) |
jsonl、csv |
|
多轮问答(人设) |
jsonl |
|