文本类数据集格式要求
ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。
文件内容 |
文件格式 |
文件要求 |
---|---|---|
文档 |
txt、mobi、epub、docx、pdf |
单个文件大小不超过50GB,文件数量最多1000个。 |
网页 |
html |
单个文件大小不超过50GB,文件数量最多1000个。 |
预训练文本 |
jsonl |
|
单轮问答 |
jsonl、csv |
|
单轮问答(人设) |
jsonl、csv |
|
多轮问答 |
jsonl |
|
多轮问答(人设) |
jsonl |
|
问答排序 |
jsonl、csv |
|