预置数据
预置数据集是ModelArts平台为用户提供的开箱即用的高质量数据资源。这些数据集是行业通用数据集,符合开源协议要求,能够兼容主流的训练框架。使用预置数据集,能够保证数据集版本可追溯,确保实验可复现。您可以根据实际场景,选择合适的数据集直接在平台环境调用。
使用场景
预置数据典型使用场景如下:
- 使用预置数据集配合用户自定义数据完成数据精炼,合成下游需要数据集。
- 使用预置数据集完成大模型预训练与微调,提升模型基础能力,通过人类偏好数据优化模型响应质量。
- 结合图像、视频、音频数据构建跨模态能力,开发多模态模型。
- 作为标准测试集评估模型性能,完成模型能力基线评估。
约束限制
- 仅西南-贵阳一区域的新版控制台支持。
操作指南
- 前往ModelArts管理控制台。
- 在左侧导航栏中选择“资产管理 > 数据 > 预置数据”页签,平台预置数据集会以卡片形式呈现。通过预置数据卡片,可查看数据集名称、模态、类型、简介、更新时间、样本数等信息。
图1 预置数据集卡片
- 单击预置数据集卡片,可查看预置数据集详情。包含基本信息和数据预览。
- 基本信息:预置数据集名称、模态、类型、样本数、数据集大小、描述信息等信息和数据集属性、行业、语言、标签等扩展信息。
图2 预置数据基本信息
- 数据预览:数据预览能够支持文本、表格类结构化数据展示部分样例,支持分页查看、查看原始数据结构,非结构化数据(图像/音频)支持缩略预览。
图3 预置数据预览
- 基本信息:预置数据集名称、模态、类型、样本数、数据集大小、描述信息等信息和数据集属性、行业、语言、标签等扩展信息。
预置数据集介绍
ModelArts平台预置文本、图片类数据集,当前预置数据相关信息参见表1,请根据具体场景选择对应数据集。
|
名称 |
预置标签 |
数据集简介 |
大小 |
样本数 |
语言 |
链接 |
|---|---|---|---|---|---|---|
|
ai-expert-alpaca |
文本、单轮问答 |
该数据集包含高质量的问答对,用于大型语言模型的监督式微调(SFT),重点关注三大核心人工智能技术领域:大型语言模型(LLM)、检索增强生成(RAG)和智能体系统。该数据集全面覆盖了这些前沿人工智能技术,涵盖英语和中文两种语言。 |
8.2MB |
11235 |
中文、英语 |
https://huggingface.co/datasets/GXMZU/ai-expert-alpaca?utm_source=chatgpt.com |
|
GPT-4-LLM |
文本、单轮问答 |
Alpaca-CoT是一个大规模、高质量、融合了多种任务类型的指令微调数据集。 |
33.47MB |
48818 |
中文 |
https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json |
|
alpaca_data |
文本、单轮问答 |
该数据集由斯坦福Alpaca发布,其中包含通过自监督技术获得的52K条英语指令执行样本。 |
20.0MB |
52002 |
英语 |
https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/alpaca |
|
alpaca_gpt4_data |
文本、单轮问答 |
该数据集由Instruction-Tuning-with-GPT-4发布。它包含52K个由GPT-4生成的英语指令遵循样本,这些样本使用Alpaca提示词生成,用于微调大语言模型(LLMs)。 |
40.4MB |
52002 |
英语 |
https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/alpacaGPT4 |
|
code_alpaca |
文本、单轮问答 |
该数据集由codealpaca发布,包含20022个样本的代码生成任务。 |
6.7MB |
20022 |
英语 |
https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/CodeAlpaca |
|
lunara-aesthetic-image-variations |
图片 |
该数据集包含Moonworks创作的原始图像和艺术作品。 |
17.7MB |
36 |
中文 |
https://huggingface.co/datasets/moonworks/lunara-aesthetic-image-variations/tree/main |