更新时间:2026-03-09 GMT+08:00
分享

预置数据

预置数据集是ModelArts平台为用户提供的开箱即用的高质量数据资源。这些数据集是行业通用数据集,符合开源协议要求,能够兼容主流的训练框架。使用预置数据集,能够保证数据集版本可追溯,确保实验可复现。您可以根据实际场景,选择合适的数据集直接在平台环境调用。

使用场景

预置数据典型使用场景如下:

  1. 使用预置数据集配合用户自定义数据完成数据精炼,合成下游需要数据集。
  2. 使用预置数据集完成大模型预训练与微调,提升模型基础能力,通过人类偏好数据优化模型响应质量。
  3. 结合图像、视频、音频数据构建跨模态能力,开发多模态模型。
  4. 作为标准测试集评估模型性能,完成模型能力基线评估。

约束限制

  • 仅西南-贵阳一区域的新版控制台支持。

操作指南

  1. 前往ModelArts管理控制台
  2. 在左侧导航栏中选择“资产管理 > 数据 > 预置数据”页签,平台预置数据集会以卡片形式呈现。通过预置数据卡片,可查看数据集名称、模态、类型、简介、更新时间、样本数等信息。
    图1 预置数据集卡片
  3. 单击预置数据集卡片,可查看预置数据集详情。包含基本信息数据预览
    • 基本信息:预置数据集名称、模态、类型、样本数、数据集大小、描述信息等信息和数据集属性、行业、语言、标签等扩展信息。
      图2 预置数据基本信息
    • 数据预览:数据预览能够支持文本、表格类结构化数据展示部分样例,支持分页查看、查看原始数据结构,非结构化数据(图像/音频)支持缩略预览。
      图3 预置数据预览

预置数据集介绍

ModelArts平台预置文本、图片类数据集,当前预置数据相关信息参见表1,请根据具体场景选择对应数据集。

表1 预置数据集清单

名称

预置标签

数据集简介

大小

样本数

语言

链接

ai-expert-alpaca

文本、单轮问答

该数据集包含高质量的问答对,用于大型语言模型的监督式微调(SFT),重点关注三大核心人工智能技术领域:大型语言模型(LLM)、检索增强生成(RAG)和智能体系统。该数据集全面覆盖了这些前沿人工智能技术,涵盖英语和中文两种语言。

8.2MB

11235

中文、英语

https://huggingface.co/datasets/GXMZU/ai-expert-alpaca?utm_source=chatgpt.com

GPT-4-LLM

文本、单轮问答

Alpaca-CoT是一个大规模、高质量、融合了多种任务类型的指令微调数据集。

33.47MB

48818

中文

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json

alpaca_data

文本、单轮问答

该数据集由斯坦福Alpaca发布,其中包含通过自监督技术获得的52K条英语指令执行样本。

20.0MB

52002

英语

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/alpaca

alpaca_gpt4_data

文本、单轮问答

该数据集由Instruction-Tuning-with-GPT-4发布。它包含52K个由GPT-4生成的英语指令遵循样本,这些样本使用Alpaca提示词生成,用于微调大语言模型(LLMs)。

40.4MB

52002

英语

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/alpacaGPT4

code_alpaca

文本、单轮问答

该数据集由codealpaca发布,包含20022个样本的代码生成任务。

6.7MB

20022

英语

https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/tree/main/CodeAlpaca

lunara-aesthetic-image-variations

图片

该数据集包含Moonworks创作的原始图像和艺术作品。

17.7MB

36

中文

https://huggingface.co/datasets/moonworks/lunara-aesthetic-image-variations/tree/main

相关文档