文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 盘古大模型服务使用流程
更新时间:2025-07-28 GMT+08:00

盘古大模型服务使用流程

盘古大模型服务简介

盘古大模型服务包含盘古基础大模型、盘古行业大模型与ModelArts Studio大模型开发平台。凭借“模型+开发平台”的产品组合,助力各行业客户实现一站式的大模型开发与应用能力。

ModelArts Studio大模型开发平台是盘古大模型服务推出的包括数据管理、模型训练、模型部署于一体的综合平台,专为开发和应用大模型而设计,旨在为开发者提供简单、高效的大模型开发和部署方式。平台配备数据工程、模型开发、应用开发三大工具链,帮助开发者充分利用盘古大模型的功能。
  • 数据工程工具链:数据是大模型训练的核心基础。数据工程工具链作为平台的重要组成部分,具备数据获取、数据加工和数据发布等功能,确保数据的高质量与一致性。工具链能够高效收集并处理各种格式的数据,满足不同训练任务的需求,并提供强大的数据存储和管理能力,为大模型训练提供坚实的数据支持。
  • 模型开发工具链:模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案,涵盖模型训练、压缩、部署、评测、调用等功能,保障模型的高效应用。
  • 应用开发工具链:应用开发工具链是盘古大模型平台的重要模块,支持提示词工程、Agent开发,显著加速大模型应用的开发流程,帮助企业快速应对复杂业务需求。

数据工程使用流程

ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。

数据工程使用流程见图1表1

图1 数据工程使用流程图
表1 数据工程使用流程表

流程

子流程

说明

准备工作

申请试用盘古大模型服务

盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。

订购盘古大模型服务

正式使用盘古大模型服务前,需要完成服务的订购操作。

配置服务访问授权

为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。

创建并管理盘古工作空间

平台支持用户自定义创建工作空间,并进行空间的统一管理。

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

加工数据集

加工数据集

通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

合成数据集

利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。

标注数据集

为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

配比数据集

数据配比是将多个数据集按特定比例组合并生成为“加工数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。

发布数据集

评估数据集

平台预置了多种数据类型的基础评估标准,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。

发布数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

平台支持发布的数据集格式为标准格式、盘古格式

  • 标准格式:平台默认的格式。该格式的数据集可发布为资产,但不可应用于盘古大模型的开发中。
  • 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。