文档首页/ 盘古大模型 PanguLargeModels/ 用户指南/ 盘古大模型服务使用流程
更新时间:2025-11-04 GMT+08:00

盘古大模型服务使用流程

盘古大模型服务简介

盘古大模型服务包含三方大模型与ModelArts Studio大模型开发平台。凭借“模型+开发平台”的产品组合,助力各行业客户实现一站式的大模型开发与应用能力。

ModelArts Studio大模型开发平台是盘古大模型服务推出的包括数据管理、模型训练、模型部署于一体的综合平台,专为开发和应用大模型而设计,旨在为开发者提供简单、高效的大模型开发和部署方式。平台配备数据工程、模型开发、应用开发三大工具链,帮助开发者充分利用盘古大模型的功能。

数据工程使用流程

ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。

数据工程使用流程见图1表1

图1 数据工程使用流程图
表1 数据工程使用流程表

流程

子流程

说明

操作指导

准备工作

申请试用盘古大模型服务

盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。

申请试用ModelArts Studio大模型开发平台

订购盘古大模型服务

正式使用盘古大模型服务前,需要完成服务的订购操作。

订购盘古大模型服务

配置服务访问授权

为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。

配置服务访问授权

创建并管理盘古工作空间

平台支持用户自定义创建工作空间,并进行空间的统一管理。

创建并管理工作空间

导入数据至盘古平台

创建导入任务

将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。

导入数据至盘古平台

加工数据集

加工数据集

通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。

加工数据集

合成数据集

利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。

标注数据集

为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。

配比数据集

数据配比是将多个数据集按特定比例组合并生成为“加工数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。

发布数据集

评估数据集

平台预置了多种数据类型的基础评估标准,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。

发布数据集

发布数据集

数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。

平台支持发布的数据集格式为标准格式、盘古格式

  • 标准格式:平台默认的格式。该格式的数据集不可应用于盘古大模型的模型开发中,但可以发布为资产。
  • 盘古格式:训练盘古大模型时,需要发布为该格式,可用于盘古大模型的模型开发。当前仅文本类、图片类数据集支持发布为盘古格式。