盘古大模型服务使用流程

盘古大模型服务简介

盘古大模型服务包含三方大模型与ModelArts Studio大模型开发平台。凭借“模型+开发平台”的产品组合，助力各行业客户实现一站式的大模型开发与应用能力。

ModelArts Studio大模型开发平台是盘古大模型服务推出的包括数据管理、模型训练、模型部署于一体的综合平台，专为开发和应用大模型而设计，旨在为开发者提供简单、高效的大模型开发和部署方式。平台配备数据工程、模型开发、应用开发三大工具链，帮助开发者充分利用盘古大模型的功能。

数据工程使用流程

ModelArts Studio大模型开发平台提供了数据工程能力，帮助用户构造高质量的数据集，助力模型进行更好地预测和决策。

数据工程使用流程见图1、表1。

图1 数据工程使用流程图
点击放大

表1 数据工程使用流程表
流程	子流程	说明	操作指导
准备工作	申请试用盘古大模型服务	盘古大模型为用户提供了服务试用，用户可根据所需提交试用申请，申请通过后才可以试用盘古大模型功能。	申请试用ModelArts Studio大模型开发平台
	订购盘古大模型服务	正式使用盘古大模型服务前，需要完成服务的订购操作。	订购盘古大模型服务
	配置服务访问授权	为了能够正常的存储数据、训练模型，需要用户配置盘古访问OBS的权限。	配置服务访问授权
	创建并管理盘古工作空间	平台支持用户自定义创建工作空间，并进行空间的统一管理。	创建并管理工作空间
导入数据至盘古平台	创建导入任务	将存储在OBS服务中的数据导入至平台统一管理，用于后续加工或发布操作。	导入数据至盘古平台
加工数据集	加工数据集	通过专用的加工算子对数据进行预处理，确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子，例如去除噪声、冗余信息等，提升数据质量。	加工数据集
	合成数据集	利用预置或自定义的数据指令对原始数据进行处理，并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集，增强训练模型的多样性和泛化能力。
	标注数据集	为无标签数据集添加准确的标签，确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式，用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。
	配比数据集	数据配比是将多个数据集按特定比例组合并生成为“加工数据集”的过程。通过合理的配比，确保数据集的多样性、平衡性和代表性，避免因数据分布不均而引发的问题。
发布数据集	评估数据集	平台预置了多种数据类型的基础评估标准，用户可根据需求选择预置标准或自定义评估标准，从而精确优化数据质量，确保数据满足高标准，提升模型性能。	发布数据集
发布数据集	发布数据集	数据发布是将单个数据集发布为特定格式的“发布数据集”，用于后续模型训练等操作。平台支持发布的数据集格式为标准格式、盘古格式。标准格式：平台默认的格式。该格式的数据集不可应用于盘古大模型的模型开发中，但可以发布为资产。盘古格式：训练盘古大模型时，需要发布为该格式，可用于盘古大模型的模型开发。当前仅文本类、图片类数据集支持发布为盘古格式。	发布数据集

下一篇：准备工作

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消