盘古大模型服务使用流程
盘古大模型服务简介
盘古大模型服务包含盘古基础大模型、盘古行业大模型与ModelArts Studio大模型开发平台。凭借“模型+开发平台”的产品组合,助力各行业客户实现一站式的大模型开发与应用能力。
- 数据工程工具链:数据是大模型训练的核心基础。数据工程工具链作为平台的重要组成部分,具备数据获取、数据加工和数据发布等功能,确保数据的高质量与一致性。工具链能够高效收集并处理各种格式的数据,满足不同训练任务的需求,并提供强大的数据存储和管理能力,为大模型训练提供坚实的数据支持。
- 模型开发工具链:模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案,涵盖模型训练、压缩、部署、评测、调用等功能,保障模型的高效应用。
- 应用开发工具链:应用开发工具链是盘古大模型平台的重要模块,支持提示词工程、Agent开发,显著加速大模型应用的开发流程,帮助企业快速应对复杂业务需求。
数据工程使用流程
ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。
流程 |
子流程 |
说明 |
---|---|---|
准备工作 |
申请试用盘古大模型服务 |
盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 |
订购盘古大模型服务 |
正式使用盘古大模型服务前,需要完成服务的订购操作。 |
|
配置服务访问授权 |
为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 |
|
创建并管理盘古工作空间 |
平台支持用户自定义创建工作空间,并进行空间的统一管理。 |
|
导入数据至盘古平台 |
创建导入任务 |
将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 |
加工数据集 |
加工数据集 |
通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 |
合成数据集 |
利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 |
|
标注数据集 |
为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 |
|
配比数据集 |
数据配比是将多个数据集按特定比例组合并生成为“加工数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 |
|
发布数据集 |
评估数据集 |
平台预置了多种数据类型的基础评估标准,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 |
发布数据集 |
数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为标准格式、盘古格式。
|