盘古大模型服务使用流程
盘古大模型服务简介
盘古大模型服务包含三方大模型与ModelArts Studio大模型开发平台。凭借“模型+开发平台”的产品组合,助力各行业客户实现一站式的大模型开发与应用能力。
ModelArts Studio大模型开发平台是盘古大模型服务推出的包括数据管理、模型训练、模型部署于一体的综合平台,专为开发和应用大模型而设计,旨在为开发者提供简单、高效的大模型开发和部署方式。平台配备数据工程、模型开发、应用开发三大工具链,帮助开发者充分利用盘古大模型的功能。
数据工程使用流程
ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。
| 
        流程  | 
      
        子流程  | 
      
        说明  | 
      
        操作指导  | 
     
|---|---|---|---|
| 
        准备工作  | 
      
        申请试用盘古大模型服务  | 
      
        盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。  | 
      |
| 
        订购盘古大模型服务  | 
      
        正式使用盘古大模型服务前,需要完成服务的订购操作。  | 
      ||
| 
        配置服务访问授权  | 
      
        为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。  | 
      ||
| 
        创建并管理盘古工作空间  | 
      
        平台支持用户自定义创建工作空间,并进行空间的统一管理。  | 
      ||
| 
        导入数据至盘古平台  | 
      
        创建导入任务  | 
      
        将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。  | 
      |
| 
        加工数据集  | 
      
        加工数据集  | 
      
        通过专用的加工算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。  | 
      |
| 
        合成数据集  | 
      
        利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。  | 
     ||
| 
        标注数据集  | 
      
        为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。  | 
     ||
| 
        配比数据集  | 
      
        数据配比是将多个数据集按特定比例组合并生成为“加工数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。  | 
     ||
| 
        发布数据集  | 
      
        评估数据集  | 
      
        平台预置了多种数据类型的基础评估标准,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。  | 
      |
| 
        发布数据集  | 
      
        数据发布是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为标准格式、盘古格式。 
  | 
     
    
      