更新时间:2025-12-17 GMT+08:00
分享

产品介绍

服务概述

AI平台开发与实施服务主要面向千行百业中有行业实际场景需求,并希望通过AI相关技术去解决这些需求的客户。华为云侧将基于AI平台,提供AI平台实施服务、昇腾云服务迁移适配服务;结合客户业务场景,提供专业的场景化建模开发、调优服务。

服务内容

  • AI平台场景化建模开发服务
    1. AI平台场景化建模开发服务

      服务规格

      SKU编码

      服务内容

      适用场景

      AI平台场景化建模开发服务-基础版

      modelarts.service.aipmd.basic

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,完成模型训练。

      指标调优:模型指标在客户的历史业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,需要华为侧帮助建立AI解决方案(不含UseCase),模型指标在客户的历史业务数据中得到验证和保证。

      AI平台场景化建模开发服务-标准版

      modelarts.service.aipmd.standard

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,构建UseCase,完成模型训练。

      指标调优:模型指标在客户的历史业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,华为侧帮助建立AI解决方案,并沉淀UseCase提供给客户,模型指标在客户的历史业务数据中得到验证和保证。

      AI平台场景化建模开发服务-专业版

      modelarts.service.aipmd.professional

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,完成模型训练。

      模型调优:模型指标在客户的实时业务数据中得到验证和保证。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于自己实际遇到的问题场景设计AI解决方案,需要华为侧帮助建立AI解决方案(不含UseCase),模型指标在客户的实时业务数据中得到验证和保证。

      AI平台场景化建模开发服务-铂金版

      modelarts.service.aipmd.platinum

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研业务系统、数据、模型等现状信息,并对现状进行分析与评估。

      方案设计:完成模型选型,模型开发(训推方案)方案设计、模型评测方案设计、数据方案设计。

      适配实施:根据方案完成数据工程和模型实施、测试。

      模型训练:根据技术方案,构建UseCase,完成模型训练

      指标调优:模型指标在客户的实时业务数据中得到验证和保证

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要基于实际数据完成算法训练得到算法模型结果并保证精度结果,需要华为侧提供场景化Usecase,模型指标在客户的实时业务数据中得到验证和保证。

      1. 场景调研
        1. 目的:通过系统化调研,明确客户的具体需求和期望,为项目的规划、技术选型、资源分配以及后续的开发和部署提供依据,确保项目能够满足客户的业务目标并顺利实施。
        2. 服务内容:

          服务项目

          服务内容说明

          业务场景调研

          调研业务背景、业务场景及痛点采集、对齐业务目标

          场景化建模分析

          业务系统、数据和模型现状的分析与评估等

      2. 方案设计
        1. 目的:基于场景调研,完成整体方案进行设计,确保方案能满足用户需求,同时为后续适配实施提供清晰指导。
        2. 服务内容:

          服务项目

          服务内容说明

          场景化建模开发方案设计

          模型选型、训练&推理方案设计

          数据方案设计

          完成数据收集、清洗、标注流程设计

          模型评测方案设计

          构建评测数据、评测标准设计

      3. 适配实施
        1. 目的:基于方案设计,完成模型开发与适配,实现目标功能。
        2. 服务内容:

          服务项目

          服务内容说明

          数据工程实施

          数据收集、数据清洗、数据标注

          场景化建模实施

          沉淀Usecase、模型构建及模型训练

          场景化模型测试

          构建评测数据,模型评测

      4. 验收移交
        1. 目的:基于适配实施的结果,完成项目验收。
        2. 服务内容:

          服务项目

          服务内容说明

          服务验收

          在历史数据/实时业务数据中模型功能及性能评测通过

          项目移交

          知识转移、培训、后续优化及建议

    2. AI平台场景化建模部署服务

      服务规格

      SKU编码

      服务内容

      适用场景

      AI平台场景化建模部署服务-基础版

      modelarts.service.aipdd.basic

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对已交付的解决方案完成端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为1,资源设备数1台。

      AI平台场景化建模部署服务-标准版

      modelarts.service.aipdd.standard

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对华为云上AI资产进行端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为2-5之间,资源设备数2-5台。

      AI平台场景化建模部署服务-专业版

      modelarts.service.aipdd.professional

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对华为云上AI资产进行端到端训练并将模型部署成restAPI接入线上系统中,根据技术方案,开发推理脚本和制作云端推理镜像并完成部署,指导客户完成算法API跟业务系统对接。部署服务QPS为6-50之间,资源设备数6-10台。

      AI平台场景化建模部署服务-铂金版

      modelarts.service.aipdd.platinum

      场景调研:调研业务背景、业务场景及痛点,对齐业务目标,调研计算平台、基础设施等现状信息,并对现状进行分析与评估。

      方案设计:完成部署方案设计。

      适配实施:根据方案完成模型部署。根据ModelArts平台技术方案,开发推理脚本和制作不同部署设备的推理镜像并完成部署,指导客户完成算法API跟业务系统对接。

      验收移交:测试通过并完成服务/交付件的验收。

      客户需要对已交付的解决方案或者华为云上AI资产完成端到端训练,将模型部署成一个restAPI接入客户线上系统中,并将模型部署至边缘系统中,最终进行业务逻辑验收。部署服务QPS大于50,资源设备数大于10台。

      1. 环境准备
        1. 目的:明确客户的具体需求和期望,检查、开通和部署资源环境,准备模型权重,以及制作推理镜像。
        2. 服务内容:

          服务项目

          服务内容说明

          检查资源环境

          检查/开通相关资源

          部署环境安装

          相关资源(模型所需的各种组件)安装、配置

          准备模型权重

          准备模型权重

          制作推理镜像

          制作推理镜像

      2. 环境部署
        1. 目的:配置推理参数、制作推理脚本并启动推理服务。
        2. 服务内容:

          服务项目

          服务内容说明

          配置推理参数

          配置推理参数

          制作推理脚本

          制作推理脚本

          启动推理服务

          启动推理服务

      3. 部署验证
        1. 目的:进行功能、性能和精度测试。
        2. 服务内容:

          服务项目

          服务内容说明

          功能测试

          验证功能是否正常运行

          性能测试

          验证性能是否符合要求

          精度测试

          验证精度是否符合要求

      4. 验收移交
        1. 目的:基于适配实施的结果,完成项目验收。
        2. 服务内容:

          服务项目

          服务内容说明

          服务验收

          在历史数据/实时业务数据中模型功能、性能和精度评测通过

          项目移交

          知识转移、培训、后续优化及建议

    3. 应用与智能体编排服务

      服务规格

      SKU编码

      服务内容

      适用场景

      应用与智能体编排-标准版

      modelarts.service.aaos.standard

      编排需求调研:明确智能体的需求范围及评估可行性;

      方案设计:根据调研结果,进行智能体编排方案设计;

      编排实施:依据设计方案,进行算法/大模型API的集成、智能体的构建、编排、配置与部署;

      验收上线:效果验证与持续优化;

      面向中低复杂度需求,支持客户快速集成算法/大模型API和多智能体构建,包含知识库构建(仅限文本类型)

      应用与智能体编排-专业版

      modelarts.service.aaos.professional

      编排需求调研:明确智能体的需求范围及评估可行性;

      方案设计:根据调研结果,进行智能体编排方案设计;

      编排实施:依据设计方案,进行算法/大模型API的集成、智能体的构建、编排、配置与部署;

      验收上线:效果验证与持续优化;

      面向需要深度定制的复杂业务场景,支持客户集成算法/大模型API和多智能体构建,包含知识库构建(多模态融合)、规则引擎检索优化、检索策略优化及反思执行优化

      1. 编排需求调研
        1. 目的:通过系统化调研,明确客户的具体需求和期望,为项目的规划、技术选型、资源分配以及后续的开发提供依据,确保项目能够满足客户的业务目标并顺利实施。
        2. 服务内容:

          服务项目

          服务内容说明

          业务场景调研

          场景采集、训练数据分析、功能分析与评估等

          需求确认

          需求规格说明与确认

      2. 方案设计
        1. 目的:基于场景调研,完成整体方案进行设计,确保方案能满足用户需求,同时为后续编排实施提供清晰指导。
        2. 服务内容:

          服务项目

          服务内容说明

          组件规划

          组件确认、组件选型

          数据流设计

          流程编排、数据格式规范

          用户界面设计

          原型设计、交互设计

      3. 编排实施
        1. 目的:基于方案设计,完成应用与智能体的开发、工作流编排。
        2. 服务内容:

          服务项目

          服务内容说明

          组件开发

          客户业务API组件、功能组件开发

          知识库构建

          数据整理、数据入库

          编排实施

          组件对接,功能实现

      4. 验收上线
        1. 目的:基于编排实施的结果,完成项目验收。
        2. 服务内容:

          服务项目

          服务内容说明

          效果验证

          测试用例构建、功能测试、集成测试

          持续优化

          流程优化

  • AI平台场景化建模调优服务
    1. AI平台场景化建模调优服务
      1. 模型调优服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        AI平台场景化建模调优服务-基础版

        modelarts.service.aipmt.basic

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型性能及精度指标(平台调优)。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-标准版

        modelarts.service.aipmt.standard

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型性能及精度指标(平台调优),并提供模型调优报告。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-专业版

        modelarts.service.aipmt.professional

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型场景化指标(模型调优、数据集条数不超过1W条)。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

        AI平台场景化建模调优服务-铂金版

        modelarts.service.aipmt.platinum

        针对已交付的场景化方案或模型迁移方案中的模型在实际场景中的不足,结合多场景调优经验,深入实际场景,分析业务数据,精准优化模型场景化指标(模型调优、数据集条数不超过1W条),并提供模型调优报告。

        适用于已交付的场景化方案或模型迁移方案中模型精度或性能不满足实际场景需求,需要进一步提升精度或性能且希望华为AI技术人员提供客户侧现有场景的模型调优

      2. 模型调优方案设计
        1. 目的:通过对客户业务场景、数据状况及现有模型基础的深入分析,确定模型输入输出格式、运行环境、性能要求及精度基线。设计算子融合、量化等加速策略,优化计算流程,改造模型训练及推理代码,精细化调整数据预处理和算法参数配置,显著提升模型在实际场景中的性能与精度。
        2. 服务内容:

          服务内容

          服务详细描述

          场景分析

          深入分析客户的业务场景、数据状况(如数据规模、质量、分布)和现有模型基础(如模型架构、性能指标)。确定模型的输入输出格式(如文本、图像、结构化数据)、运行环境(如云端、边缘设备)、性能要求(如时延、吞吐量、内存占用)及精度基线。

          模型加速方案设计

          深入识别现有加速方案,设计算子融合策略,优化计算流程,减少冗余运算。采用量化等技术,降低模型精度损失的同时提升运行效率,确保在客户实际场景中,模型性能显著提升。

          脚本改造方案设计

          针对客户现有场景模型精度或性能不足问题,对模型训练及推理代码进行适配性改造。分析代码架构,优化算法参数配置,调整数据预处理流程,精细化重构代码逻辑,确保模型在特定场景下高效运行,显著提升精度与性能。

      3. 模型性能调优
        1. 目的:通过精准采集模型训练与推理的端到端性能数据,分析瓶颈节点,适配加速框架,优化算子性能、内存通信调度及集群稳定性,提升模型运行效率与稳定性,为模型性能优化提供技术支撑。
        2. 服务内容:

          服务内容

          服务详细描述

          性能数据采集

          通过profiling工具精准采集模型训练与推理的端到端性能数据,包括详细记录各阶段的耗时、资源占用率、瓶颈节点等关键指标,为后续模型调优提供精确依据。

          性能瓶颈识别

          分析客户侧采集的性能数据,精准定位模型训练与推理过程中的性能瓶颈,从计算资源利用率、数据传输效率、算法复杂度等多维度剖析问题根源,为后续优化提供明确方向。

          推理性能调优

          针对推理性能调优,分析适配合适的加速框架,精准定位算子瓶颈并优化,优化内存通信调度等调优技术。

          训练性能调优

          针对推理性能调优,分析适配合适的加速框架,进行算子性能调优、内存通信调度调优、集群稳定性调优等调优技术。

      4. 模型精度调优
        1. 目的:通过推理前向对齐与训练Loss对齐,利用模型权重转换、日志采集分析及问题算子适配等技术手段,精准定位精度问题,实现模型精度对齐,优化模型适配性,提升模型在客户侧现有场景中的运行效果与性能表现。
        2. 服务内容:

          服务内容

          服务详细描述

          推理前向对齐

          通过模型权重转换,进行推理验证检验模型运行效果,并通过日志采集分析来定位精度问题,实现精度对齐。

          训练Loss对齐

          通过启动训练并dump采集数据,定位问题算子并适配成亲和性算子,实现Loss精度对齐,助力模型更好地适配客户侧现有场景。

      5. 调优场景验证
        1. 目的:性能验证与精度验证旨在精准评估模型关键性能指标,通过严谨测试流程,测量模型吞吐量、响应时间,对比GPU训练loss值,确保误差可控,利用业务数据衡量真实场景表现,为优化提供依据,保障模型高效稳定运行。
        2. 服务内容:

          服务内容

          服务详细描述

          性能验证

          聚焦于模型训练与推理吞吐等关键性能指标,精准测量模型在实际场景中的运行效率,通过严谨的测试流程,全面评估模型吞吐量、响应时间等。

          精度验证

          通过对比GPU训练的loss值,确保模型训练过程误差在可控范围内,并利用实际业务数据进行评测,精准衡量模型在真实场景下的表现。

    2. 模型蒸馏服务
      1. 蒸馏服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型蒸馏服务-标准版

        modelarts.service.aimds.standard

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,2000条/套。

        适用于期望得到有思维链能力且逻辑能力较强蒸馏数据集

        模型蒸馏服务-专业版

        modelarts.service.aimds.professional

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,5000条/套。并对已撰写的数据进行模型蒸馏服务。

        适用于期望得到有思维链能力且逻辑能力较强的领域大模型的客户

        模型蒸馏服务-铂金版

        modelarts.service.aimds.platinum

        基于DeepSeek系列模型为教师模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合已有的行业指令数据进行数据蒸馏服务,5000条/套。并对已撰写的数据进行模型蒸馏、强化学习服务。

        适用于期望得到有思维链能力且逻辑能力非常强的领域大模型的客户

      2. 蒸馏方案设计
        1. 目的:前期方案设计,与客户团队沟通了解数据特点、模型应用目标、以及性能精度指标要求等,明确后续数据工程、模型训练、模型评测的方案细节,制定高效的模型蒸馏策略。
        2. 服务内容:

          服务内容

          服务详细描述

          场景分析

          深入分析客户的业务场景、数据状况(如数据规模、质量、分布)和现有模型基础(如模型架构、性能指标),明确蒸馏的核心目标和需求。确定模型的输入输出格式(如文本、图像、结构化数据)、运行环境(如云端、边缘设备)及性能要求(如时延、吞吐量、内存占用)。

          学生模型判定

          根据场景分析结果,从现有模型库中选择合适的学生模型,综合考虑模型架构、规模(参数量、层数)和性能(精度、效率)等因素。例如,对于资源受限的边缘设备,可选择轻量级架构;对于高精度要求的场景,则选择中等规模但性能优越的模型。

          蒸馏策略选择

          综合考虑数据状况、模型特点和业务需求,选择合适的蒸馏策略并制定具体计划。例如,对于数据丰富的场景,采用基于数据微调的策略(如SFT或LoRA),利用领域数据优化学生模型;对于任务复杂度高的场景,引入强化学习策略(GRPO),通过奖励机制提升模型表现。制定详细的蒸馏计划,包括数据准备、模型训练、评估和迭代优化等阶段,确保蒸馏过程高效可控,最终交付符合业务需求的高性能模型。

          评测方案设计

          设计从客户业务场景中抽取具有代表性的数据,包括各种类型的输入和预期输出,构建评测数据集;根据业务场景定义一些定制化的评测标准,如对于生成文本的流畅性、逻辑性、专业性等方面的评估标准。

      3. 蒸馏数据实施
        1. 目的:将精心设计的数据方案提供教师模型转化为高质量的蒸馏数据,涵盖数据的采集、清洗、标注以及配比等关键环节。每个环节均遵循严格的质量控制标准,确保蒸馏数据能够高效地提炼出有价值的信息,从而显著提升模型性能。
        2. 服务内容:

          服务内容

          服务详细描述

          数据集选型

          根据业务场景的具体需求和蒸馏策略,精心挑选训练数据集,涵盖领域特定数据(如金融、医疗等)和通用数据。确保数据集的规模足够大以覆盖多样场景,质量高以减少噪声干扰,同时多样性丰富以提升模型的泛化能力。

          数据标注

          采用手工标注与自动化标注相结合的方式,对多种类型原始数据(涵盖文本数据、结构化数据、半结构化数据、数值数据等)精准添加特定标签或注释。手工标注由专业标注人员依据严格标准执行,确保标注准确性;自动化标注则借助先进算法和模型,实现高效批量标注。标注过程中,针对不同数据类型定制专属标注策略,例如文本数据可标注情感倾向、实体信息等,结构化数据标注字段属性与关联关系,半结构化数据标注关键字段与数据格式,数值数据标注数据范围与异常值等,为数据后续应用提供精准标识。

          数据清洗

          运用专业数据清洗技术,精准去除图片、图标、超链接、特殊符号、多余换行、页眉页脚等非正文干扰内容。通过正则表达式匹配、文本解析算法等手段,识别并剔除无关元素,同时保留核心正文信息。针对复杂数据格式,如嵌套结构或混合内容,采用深度解析技术,确保清洗后数据纯净、完整且结构清晰,为后续数据分析、处理和应用提供高质量数据基础,提升数据整体可用性与准确性。

          格式转化

          借助高效格式转化工具,将非文本格式数据(如PDF、Word、CSV等)精准转换为Json格式,同时支持MarkDown、Word等中间格式的灵活转换。在转化过程中,采用先进的文本解析与重组技术,确保数据内容完整、结构清晰且语义连贯。针对不同格式数据特点,定制专属转化策略,例如PDF格式提取文本内容时去除水印、页码等干扰元素,Word格式保留表格、列表等结构信息,CSV格式处理数据缺失与重复问题。

          种子数据生成

          利用行业知识和业务需求生成高质量的Prompt,作为初始数据种子。这些Prompt通过领域专家设计或自动化工具生成,涵盖关键业务场景和用户意图,为后续数据生成和模型训练提供可靠的基础。Prompt的设计需考虑多样性,包括开放式问题、指令性任务和边界条件测试,以全面覆盖模型的潜在应用场景。同时,结合数据增强技术(如同义词替换、句式变换)对Prompt进行扩展,进一步丰富数据种子。

          教师数据生成

          使用高性能的教师模型对种子数据生成答案,并通过多种方法优化生成结果。例如,采用多模型投票、置信度过滤或人工审核等方式,确保教师数据的准确性和可靠性。对于复杂任务,可以引入领域专家进行答案修正或标注。优化后的教师数据不仅作为学生模型的监督信号,还能通过数据增强技术(如回译、数据扩充)进一步提升多样性和覆盖面。

          指令数据配比

          根据蒸馏需求和模型特点,对通用数据和教师数据进行科学配比,确保数据的平衡性和有效性。通用数据用于提升模型的泛化能力,覆盖广泛的语义和任务类型;教师数据则用于传递专业知识和高精度推理能力,确保模型在特定任务中的表现。通过动态调整数据比例(如教师数据占比逐步增加)和引入数据增强技术(如数据混合或噪声注入),优化训练数据的分布和多样性。

      4. 蒸馏方案实施
        1. 目的:基于前期的模型方案设计,利用计算资源,实施模型训练方案。在模型训练过程中,需实时监测模型收敛情况与性能指标,及时调整训练策略。
        2. 服务内容:

          服务内容

          服务详细描述

          模型微调

          采用SFT、LoRA和RFT等技术对模型进行微调,结合业务场景的具体需求和数据分布特点,调整模型参数以提升其任务适应性。例如,LoRA通过低秩分解减少参数量,在保持性能的同时降低计算开销;RFT则结合强化学习信号,进一步优化模型在复杂任务中的表现。微调过程中,使用配比数据集进行多轮迭代训练,同时通过交叉验证和早停策略防止过拟合,确保模型在业务场景中达到最优性能。

          模型强化学习

          采用DPO、PPO和GRPO等强化学习方法,通过奖励机制引导模型优化。例如,DPO直接优化人类偏好数据,使模型输出更符合用户期望;PPO通过约束策略更新步长,确保训练稳定性;GRPO则结合多目标优化,提升模型的泛化能力。训练过程中,利用模拟环境或真实用户交互数据生成奖励信号,通过策略梯度方法不断调整模型参数,使其在复杂动态环境中表现出更强的适应性和鲁棒性。

          性能优化

          在模型训练和推理阶段,通过混合精度训练和模型量化等技术,显著优化模型的性能和资源效率。混合精度训练利用FP16和FP32的结合,在保证模型精度的同时大幅减少显存占用和计算时间;模型量化则通过将模型权重和激活值从浮点数转换为低比特整数(如INT8),进一步压缩模型大小并加速推理速度。

      5. 蒸馏场景验证
        1. 目的:对蒸馏后的模型进行全面评估与验证的过程,旨在确保模型在实际业务场景中能够稳定、高效地运行,并达到预期的性能指标与业务效果。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端测试

          在模型蒸馏完成后,对蒸馏后的学生模型进行全面的端到端测试,涵盖从输入数据预处理到最终输出预测的完整流程。测试过程中,使用相同的测试数据集,对比蒸馏前后的模型在性能(如准确率、召回率、F1分数)、吞吐量(每秒处理的请求数)、时延(从输入到输出的响应时间)以及内存占用(模型运行时的内存消耗)等关键指标上的差异。

          业务指标对齐

          将蒸馏后的模型在实际业务环境中进行用户侧的真实业务验证。根据业务需求定义关键性能指标(如转化率、点击率、用户满意度等),并收集实际业务场景中的数据作为测试集。通过A/B测试或多组对比实验,评估蒸馏模型在真实业务中的表现,确保其性能与业务需求相匹配。

          测评结果分析

          对评测结果进行分析和总结,找出模型存在的问题和不足之处,为后续的模型优化和改进提供依据。

    3. 模型增训服务
      1. 增训服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型增训服务-标准版

        modelarts.service.aimrs.standard

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量no-reasoning行业指令数据集进行SFT微调,这两个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到无思维链能力且逻辑能力一般的行业大模型的客户

        模型增训服务-专业版

        modelarts.service.aimrs.professional

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量no-reasoning行业指令数据集进行SFT微调,最后再进行强化学习,这三个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到无思维链能力且逻辑能力较强的行业大模型的客户

        模型增训服务-铂金版

        modelarts.service.aimrs.platinum

        基于DeepSeek模型,根据大量行业预训练数据进行模型增量预训练,然后结合一定量reasoning行业指令数据集进行SFT微调,最后再进行强化学习,这三个训练阶段,帮助客户打造行业大模型的服务。

        适用于期望得到具备思维链能力且逻辑能力非常强的行业大模型的客户

      2. 增训方案设计
        1. 目的:通过前期方案设计,与客户深入沟通其具体场景分析增训方案的合理性和可行性,明确增训方案在实施过程中数据工程,模型训练以及模型评测的方案细节,指导增训服务的开展。
        2. 服务内容

          服务内容

          服务详细描述

          场景分析

          基于客户实际行业、行业数据量、客户实际场景需求分析,做模型增训的合理性和可行性,输出建议。

          数据方案设计

          基于场景分析的结果制定数据集方案,包括行业数据选型,数据来源,数据处理方式,数据评估标准,数据配比方案,数据管理方案,数据安全保障方案等。

          模型方案设计

          基于场景分析的结果制定模型训练方案,包括模型选型(DeepSeek v3/r1),增训工作流的设计(增量预训练、SFT、RL等阶段),分布式训练方案设计,训练超参的设计等。

          模型评测方案设计

          针对客户场景和训练后的模型制定模型评测方案,包括精度性能的指标的制定,行业标准制定、模型评估验证标准制定、业务效果验证标准制定等。

      3. 数据方案实施
        1. 目的:根据制定的数据方案,准备训练前需要的所有数据集(行业预训练数据集、通用预训练数据集、行业指令数据集、通用指令数据集等)。
        2. 服务内容:

          服务内容

          服务详细描述

          数据提取与清洗

          基于客户提供的原始数据(PDF、WORD…)进行数据提取,然后基于提取出来的数据进行数据脱敏,文本长度过滤,异常字符过滤,符号标准化,中文简繁转换,敏感词过滤,正则过滤,文本,去重等一系列数据加工操作。

          数据标注

          在数据清洗后,针对需要标注的数据集通过辅助问答、智能生成QA对等方式进行单轮问答标注、多轮问答标注……

          数据评估

          通过自动评估任务、人工评估或评估抽样等方式评估文本类数据是否符合模型训练的标准,包括预训练数据、SFT数据、强化学习数据等。

          数据配比

          将处理评估完成的行业数据与开源可获得或已沉淀的通用数据集,按需配比,其中包括预训练数据、SFT数据、强化学习数据等。

          数据安全保障

          提供数据获取、数据存储、数据内容、数据流通、数据管理的全流程安全保障服务。

      4. 模型方案实施
        1. 目的:根据制定的模型训练方案,搭建训练环境,设置训练超参数,开始训练,多次迭代优化超参,数据集配比等配置,最终得到L1行业大模型。
        2. 服务内容:

          服务内容

          服务详细描述

          环境准备

          训练环境准备包括:(1)基础模型权重文件下载后格式转换;(2)将准备好的数据集、词表文件、转换后的权重文件上传至OBS桶;(3)镜像制作、镜像下载上传至AI平台等。

          模型增训实施

          主要为增训工作流实施服务,包括:(1)增量预训练任务配置,SFT训练任务配置等;(2)训练任务启动,监控;(3)故障保障,断点续训保障等;(4)训练后权重转换。

          模型调优

          若训练性能及训练后模型效果不及客户预期,需进行性能调优,精度(或称评测效果)调优,直到满足客户要求。比如,通过调节数据配比,优化模型表现。

      5. 增训场景验证
        1. 目的:基于模型评测方案,针对训练得到的行业大模型进行评测,如能达到客户要求,即可进入验收阶;如效果欠佳,需分析BadCase明确优化方向,多次迭代优化后,直到通过评测标准。
        2. 服务内容:

          服务内容

          服务详细描述

          精度性能验证

          通过测评任务或loss对齐等方式验证精度是否对齐,达到客户精度标准,通过计算吞吐、MFU等指标确认性能是否达到客户性能标准。

          模型评估验证

          将训练后的模型基于前期制定的评测标准,验证模型的通用能力和行业能力,方式可包括:通过模型基础能力测评集、自定义的模型行业领域测评集进行评估等方式。

          业务效果验证

          增训场景验证最后一步,需验证客户实际场景的业务效果,以方案设计中的业务效果验证标准,验证业务效果是否达到客户要求。

    4. 模型微调服务
      1. 微调服务描述

        服务规格

        SKU编码

        服务内容

        适用场景

        模型微调服务-标准版

        modelarts.service.aimfts.standard

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,2000条/套。并对已撰写的数据进行微调训练服务。

        适用于客户拥有少量的行业指令知识数据,根据某个场景,快速构建场景大模型。

        模型微调服务-专业版

        modelarts.service.aimfts.professional

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,5000条/套。并对已撰写的数据进行微调训练服务。

        适用于客户拥有丰富的行业指令知识数据,根据某个场景,快速构建场景大模型。

        模型微调服务-铂金版

        modelarts.service.aimfts.platinum

        基于DeepSeek模型,面向大模型的基础能力(对话问答、文案生成、阅读理解),结合客户的行业指令数据进行微调数据资产撰写,5000条/套。并对已撰写的数据进行微调训练、强化学习服务。

        适用于客户拥有丰富的行业指令知识数据,根据某个场景,快速构建场景大模型,并指导其在复杂任务中做出更优决策。

      2. 微调方案设计
        1. 目的:前期方案设计,与客户团队沟通了解数据特点、模型应用目标、以及性能精度指标要求等,明确后续数据工程、模型训练、模型评测的方案细节,制定高效的模型微调策略。
        2. 服务内容:

          服务内容

          服务详细描述

          场景方案设计

          (1)微调训练路线:针对数据量适中,根据某个场景,需要提高下游领域任务指令遵从,可通过指令微调对齐模型输出与业务需求,则采用监督微调(SFT或LoRA)训练。

          (2)强化学习路线:针对客户已有微调的场景模型,需要引导模型更好地适应特定的任务,使模型能够不断优化回答策略,在实际应用中表现得更加智能和高效,则采用强化学习策略。

          数据方案设计

          (1)行业指令数据:收集与客户行业相关的指令数据,并设计指令数据如何分类和标注,明确指令的意图和对应的输出格式,为模型微调提供高质量的训练样本。

          (2)强化学习数据:设计强化学习数据收集策略,确定如何收集和构建能够有效反映人类偏好的数据集。

          模型方案设计

          (1)模型超参数配置:根据客户的需求和硬件资源情况,设计如何配置模型的超参数,如学习率、批量大小、训练轮数等。

          (2)奖励模型设计:针对强化学习,需要根据业务目标和用户需求,设计合理的奖励模型,引导模型向更好的方向优化。

          评测方案设计

          (1)构建评测数据:设计从客户业务场景中抽取具有代表性的数据,包括各种类型的输入和预期输出,构建评测数据集。

          (2)评测标准设计:根据业务场景定义一些定制化的评测标准,如对于生成文本的流畅性、逻辑性、专业性等方面的评估标准。

      3. 数据方案实施
        1. 目的:将设计好的数据方案转化为高质量的训练数据,其中包括数据的采集、清洗、标注以及配比等多个环节,每个环节都遵循严格的质量控制标准,以保障数据能够有效驱动模型性能提升。
        2. 服务内容:

          服务内容

          服务详细描述

          数据采集

          基于客户在业务系统、数据库、日志文件等渠道采集到的原始数据进行数据提取,为模型微调提供丰富的业务场景数据。

          数据标注

          按照设计的指令格式与任务要求,对采集的数据进行标注,确保模型理解执行指令。

          数据清洗

          已标注的数据进行清洗,去除重复、错误、无关的数据。例如,去除文本中的 HTML 标签、特殊字符,纠正错别字和语法错误等,提高数据的质量和可用性。

          数据审核

          对清洗后的数据进行审核,确保数据的合法性和合规性。例如,在处理用户数据时,遵守相关的隐私保护法规,对敏感信息进行脱敏处理,确保数据的安全使用。

          标注偏好数据

          针对强化学习,基于设计好的奖励模型,组织专业的标注人员或利用自动化工具对数据进行偏好标注。

          指令数据配比

          根据客户行业数据的特点和模型训练的需求,确定行业数据与通用数据的配比。

      4. 模型方案实施
        1. 目的:基于前期的模型方案设计,利用计算资源,实施模型训练方案。在模型训练过程中,需实时监测模型收敛情况与性能指标,及时调整训练策略。
        2. 服务内容:

          服务内容

          服务详细描述

          前期环境准备

          (1)环境准备:获取华为昇腾硬件和软件开发环境,环境是基于Docker镜像构建的独立开发环境,其中集成CANN、PyTorch、软件套件等。

          (2)模型权重准备:获取开源的模型原始权重文件,并基于原始权重文件转换为统一的megatron格式,以便更好地利用分布式训练资源,提高训练效率和模型的可扩展性。

          模型微调训练

          (1)SFT:采用SFT微调训练方法,根据设计好的微调方案对模型进行训练。SFT通过在模型的输出层添加一个新的分类层或生成层,利用标注好的数据对模型进行监督训练,使其适应新的任务

          (2)LoRA&QLoRA:采用LoRA、QLoRA等微调训练方法。LoRA和QLoRA是在模型的中间层添加低秩适应模块,能够在不改变模型原始结构的情况下,有效地学习任务特定的知识。

          模型强化学习

          运用PPO、DPO、GRPO等强化学习手段,结合设计好的奖励模型,对微调后的模型进行进一步的优化。不断调整强化学习的参数和策略,如学习率、奖励衰减系数、探索率等,以平衡模型的探索和利用能力,使其能够在不断变化的环境中找到最优的策略。

      5. 微调场景验证
        1. 目的:对微调后的模型进行全面评估与验证的过程,旨在确保模型在实际业务场景中能够稳定、高效地运行,并达到预期的性能指标与业务效果。
        2. 服务内容

          服务内容

          服务详细描述

          精度性能验证

          通过测评任务或loss对齐等方式验证精度是否对齐,达到客户精度标准,通过计算吞吐、MFU等指标确认性能是否达到客户性能标准。

          制定评测标准

          根据完全匹配、包含、模糊匹配等标准,对模型的生成结果或预测结果进行详细的评测。

          测评结果分析

          对评测结果进行分析和总结,找出模型存在的问题和不足之处,为后续的模型优化和改进提供依据。

  • 昇腾云服务迁移适配服务
    1. 昇腾云服务迁移适配服务

      迁移适配服务-模型服务描述

      服务规格

      SKU编码

      服务内容

      适用场景

      昇腾云服务迁移适配服务-基础版

      modelarts.service.amia.basic

      包含在华为开源适配列表中的算法模型迁移适配,基于指导文档提供demo方案演示,并在用户业务自主实施过程中提供技术支持。

      适用于客户模型自主适配,华为提供指导的场景,通过远程/现场支持等形式,帮助客户掌握昇腾云服务基础适配能力。

      昇腾云服务迁移适配服务-标准版

      modelarts.service.amia.standard

      包含在华为开源适配列表中的算法模型迁移适配,根据指导文档完成方案实施,依据客户指定数据集、开源权重文件完成精度对齐、性能调优、模型部署,限定一个指定数据集和开源权重。

      适用于华为提供模型迁移适配服务场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      昇腾云服务迁移适配服务-专业版

      modelarts.service.amia.professional

      未包含在华为开源适配列表中的算法模型迁移适配,在算子均满足的情况下,完成模型适配、精度对齐、性能调优、模型部署,限定一个指定数据集和开源或自定义权重。

      适用于华为提供模型迁移适配服务场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      昇腾云服务AI模型迁移服务-每模型

      modelarts.service.amia.permodel

      提供由GPU迁移至昇腾云服务平台的支持服务,包含一个模型的迁移分析、适配验证以及模型部署。

      适用于多模型场景,为客户提供基础迁移服务后,需要增加其他模型适配,需与标准版捆绑售卖。

      昇腾云服务应用迁移服务-每应用

      modelarts.service.amia.perapp

      提供由GPU迁移至昇腾云服务平台的支持服务,包含一个应用的迁移分析、适配验证、部署及运维能力对接。

      适用于客户有应用迁移需求的场景,通过远程/现场支持等形式,帮助客户深度使用昇腾云服务产品,高效完成业务价值落地。

      1. 场景调研(适用于基础版、标准版、专业版迁移服务)
        1. 目的:通过深入调研昇腾云迁移前后的硬件环境、模型相关情况以及性能基线,精准获取关键信息,明确硬件优劣、模型结构与功能以及性能基准,为模型迁移提供可靠依据,保障模型在昇腾云上稳定运行并实现性能优化。
        2. 服务内容:

          服务内容

          服务详细描述

          硬件环境调研

          深入调研昇腾云迁移前后硬件环境。细致记录芯片型号、计算能力、内存容量、存储资源等关键信息。对比分析差异,明确迁移前后硬件的优劣,为后续模型迁移提供坚实可靠的硬件基础信息,助力迁移工作顺利开展。

          模型相关调研

          全面收集模型源码、参数配置、模型权重和数据集。深入分析模型特点、依赖关系,精准确定模型结构与功能。为迁移适配提供详尽的模型基础信息,确保迁移过程有的放矢,保障模型在新环境下稳定运行。

          性能基线调研

          在原环境下对模型进行严格测试,精准记录推理精度、推理速度、训练Loss收敛情况等关键性能指标,形成性能基线。这为后续优化提供明确对比基准,助力在昇腾云上实现性能提升,确保模型迁移后性能达标。

      2. 上云评估(适用于基础版、标准版、专业版迁移服务)
        1. 目的:通过梳理调研结果,深入分析当前业务现状与潜在需求,全面评估上云的可行性。重点考察昇腾云服务的满足度以及迁移交付方案的可操作性,确保上云过程平稳高效。
        2. 服务内容:

          服务内容

          服务详细描述

          分析现状与需求

          深入整理调研数据,剖析当前业务状况,挖掘潜在需求,为后续规划提供坚实依据,确保方向明确、目标清晰。

          上云可行性分析

          全面评估上云的可行性,深度分析昇腾云服务的满足度与迁移交付方案的可操作性,保障上云过程平稳高效。

      3. 迁移方案设计(适用于专业版迁移服务)
        1. 目的:通过制定迁移、加速、脚本改造、优化实施及算子预检方案,全方位保障模型迁移至昇腾云的高效性、兼容性和性能优化,确保迁移过程平稳有序、模型运行流畅,实现性能提升与稳定运行目标,为后续应用提供坚实基础。
        2. 服务内容:

          服务内容

          服务详细描述

          迁移方案制定

          依据场景调研结果,精心设计模型迁移方案。综合考虑选择契合的迁移框架、工具与策略,清晰规划迁移步骤,精准把握关键要点,确保模型迁移过程平稳有序,高效推进。

          加速方案设计

          设计加速方案。运用模型结构优化、算子融合、量化等前沿技术手段,全方位挖掘性能潜力,使模型在昇腾云上运行更流畅、响应更迅速。

          脚本改造方案设计

          针对昇腾云开发环境,制定脚本改造方案。对模型代码进行深度适配性改造,确保代码无缝契合新环境,为迁移适配工作提供有力支撑。

          算子预检方案设计

          制定算子预检方案,全面检查分析模型中算子。精准确定需开发或适配的算子,提前解决兼容性问题,保障模型在昇腾云上运行顺畅。

      4. 方案交底(适用于基础版、标准版、专业版迁移服务)
        1. 目的:通过明确交付方案、服务范围以及交付计划和验收方式,确保各方对交付成果有清晰一致的理解,避免误解和纠纷,保障交付过程顺畅高效,项目有序推进,最终实现高质量交付,满足各方预期,为项目成功实施提供有力保障。
        2. 服务内容:

          服务内容

          服务详细描述

          交付方案明确

          向相关方清晰阐述交付方案,涵盖交付内容、形式与时间节点。通过详细说明,确保各方对交付成果有精准且一致的理解,避免因信息模糊引发的沟通成本,保障交付过程顺畅高效,满足各方预期。

          服务范围明确

          在模型迁移适配过程中,清晰界定服务范围,明确提供的支持与服务内容。通过精准界定,避免因范围不清导致的误解和纠纷,确保服务高效、有序开展,提升项目整体协同性。

          交付计划及验收方式明确

          制定详尽的交付计划,明确各阶段工作内容与时间节点,确保项目有序推进。同时,明确验收方式及指标,涵盖标准、方法与流程,保障交付成果高质量、符合要求,为项目成功交付保驾护航。

      5. 迁移环境部署(适用于标准版、专业版迁移服务)
        1. 目的:确保模型在昇腾云上高效运行,为后续开发编译工作提供稳定可靠的环境支持,保障项目顺利推进。
        2. 服务内容:

          服务内容

          服务详细描述

          开发编译环境部署

          在昇腾云上部署模型运行所需的开发编译环境。安装完备的工具链,细致配置环境参数,全方位保障开发编译工作顺畅开展,确保后续工作高效推进。

      6. 模型适配与验证(适用于专业版迁移服务)
        1. 目的:通过加速适配、脚本改造、并行能力验证及权重与参数设置,全方位优化模型在昇腾云上的运行表现,确保其高效、稳定运行,满足业务需求,实现性能提升与无缝过渡,为模型在新环境的应用提供坚实保障。
        2. 服务内容:

          服务内容

          服务详细描述

          模型加速适配

          依据加速方案,对模型展开加速适配工作。通过模型结构优化、算子融合等技术手段,充分挖掘性能潜力,显著提升模型运行速度,让模型在新环境中更高效地运行。

          脚本改造实施

          按照脚本改造方案,对模型代码进行深度改造。使其适配昇腾云的开发环境与运行框架,确保代码具备出色的兼容性和可运行性,保障模型在新环境稳定运行。

          模型并行能力验证

          全面验证模型在昇腾云上的并行能力。在多设备、多线程等并行场景下展开测试,确保模型能够充分调用昇腾云的并行计算资源,发挥强大性能,满足业务需求。

          模型权重与参数设置

          对模型权重进行精准切分与调整,设置科学合理的参数。确保模型在昇腾云上的运行效果与原环境高度一致,保障模型迁移后的性能与稳定性,实现无缝过渡。

      7. 推理前向对齐(适用于标准版、专业版迁移服务)
        1. 目的:通过模型权重转换、推理验证、日志采集与分析以及精度对齐,确保模型在昇腾云上推理准确、性能可靠,实现与原环境高度一致的精度,为模型迁移提供坚实保障,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          模型权重转换

          将模型权重从原格式精准转换为昇腾云支持的格式,确保模型在昇腾云上能够无缝加载权重,为后续推理验证和性能优化提供坚实基础,保障模型迁移的顺利进行。

          模型推理验证

          全面开展模型推理验证,仔细检查模型在昇腾云上的推理结果是否准确,排查是否存在偏差或错误,确保模型在新环境下的推理性能可靠,满足业务需求。

          日志采集与分析

          采集模型推理过程中的后处理、logits、算子dump日志等关键信息,深入分析日志内容,精准排查问题,为精度对齐提供有力依据,助力模型优化。

          精度对齐及问题解决

          依据日志分析结果,对模型精度进行精细对齐,高效解决推理过程中出现的精度问题,确保模型在昇腾云上的推理精度与原环境高度一致,保障迁移效果。

      8. 训练Loss对齐(标准版、专业版迁移服务)
        1. 目的:通过训练启动与监控、精度数据采集以及Loss精度对齐,确保模型训练过程平稳高效,训练精度与原环境高度一致,为模型迁移和优化提供有力保障,助力模型在昇腾云上顺利运行并达到预期性能。
        2. 服务内容:

          服务内容

          服务详细描述

          训练启动与监控

          启动模型训练,实时精准监控训练过程中的日志信息。及时捕捉并处理训练中出现的问题,确保训练过程平稳、高效推进,为模型的顺利迁移和优化提供有力保障。

          精度数据采集

          在训练过程中,全面采集精度数据,涵盖Loss值、准确率等关键指标,详细记录数据变化情况。为Loss对齐提供丰富、准确的数据支持,助力模型性能优化。

          Loss精度对齐

          依据采集的精度数据,对训练过程中的Loss进行精细对齐。灵活调整模型训练参数和策略,确保模型在昇腾云上的训练Loss与原环境高度一致,保障迁移后的训练效果。

      9. 推理性能优化(适用于标准版、专业版迁移服务)
        1. 目的:通过端到端性能数据采集、性能瓶颈识别、参数配置优化、融合算子优化、KVCache优化以及ContinuousBatch优化,全方位提升模型推理性能,精准定位并解决性能问题,优化模型运行效率,确保模型在昇腾云上高效、流畅运行,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端性能数据采集

          全面采集模型推理过程中的端到端性能数据,涵盖推理时间、吞吐量等关键指标。深入分析性能表现,精准定位问题,为后续优化提供详实依据。

          性能瓶颈识别

          基于性能数据分析,精准识别模型推理过程中的性能瓶颈。明确优化的关键点与方向,为针对性优化提供清晰指引,推动模型性能突破。

          参数配置优化

          依据性能瓶颈分析结果,对模型参数配置进行精细优化。合理调整参数值,充分挖掘模型潜力,显著提升推理性能,实现高效运行。

          融合算子优化

          针对模型中的算子,实施融合优化。减少算子数量,降低计算复杂度,提升推理效率,为模型运行加速,优化整体性能表现。

          KVCache优化

          运用KVCache技术,对模型中的键值对存储进行优化。提高数据访问速度,减少延迟,显著提升推理性能,增强模型运行效率。

          ContinuousBatch优化

          实施ContinuousBatch优化策略,优化模型批处理过程。提高推理的连续性和效率,确保模型在昇腾云上运行更流畅,满足业务需求。

      10. 训练性能优化(适用于标准版、专业版迁移服务)
        1. 目的:通过端到端性能数据采集、性能瓶颈识别、参数配置优化、内存优化、并行策略优化、融合算子优化以及调度优化和通信优化,全面优化模型训练性能,精准定位并解决性能瓶颈,提升训练效率,确保模型在昇腾云上高效训练,加速收敛,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          端到端性能数据采集

          在模型训练过程中,全面采集端到端性能数据,涵盖训练时间、资源利用率等关键指标。深入分析性能表现,精准定位问题,优化训练性能提升。

          性能瓶颈识别

          借助性能数据分析,精准识别模型训练过程中的性能瓶颈。明确优化的关键点与方向,为后续优化提供清晰指引,推动训练性能突破瓶颈。

          参数配置优化

          依据性能瓶颈分析结果,对模型训练的参数配置进行精细优化。合理调整参数值,充分挖掘模型训练潜力,显著提升训练性能,实现高效训练。

          内存优化

          针对模型训练过程中的内存使用,实施优化措施。减少内存占用,提高内存利用率,有效避免内存瓶颈,保障训练过程顺畅高效。

          并行策略优化

          优化模型训练的并行策略,灵活调整并行模式和参数。充分发挥昇腾云强大的并行计算能力,显著提升训练效率,加速模型收敛。

          融合算子优化

          对模型训练中的算子进行融合优化,减少算子数量,降低计算复杂度。提升训练效率,为模型训练加速,优化整体性能表现。

          调度优化和通信优化

          优化模型训练的调度策略和通信机制,减少通信开销,提高任务调度效率。全方位提升训练性能,确保训练过程高效协同。

      11. 模型验收(适用于基础版、标准版、专业版迁移服务)
        1. 目的: 通过模型精度测试、性能测试以及源码与脚本移交,确保模型在昇腾云上精度达标、性能优异,交付成果准确可靠,为模型的稳定应用和项目落地提供坚实保障,满足业务需求。
        2. 服务内容:

          服务内容

          服务详细描述

          模型精度测试

          在昇腾云上对模型精度进行全面测试,涵盖推理精度和训练精度。严格验证模型输出结果,确保其符合预期且满足业务要求,为模型的稳定应用提供精准保障。

          模型性能测试

          全面测试模型在昇腾云上的性能,包括推理性能和训练性能。精准评估模型运行效率,确保性能达到优化目标,满足业务对高效运行的需求。

          源码与脚本移交

          将优化后的模型源码和脚本完整移交给相关方,确保交付内容准确无误。保障后续工作的顺利开展,为项目落地提供有力支持。

    2. 应用迁移适配服务
      应用上云服务内容:

      服务内容

      服务详细描述

      应用现状与需求调研

      应用上云调研:采用访谈或问卷等方式进行应用上云迁移信息及模型现状调研,在各层级调研的过程中搜集客户源端业务、资源、服务等各方面的需求,为上云迁移设计提供必要的信息;模型场景调研:通过深入调研昇腾云迁移前后的硬件环境、模型相关情况以及性能基线,精准获取关键信息,明确硬件优劣、模型结构与功能以及性能基准。

      应用上云评估

      应用上云评估:基于收集到的现状和需求,从安全性、可用性、可扩展性、性能和成本等角度,给出关键发现,并技术架构维度给出优化建议;针对客户应用所涉及的云服务,从产品能力、产品规格、可靠性、资源和架构等角度评估云服务满足度,识别出迁移风险;模型迁移评估:通过梳理模型调研结果,深入分析当前业务现状与潜在需求,全面评估上云的可行性,并重点考察昇腾云服务的满足度以及迁移交付方案的可操作性。

      应用上云规划

      利用6R方法论给出上云策略,按照迁移分组规划和迁移优先级规划原则,规划上云批次,确保后续高效率的迁移。

      上云目标架构设计

      基于扩展性、高可用及容灾、性能、安全性、成本效益等原则,设计云上技术架构,输出应用上云目标技术架构方案。

      迁移方案设计

      应用上云迁移方案设计:根据云上目标技术架构,结合应用所涉及的云服务,进行云服务的迁移工具选型,输出上云迁移方案;如果涉及云服务改造,需要在迁移方案中补充改造方案。ITA协助客户制定业务测试方案,准备测试用例。结合客户切换需求(停服/不停服等)输出切换Runbook详细步骤;模型迁移方案设计:通过制定迁移、加速、脚本改造、优化实施及算子预检方案,全方位保障模型迁移至昇腾云的高效性、兼容性和性能优化,确保迁移过程平稳有序、模型运行流畅。

      环境部署

      在测试环境中,根据云上目标技术架构,ITA配合客户开通云服务资源。对于需要重新部署的业务,ITA配合客户进行业务部署,对无需重新部署可直接迁移的业务,ITA申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移。迁移完成后,客户主导进行功能和性能测试。

      测试验证

      验证目标环境及迁移环境,在环境准备完成后,根据runbook,在测试环境进行割接和回退演练,割接演练后,进行演练复盘,根据复盘结论优化割接回退runbook;多轮切换演练,确定Runbook。

      迁移实施

      应用上云迁移实施:在生产环境中资源发放完成后,ITA配合客户进行业务部署或业务相关各原子产品的迁移实施;模型迁移实施:部署模型运行所需的开发编译环境,并进行模型适配和模型调优。

      系统切换

      基于优化后的割接runbook,正式在生产环境中切换。

      业务验证

      客户主导,ITA配合执行功能、可靠性及性能测试,并进行模型测试。

      切换后保障

      组建割接后保障团队,覆盖PM、SRE、TAM、OPS等角色,建立初步的监控机制。

      移交

      移交相应文档,如果客户有需求,为客户提供用户培训。

  • AI平台实施服务

    服务描述:

    服务规格

    SKU编码

    服务内容

    适用场景

    AI平台实施服务-基础版

    modelarts.service.aipis.basic

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模不足64卡

    AI平台实施服务-标准版

    modelarts.service.aipis.standard

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到64-256卡

    AI平台实施服务-专业版

    modelarts.service.aipis.professional

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到256-1024卡

    AI平台实施服务-铂金版

    modelarts.service.aipis.platinum

    针对资源调度定制化、其他平台对接算力集群、本地化部署等场景,向客户提供架构方案实施、资源发放、云服务开通、平台部署实施、训推方案实施、调测等服务。

    MA集群规模达到1024以上

    训练实施服务

    modelarts.service.aitis

    1、跨地域训练方案原型设计与验证:开展跨地域训练的系统架构设计与关键技术验证,搭建测试环境,确保方案可行性。

    2、跨地域训练方案实施变更及业务验证支持:根据设计方案进行部署和技术迭代,提供业务对接,保障训练流程稳定可靠。

    3、跨地域训练方案性能验证与优化支持:通过性能测试分析系统瓶颈,优化网络通信与计算资源调度,提升训练效率与整体系统稳定性。

    训练实施服务适用于数据分散型、算力资源分布不均型企业,以及追求低延迟训练、大规模模型训练和多地域协同研发的场景,可解决数据传输、算力调配、训练效率等问题,助力企业实现高效智能训练。

    资源池实施服务

    modelarts.service.airis

    资源池实施包含资源需求管理与交付方案设计,资源池整合方案设计,资源整合实施,资源整合重保,资源搬迁

    适用于客户有资源池整合的场景。

  • AI平台开发支持服务

    服务描述:

    服务规格

    SKU编码

    服务内容

    适用场景

    AI平台开发支持服务-基础版

    modelarts.service.platformdevelopmentsupport10

    基于昇腾云底座的AI平台,为客户提供平台集成接口调用支持、模型推理迁移适配支持、推理支持服务: 覆盖AI平台SDK/API使用指导、混部等简单场景下的推理开发环境搭建、推理调测支持,第三方模型应用集成对接支持,并配套推理过程答疑,保障客户高效完成模型推理的迁移、部署开发、调试。

    适用于轻量开发场景的客户,涉及AI平台SDK/API使用指导、模型推理适配支持、模型推理混部场景下推理开发环境搭建、推理调测支持,第三方模型应用集成对接支持等相关开发场景(工作量不超过10人天,若超过需再次下单)。

    AI平台开发支持服务-标准版

    modelarts.service.platformdevelopmentsupport

    基于昇腾云底座的AI平台,为客户提供平台集成接口调用支持、模型迁移适配支持、推理支持与训练支持服务: 覆盖AI平台SDK/API使用指导、PD分离等复杂场景下的推理开发环境搭建/训练开发环境搭建、推理/训练调测支持、第三方模型应用集成对接支持、推理/训练性能调优支持,并配套推理/训练过程答疑,保障客户高效完成模型训练/推理的迁移、开发、调试及优化。

    适用于中度开发场景的客户,涉及AI平台SDK/API使用指导、模型适配支持、推理开发支持或训练开发支持以下场景二选一(工作量不超过30人天,若超过需再次下单):

    1、模型推理PD分离部署场景下推理开发环境搭建、推理调测支持,第三方模型应用集成对接支持,推理性能调优支持等相关推理开发场景;

    2、模型训练场景下训练开发环境搭建,训练调测支持,训练性能调优支持等相关训练开发场景。

    AI平台开发支持服务-专业版

    modelarts.service.platformdevelopmentsupport80

    1.SDK、API使用指导:帮助客户在本地环境调用SDK及API进行业务使用

    2.第三方模型对接:第三方模型的应用集成调测支持服务,确保模型接口稳定调用

    3.开发环境搭建指导:对于需要在云上调试代码的客户,进行云上开发环境依赖的搭建指导

    4.训练、推理过程答疑:针对在使用AI平台的训练或推理服务过程中存在问题的客户进行问题解答

    5.模型开发调测支持:基于AI平台为客户提供模型迁移、训练推理调测的技术支持,保障客户会用AI平台进行模型开发,助力客户高效开发与调测模型

    6.AI平台开发技术栈支持:围绕昇腾异构计算架构、AI框架、AI平台最佳实践以及工具链等方面,为客户提供技术保障服务

    适用于中度开发场景的客户,基于AI平台提供训推开发支持(工作量不超过80人天,若超过需再次下单)。

    AI平台开发支持服务-铂金版

    modelarts.service.platformdevelopmentsupport150

    适用于深度开发场景的客户,基于AI平台提供训推开发支持(工作量不超过150人天,若超过需再次下单)。

    AI平台开发支持服务-旗舰版

    modelarts.service.platformdevelopmentsupport360

    适用于深度开发场景的客户,基于AI平台提供训推开发支持(工作量不超过365人天,若超过需再次下单)。

    推理技术支持服务

    modelarts.service.aiits

    模型推理调测支持围绕模型量化、离线部署、在线部署及PD分离等关键场景,优化模型结构与参数,确保模型在不同部署环境下的稳定性和低延迟,保障推理服务的高效响应。模型调优支持凭借专业工具和算法,对模型进行精度对齐和性能调优,平衡模型的准确性和运行效率,使其在实际应用中实现性能最大化。

    为客户提供环境搭建、模型推理、模型调优等端到端技术支持服务,确保客户在昇腾云AI平台完成模型开发。适用于本地化部署需求的客户;央国企、政务类客户;行业场景深度定制客户。

    训练技术支持服务

    modelarts.service.aitts

    模型训练调测支持聚焦预训练和微调等环节,依据客户业务场景和数据特性,助力客户高效利用计算资源,加速模型收敛,提升模型泛化能力。模型调优支持凭借专业工具和算法,对模型进行精度对齐和性能调优,平衡模型的准确性和运行效率,使其在实际应用中实现性能最大化。

    为客户提供环境搭建、模型训练、模型调优等端到端技术支持服务,确保客户在昇腾云AI平台完成模型开发。适用于本地化部署需求的客户;央国企、政务类客户;行业场景深度定制客户。

前提条件

  • 客户应提前至少10工作日申请该服务,以便华为云评估客户需求并协调AI专家。
  • 双方达成一致的服务目标,并完成合同签订。

服务范围

  1. 服务覆盖范围
    • AI平台场景化建模开发服务:

      昇腾云AI平台场景化建模开发服务主要面向千行百业中有行业实际场景需求,并希望通过AI相关技术去解决这些需求的客户。华为云侧将基于AI平台,结合客户业务场景,提供专业的场景化建模开发服务。能够帮助企业快速集成AI平台能力到业务应用,针对计算机视觉、机器学习、NLP、决策优化等场景;工业质检、声音质检、工艺优化、零售识别、智能调度等行业,提供场景化建模开发、部署,以及应用与智能体开发。

      • 调研客户业务场景和痛点、业务系统、数据和模型的现状,明确业务目标。
      • 基于需求及现状分析与评估结果,进行场景化建模开发方案、数据方案、模型评测方案、部署方案、应用编排方案的设计、实施,以及功能及性能测试
    • AI平台场景化建模调优服务:

      华为面向各行业AI应用的开发与研究,提供AI平台场景化建模调优服务。针对客户不同阶段的需求,提供包括从AI平台场景化建模调优的开发与实施及模型的蒸馏、微调、增训服务。能够帮助企业快速集成AI平台能力到业务应用,针对计算机视觉、机器学习、NLP、决策优化等场景;工业质检、声音质检、工艺优化、零售识别、智能调度等行业,提供场景化建模调优,以及针对DeepSeek系列模型提供蒸馏、微调、增训服务,助力企业打造有思维能力的领域或行业大模型。

    • 昇腾云服务迁移适配服务:

      华为面向各行业AI模型/应用的开发与研究,提供昇腾云服务迁移适配服务,涵盖从模型迁移、精度对齐、性能调优到模型部署的全流程支持。本服务包括开源模型和自定义模型的迁移适配、GPU迁移支持、多模型场景适配以及开发环境与样例支持,适用于客户自主适配、深度迁移适配等场景。通过远程或现场支持,华为帮助客户高效完成迁移适配,解决技术难题,实现AI解决方案的端到端落地,助力业务价值快速实现。

    • AI平台实施服务:

      华为面向各行业AI应用的开发与研究,提供AI平台实施服务。针对资源调度定制化、其他平台对接算力集群、本地化部署场景,向客户提供架构方案实施、训练实施、资源发放、云服务开通、平台部署实施、调测等服务。

    • AI平台开发支持服务:

      针对客户不同阶段的需求,提供SDK/API使用指导、三方模型对接、开发环境搭建、模型开发调测、训/推过程答疑、AI平台开发技术栈的支持服务。

  2. 服务不覆盖范围

    华为AI工程师只负责本工作说明书所载明的服务,提供不在服务范围内的服务需要额外付费。不在服务范围内的服务包括但不限于如下所示内容:

    • 应客户要求超出正常工作日和工作时间的相关工作(注:涉及加班工资和补助)。
    • 外购件产品。
    • 超出项目方案约定范围的客户业务相关的开发维护工作。

    AI平台开发支持服务:

    AI平台开发支持服务工程师只负责本工作说明书所载明的服务,不承接客户具体开发工作,不承诺最终模型或业务效果,不参与客户应用软件开发,不包含第三方软件,不包含外购件产品。

    提供不在服务范围内的服务根据情况需要额外付费。不在服务范围内的服务包括但不限于如下所示内容:

    • 应客户要求超出正常工作日和工作时间的相关工作(注:涉及加班工资和补助)。
    • 离开常驻工作地前往其它城市进行相关工作(注:可能涉及费用包含但不限于差旅费、住宿费、附加通讯费等)
    • 承接客户具体开发工作。
    • 参与客户应用软件开发。
    • 第三方软件,外购件产品。
    • 超出产品能力范围外的技术支持服务。
    • 超出项目方案约定范围的客户业务相关的开发支持工作。
  3. 服务区域

中国站。

服务流程

  • AI平台场景化建模开发服务

    服务步骤

    服务说明

    场景调研

    明确开发、部署服务的需求范围及评估可行性。

    方案设计

    进行开发、部署服务方案设计。

    适配实施

    实施场景化建模、部署等方案。

    验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

  • AI平台场景化建模部署服务

    服务步骤

    服务说明

    环境准备

    检查、开通、部署相关资源,准备模型权重并制作推理镜像。

    环境部署

    配置推理参数、制作推理脚本并启动推理服务。

    部署验证

    进行功能、性能、精度测试。

    验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

  • 应用与智能体编排服务

    服务步骤

    服务说明

    编排需求调研

    完成业务场景调研,对齐需求规格。

    应用编排方案设计

    完成云上组件选型与确认,数据流设计和UX设计。

    编排实施

    依据应用编排技术方案,开发组件及编排实施,并完成知识库构建。

    验收上线

    完成效果验证并按需持续优化。

    移交

    项目完成,相关交付件移交给客户。

  • AI平台场景化建模调优服务

    服务步骤

    服务说明

    模型调优方案设计

    分析客户实际业务场景中的精度、性能基线,设计模型加速方案,以确保模型调优后能达到基线要求。

    模型性能调优

    使用模型性能调优工具,采集并分析框架+CANN软件栈+昇腾硬件端到端的性能数据,可视化呈现相关性能指标和调优建议,借助专家性能调优经验,优化模型性能。

    模型精度调优

    结合精度对比工具,dump下整网&各层数据,根据采集到的精度数据,定位问题API和溢出数据,通过数据归一化、数据类型调整,高精度算子适配等手段,分析原因并进行优化。

    场景验证

    验证模型训练/推理吞吐等性能指标,以及调优后的模型在实际场景中的精度表现。

    服务验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

  • 模型蒸馏服务

    服务步骤

    服务说明

    场景分析

    分析客户业务场景、数据状况和模型基础,明确蒸馏目标和需求,确定模型输入输出、运行环境及性能要求。

    蒸馏方案设计

    明确蒸馏目标与需求,确定模型输入输出、运行环境及性能要求,选择合适的学生模型,制定包含数据微调和强化学习的蒸馏策略。

    蒸馏数据实施

    依照蒸馏方案,挑选领域和通用数据集,用行业数据生成种子数据,借助教师模型生成并优化教师数据,最后合理配比通用数据与教师数据,为模型蒸馏准备高质量数据。

    蒸馏方案实施

    利用SFT、LoRA、RFT等技术微调模型,通过DPO、PPO、GPRO等强化学习方法优化模型性能,借助混合精度训练加速、模型量化等手段提升模型运行效率,完成模型优化与训练。

    蒸馏场景验证

    对蒸馏后的学生模型进行全面端到端测试,与蒸馏前模型对比性能、吞吐量、时延和内存占用等指标,再将其置于实际业务场景,验证模型性能与业务指标的匹配度,确保蒸馏效果满足预期。

    服务验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

  • 模型增训服务

    服务步骤

    服务说明

    增训方案设计

    明确增训的合理性和可行性,明确训练数据、模型训练、模型评测方案细节。

    增训数据方案实施

    数据获取,数据处理,数据评估,数据配比,数据安全保障。

    增训模型方案实施

    进行环境准备工作,启动增训工作流,并提供精度和性能调优服务。

    增训场景验证

    进行精度性能验证,模型评估,业务效果评估验证。

    验收

    客户验证交付件中的内容事项,签字确认《AI平台开发与实施服务验收报告》。

    移交

    项目完成,相关交付件移交给客户。

    交付确认

    确认交付件准确性和完整性,确认项目完成。

  • 模型微调服务

    服务步骤

    服务说明

    场景方案设计

    根据客户业务需求和数据状况,选择合适的微调路线,如监督微调(SFT、LoRA、QLoRA)训练场景等。

    数据方案设计

    针对不同的微调路线,设计相应的数据方案,包括数据的采集、标注、清洗、审核等步骤。

    模型方案设计

    根据客户的需求和硬件资源情况,配置模型的超参数,如学习率、批量大小、训练轮数等。

    评测方案设计

    构建评测数据集,包括从客户实际业务中抽取的具有代表性的样本。以及指定模型评测标准,用于评估模型效果。

    数据方案实施

    数据采集:从客户的业务系统、数据库、日志文件等渠道采集相关数据。

    数据标注:按照设计的指令格式与任务要求,对采集的数据进行标注。

    数据清洗:去除重复、错误、无用的数据记录,处理缺失值等问题。

    数据蒸馏:使用基于行业的Prompt数据从模型中获取答案,并将问题与答案构建为指令数据。

    数据配比:根据客户行业数据的特点和模型训练的需求,确定行业数据与通用数据的配比。

    模型开发环境准备

    确保有适当的硬件和软件环境。可以使用昇腾云服务平台获取计算资源。安装必要的依赖库和工具。

    模型微调训练

    采用 SFT、LoRA、QLoRA 等微调训练方法,根据设计好的微调方案对模型进行训练。

    模型效果调优

    在训练过程中,密切关注模型的损失值、准确率等指标的变化,及时调整训练参数和策略。

    微调场景验证

    精度性能验证:验证模型训练吞吐等性能、训练 loss 是否收敛等指标。

    模型评估验证:基于构建的评测集,客观评估模型打分结果。

    业务效果验证:根据正确性、完整性、相关性、有效性、通顺性等标准,根据业务场景,主观对模型的生成结果或预测结果进行详细的评测。

  • 昇腾云服务迁移适配服务 – 模型迁移交付流程

    服务步骤

    服务说明

    调研评估

    进行业务场景调研和分析,分析模型迁移前后硬件环境、模型源码、参数配置、模型权重和数据集、模型精度、性能基线等,评估上云可行性,分析昇腾云服务满足度和迁移交付方案可行性。

    方案设计

    依据调研表内容,预计工作量,进行统一设计,规划AI模型迁移过程中的操作步骤,形成此次迁移计划,输出迁移方案,进行资源需求锁定;并明确交付范围、服务范围以及验收方式指标等。

    迁移实施

    协助客户进行网络/模型迁移、环境部署、适配验证等操作。

    模型调优

    针对模型推理和训练进行精度和性能调优,包括权重转换、Loss对齐等调优操作。

    模型验收

    客户对模型精度、性能进行测试验收,并移交相应脚本及报告,验证迁移报告中的内容事项签字确认《AI平台开发与实施服务验收报告》 。

  • 昇腾云服务迁移适配服务 – 应用迁移交付流程

    服务步骤

    服务说明

    应用上云调研与评估

    深入调研客户应用现状、业务架构及模型,精准把握痛点与需求,结合上云可行性评估,科学规划上云路径,确保迁移高效稳定,保障业务连续性,助力客户平稳迈向云端高效运行。

    应用和上云规划

    提供全面的上云服务,运用6R策略精准规划上云路径,结合客户意愿灵活安排批次。精心设计高并发、灾备、分层高可用的云上架构,构建高效运维与安全体系,全方位保障系统稳定运行,助力客户安心上云。

    架构和方案设计

    提供高效云上部署服务,通过高并发设计、灾备架构、分层高可用,结合运维监控与安全防护,保障系统稳定运行。同时,制定模型与应用迁移、测试方案,确保迁移到昇腾云后数据无损、性能可靠,全方位提升应用迁移质量与效率。

    目标环境部署与测试

    配合客户开通云服务资源,进行业务部署,对无需重新部署可直接迁移的业务,申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移,迁移完成后,客户主导进行功能和性能测试。

    迁移实施

    通过模型迁移适配、调优及应用迁移适配,确保模型与应用在云端高效集成运行,保障数据一致性、完整性和可用性。同时,在NPU高效部署模型,封装安全可扩展API,平稳切换正式系统,全面验证业务功能与性能,满足业务需求,助力云端业务稳定高效运行。

    系统切换

    基于优化后的割接runbook,正式在生产环境中切换,客户主导,ITA配合执行功能、可靠性及性能测试。

    保障移交

    移交相应文档,如果客户有需求,为客户提供用户培训,验证迁移报告中的内容事项签字确认《AI平台开发与实施服务验收报告》。

  • AI平台实施服务

    服务步骤

    服务说明

    场景调研

    剖析客户的硬件资源及机器组网,判断和识别AI平台训练与推理在该场景中的部署方案,给出集群规模组成建议,提供业内合适成功案例作参考。

    需求分析

    基于业务场景需求分析,包含训练平台功能分析/推理平台功能分析。

    方案设计

    根据需求场景分析结果,综合性能和安全的前提下,给出AI平台总体方案设计。包括:集群网络设计,集群大小评估,训练、推理平台功能规划,训练、推理平台部署实施上线等。

    部署实施

    在客户实际项目中AI平台的网络部署、架构部署,以及AI平台扩容实施。

  • AI平台开发支持服务

    服务步骤

    服务说明

    需求调研

    业务场景讲解,明确需求。

    开发支持

    SDK/API使用指导、三方模型对接、开发环境搭建、模型开发调测、训/推过程答疑、AI平台开发技术栈。

    验收交付

    输出交付件,并确认交付件准确性和完整性,确认交付完成。

服务交付件

  • AI平台场景化建模开发服务

    服务名称

    交付件

    AI平台场景化建模开发服务-基础版

    《基于AI平台实现的场景化建模UseCase开发手册及指导》

    《基于AI平台实现的场景化建模开发服务测试报告》

    AI平台场景化建模开发服务-标准版

    AI平台场景化建模开发服务-专业版

    AI平台场景化建模开发服务-铂金版

    AI平台场景化建模部署服务-基础版

    《基于AI平台实现的场景化建模模型使用手册》

    AI平台场景化建模部署服务-标准版

    AI平台场景化建模部署服务-专业版

    AI平台场景化建模部署服务-铂金版

    应用与智能体编排服务-标准版

    《应用与智能体编排开发报告》

    应用与智能体编排服务-专业版

  • AI平台场景化建模调优服务

    服务名称

    交付件

    AI平台场景化建模调优服务-基础版

    《基于AI平台实现的场景化建模模型优化验证结果》

    AI平台场景化建模调优服务-标准版

    AI平台场景化建模调优服务-专业版

    AI平台场景化建模调优服务-铂金版

    模型蒸馏服务-基础版

    《AI平台场景化建模调优服务-模型蒸馏服务开发报告》

    模型蒸馏服务-专业版

    模型蒸馏服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型微调服务-基础版

    《AI平台场景化建模调优服务-模型微调服务开发报告》

    模型微调服务-专业版

    模型微调服务-铂金版

  • 昇腾云服务迁移适配服务

    服务名称

    交付件

    昇腾云服务迁移适配服务-基础版

    《昇腾云服务使用指导》

    昇腾云服务迁移适配服务-标准版

    《昇腾云服务迁移适配服务-需求调研表》

    《昇腾云服务迁移适配服务测试报告》

    《昇腾云服务迁移指导》

    昇腾云服务迁移适配服务-专业版

    昇腾云服务AI模型迁移服务-每模型

    昇腾云服务应用迁移服务-每应用

    《昇腾云服务应用迁移指导》

  • AI平台实施服务

    服务名称

    交付件

    AI平台实施服务-基础版

    《AI训练平台交付功能清单》/《AI推理平台交付功能清单》+《AI平台功能推荐报告》

    AI平台实施服务-标准版

    AI平台实施服务-专业版

    AI平台实施服务-铂金版

    训练实施服务

    《训练实施服务开发报告》

    资源池实施服务

    《资源池实施服务清单模板》

    基于ModelArts训练平台/ ModelArts推理平台,选择对应的《AI xx平台交付功能清单》。

  • AI平台开发支持服务

    服务名称

    交付件

    AI平台开发支持服务-基础版

    《XXX项目开发支持问题跟踪表》

    《AI平台开发支持专业服务报告》

    AI平台开发支持服务-标准版

    AI平台开发支持服务-专业版

    AI平台开发支持服务-铂金版

    AI平台开发支持服务-旗舰版

    推理技术支持服务

    训练技术支持服务

责任矩阵

  • 共同责任
    • 双方商定并确认具体的业务需求及目标。
    • 双方商定并确认项目管理计划。
    • 双方商定并确认方案内容并评审。
    • 完成合同签订。
  • 华为责任
    • 华为云需明确此次项目的负责人,因特殊情况导致华为人员变更,需要提前3个工作日知会客户,直至项目最终验收完成。
    • 华为云得到客户授权后,授权数据仅限用于专业服务中涉及的服务内容,不得超出限定范围。
    • 咨询前,按照客户所选服务项,制定指导计划和报价清单供客户审核确认。
    • 咨询期间,依确认后的计划为指定客户进行技术指导。
    • 咨询结束后,根据所选咨询服务项,出具交付件清单。
    • 接收用户的服务申请,协调ModelArts平台专家与客户商定详情。
  • 客户责任
    • 提供详细准确的需求和场景。
    • 提供项目实施的必须件,比如:训练数据等。
    • 审核并确认华为提供的指导计划和交付件。
    • 执行项目验收。

责任分工矩阵表

  • AI平台场景化建模开发服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认

    S

    R

    4

    方案设计

    场景建模设计

    R

    S

    5

    方案汇报

    建模方案汇报

    R

    R

    6

    方案确认

    建模方案确认

    S

    R

    7

    方案实施

    模型开发&部署,系统对接

    R

    S

    8

    方案验收

    功能&性能验收

    S

    R

    9

    项目移交

    交付件整理与交接

    R

    S

    10

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • AI平台场景化建模调优服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。性能调优的特殊性,导致调优方案设计与实施的顺序可能依据具体项目情况调整。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确优化需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认(关键指标)

    S

    R

    4

    方案设计

    优化方案设计

    R

    S

    5

    方案汇报

    优化方案汇报

    R

    R

    6

    方案确认

    优化方案确认

    S

    R

    7

    方案实施

    优化方案实施

    R

    S

    8

    方案验收

    优化性能验收

    S

    R

    9

    项目移交

    交付件整理与交接

    R

    S

    10

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • 昇腾云服务迁移适配服务 – 模型迁移

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    调研评估

    业务场景讲解,明确迁移需求,理解需求与关键问题定义,并评估上云可行性

    R

    S

    2

    方案设计

    模型迁移、模型加速、脚本改造、算子预检方案设计,明确交付方案、服务范围、交付计划及验收方式及指标

    R

    S

    3

    迁移实施

    协助客户进行网络/模型迁移、环境部署、适配验证等操作

    R

    S

    4

    模型调优

    针对模型推理和训练进行精度和性能调优,包括权重转换、Loss对齐等调优操作

    R

    S

    5

    模型验收

    模型精度、性能测试进行验收

    S

    R

    6

    项目移交

    交付件整理与交接

    R

    S

    7

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • 昇腾云服务迁移适配服务 – 应用迁移

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    应用上云调研与评估

    业务场景讲解,明确迁移需求,理解需求与关键问题定义,并评估上云可行性。

    R

    S

    2

    应用上云规划

    运用6R策略及依据客户上云意愿和优先级规划上云批次,实现高效、有序的上云迁移。

    R

    S

    3

    架构和方案设计

    通过高并发设计、灾备架构、分层高可用,结合运维监控与安全防护,同时,制定模型与应用迁移、测试方案。

    R

    S

    4

    目标环境部署与测试

    配合客户开通云服务资源,进行业务部署,对无需重新部署可直接迁移的业务,申请迁移工具云服务,打通源端到目的端的迁移环境,并实施迁移,迁移完成后,客户主导进行功能和性能测试。

    R

    S

    5

    迁移实施

    模型迁移适配、调优及应用迁移适配,在NPU高效部署模型,封装安全可扩展API,平稳切换正式系统,全面验证业务功能与性能。

    R

    S

    6

    系统切换

    基于优化后的割接runbook,正式在生产环境中切换,客户主导,ITA配合执行功能、可靠性及性能测试。

    R

    S

    7

    保障移交

    交付件整理与交接,如果客户有需求,为客户提供用户培训。

    R

    S

    8

    交付确认

    确认交付件准确性和完整性,确认项目完成。

    S

    R

  • AI平台实施服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求提出

    业务场景讲解,明确需求

    S

    R

    2

    需求理解

    需求理解与关键问题定义

    R

    S

    3

    需求确认

    需求确认,验收项确认

    S

    R

    4

    方案设计

    完成业务场景调研,明确客户业务痛点,输出基于ModelArts平台的设计说明书

    R

    S

    5

    方案实施

    提供约定由AI平台输出的部署方案,约定由AI平台输出的集群规模

    R

    S

    6

    项目验收

    客户验收

    S

    R

    7

    项目移交

    交付件整理与交接

    R

    S

    8

    交付确认

    确认交付件准确性和完整性,确认项目完成

    S

    R

  • AI平台开发支持服务

    以下为职责描述案例,可酌情修改;

    R=责任方/Responsibility

    S=协助方/Support

    备注:如果是华为提供技术支持的服务内容,实施动作责任方为客户。

    序号

    服务流程

    工作内容

    华为

    客户

    1

    需求调研

    业务场景讲解,明确需求

    R

    S

    2

    开发支持

    SDK/API使用指导、三方模型对接、开发环境搭建、模型开发调测、训/推过程答疑、AI平台开发技术栈

    R

    S

    3

    验收交付

    输出交付件,并确认交付件准确性和完整性,确认交付完成

    R

    R

验收标准

华为按各服务子项提交“服务交付件”章节所述标准交付件,客户在华为云官网Console点击确认验收,或线下签字盖章《AI平台开发与实施服务验收报告》作为服务验收通过依据。

  • AI平台场景化建模开发服务

    服务名称

    交付件

    验收报告

    AI平台场景化建模开发服务-基础版

    《基于AI平台实现的场景化建模UseCase开发手册及指导》

    《基于AI平台实现的场景化建模开发服务测试报告》

    《AI平台开发与实施服务验收报告》

    AI平台场景化建模开发服务-标准版

    AI平台场景化建模开发服务-专业版

    AI平台场景化建模开发服务-铂金版

    AI平台场景化建模部署服务-基础版

    《基于AI平台实现的场景化建模模型使用手册》

    AI平台场景化建模部署服务-标准版

    AI平台场景化建模部署服务-专业版

    AI平台场景化建模部署服务-铂金版

    应用与智能体编排服务-标准版

    《应用与智能体编排开发报告》

    应用与智能体编排服务-专业版

  • AI平台场景化建模调优服务

    服务名称

    交付件

    验收报告

    AI平台场景化建模调优服务-基础版

    《基于AI平台实现的场景化建模模型优化验证结果》

    《AI平台开发与实施服务验收报告》

    AI平台场景化建模调优服务-标准版

    AI平台场景化建模调优服务-专业版

    AI平台场景化建模调优服务-铂金版

    模型蒸馏服务-基础版

    《AI平台场景化建模调优服务-模型蒸馏服务开发报告》

    模型蒸馏服务-专业版

    模型蒸馏服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型增训服务-基础版

    《AI平台场景化建模调优服务-模型增训服务开发报告》

    模型增训服务-专业版

    模型增训服务-铂金版

    模型微调服务-基础版

    《AI平台场景化建模调优服务-模型微调服务开发报告》

    模型微调服务-专业版

    模型微调服务-铂金版

  • 昇腾云服务迁移适配服务

    服务名称

    交付件

    验收报告

    昇腾云服务迁移适配服务-基础版

    《昇腾云服务使用指导》

    《AI平台开发与实施服务验收报告》

    昇腾云服务迁移适配服务-标准版

    《昇腾云服务迁移适配服务-需求调研表》

    《昇腾云服务迁移适配服务测试报告》

    《昇腾云服务迁移指导》

    昇腾云服务迁移适配服务-专业版

    昇腾云服务AI模型迁移服务-每模型

    昇腾云服务应用迁移服务-每应用

    《昇腾云服务应用迁移指导》

  • AI平台实施服务

    服务名称

    交付件

    验收报告

    AI平台实施服务-基础版

    《AI训练平台交付功能清单》/

    《AI推理平台交付功能清单》+

    《AI平台功能推荐报告》

    《AI平台开发与实施服务验收报告》

    AI平台实施服务-标准版

    AI平台实施服务-专业版

    AI平台实施服务-铂金版

    训练实施服务

    《训练实施服务开发报告》

    资源池实施服务

    《资源池实施服务清单模板》

  • AI平台开发支持服务

    服务名称

    交付件

    验收报告

    AI平台开发支持服务-基础版

    《XXX项目开发支持问题跟踪表》

    《AI平台开发支持专业服务报告》

    《AI平台开发与实施服务验收报告》

    AI平台开发支持服务-标准版

    AI平台开发支持服务-专业版

    AI平台开发支持服务-铂金版

    AI平台开发支持服务-旗舰版

    推理技术支持服务

    训练技术支持服务

相关文档