更新时间:2024-12-05 GMT+08:00
分享

方案概述

应用场景

随着全球科技竞争的加剧和国际制裁背景下,中国企业对国产自主算力的需求迅速增长。昇腾行业大模型适配服务凭借其强大的高性能计算能力和深度学习算法优化,成为推动国内信创产业发展的关键力量。而各地国产化算力中心建设完成后,客户常因技术栈差异面临软硬件兼容性和使用困难,缺乏对华为昇腾AI平台的深入了解,遇到技术问题时响应不及时,影响项目推进和创新。

客户在使用昇腾算力开发模型时面临诸多挑战:

  • 技术栈差异:各地国产化算力中心建设完成后,客户常因技术栈差异面临软硬件兼容性和使用困难,导致开发效率低下。
  • 技术理解不足:部分客户缺乏对华为昇腾AI平台的深入了解,遇到技术问题时响应不及时,影响项目推进和创新。
  • 迁移难度大:AI模型迁移面临算子层、框架层、模型层等多技术体系,迁移过程中遇到算子不适配场景难以解决,迁移后模型需要进行准确和性能调优,依赖专家经验进行模型分析与调优。
  • 开发环境复杂:AI开发面临算子层、模型层、应用使能层等多技术体系的熟悉,学习难;AI现场开发过程中常会遇到难点问题、新特性理解不深入,问题求助响应慢;模型运行依赖多,开发环境搭建复杂;工具链种类多,学习周期长。
  • 专业人才短缺:客户虽然有专业的AI算法工程师团队,但不了解CANN与昇腾底层,在开发过程中遇到底层问题疑难问题难以处理。算法工程师定位底层问题效率低,不了解昇腾有哪些可以利用依赖的工具链,疑难问题求助依赖社区途径。
  • 调优经验不足:昇腾迁移调优经验少,CANN层问题不会处理,不了解昇腾的调度逻辑。缺乏大模型调优经验,针对模型性能与精度优化没有有效的方法,没有类似算子优化层面的高阶调优能力。

通过本方案实现的业务效果:

本章节介绍如何通过天宽昇腾云行业大模型适配服务解决方案,提供模型从开发到迁移的全流程支持,优化模型性能,确保业务平稳运行。

  • 全栈式技术服务:提供算法框架、计算框架、加速框架、硬件组网以及芯片型号等组合的全栈支持能力,确保模型在不同硬件平台上的高效运行。
  • 高效模型迁移适配:通过自动化迁移工具和专业的技术支持,实现模型从GPU平台快速、无缝地迁移到昇腾NPU平台,确保模型在新平台上的性能和精度不受影响;
  • 多维度性能调优:提供从算子、内存、通信、调度等多维度的调优手段,提升模型的运行效率和性能,调优效率提升50%,平均模型性能提升20%以上;
  • 专业服务团队支撑:具备经验丰富的现场工程师和远程专家团队,帮助客户快速定位精度问题,解决性能瓶颈,业务上线时间缩短25%。

解决方案实践的应用行业推荐:

通过华为云高性价比国产算力算力,结合天宽昇腾云行业大模型适配服务,为客户提供从模型设计、数据处理到训练、优化、部署的一站式AI模型服务,确保模型准确适配行业需求,快速实现业务落地。特别适合如下行业:

  • 政府与公共服务:大量昇腾算力中心建设完成后,客户常因技术栈差异面临软硬件兼容性和使用困难的问题,需要专业技术团队为客户提供昇腾设备的使用支持服务,旨在提升昇腾开发效率、降低昇腾开发门槛,处理客户在开发过程中遇到的技术问题。
  • 能源与电力:新能源的快速发展给电网稳定性带来巨大挑战,在各业务场景中迫切需要引入大模型提升管理效率,而通用基础模型往往无法直接使用,天宽深耕电力行业,具备丰富的技术实力和行业经验,通过对行业知识与场景需求的深度融合,为客户提供 NLP、CV、多模态等领域的模型应用解决方案,帮助企业解决特定的业务问题。

方案架构

天宽昇腾云行业大模型适配服务通过深度学习算法优化与高效计算,结合华为昇腾算力,为各行业提供全面的大模型迁移、适配与优化服务。天宽通过深度优化昇腾算力,结合大规模分布式训练、模型微调与部署等核心能力,针对不同行业的需求,为客户提供从模型设计、训练到部署的一站式服务,助力企业快速落地AI应用。

业务架构

图1 业务架构图

行业大模型适配服务:

  • 昇腾模型与应用开发支持:提供MindSpore 、Pytorch AI框架相关API的使用指导,支持客户基于昇腾平台进行模型开发和模型的并行化改造,解答模型开发训练过程中遇到的技术问题。提供昇腾编程语言ACL(Ascend Computing Language)或MindX SDK相关的API接口的使用指导,支持客户基于昇腾平台进行离线推理应用开发,支持客户使用昇腾ATC工具进行离线模型转换,解答客户在应用开发过程中遇到的技术问题。
  • 昇腾工具链使用支持:提供昇腾AIT(Ascend Inference Tools)、ATT(Ascend Training Tools)、MindInsight、MindStudio等昇腾工具链的使用指导,支持客户使用昇腾官方提供的各类高阶组件进行模型迁移分析、模型算子精度采集与模型性能采集,支持客户调用工具实现精度、性能数据的可视化,处理客户在工具链使用过程中遇到的技术问题。

昇腾迁移&优化服务

  • 昇腾适配模型运行支持:基于昇腾已在ModelZoo上发布的模型,支持客户完成模型在昇腾平台上的部署与调测,获取模型网络权重,进行权重格式转换;支持客户进行数据集封装,打通适配模型的训练、微调、在线推理流程;支持客户进行模型的并行化改造,处理适配模型运行过程中的技术问题。
  • 模型迁移与调优支持:调研客户业务场景,支持客户分析模型代码结构,分析迁移可行性,设计迁移方案。支持客户进行模型迁移环境部署与训练脚本改造。支持客户进行权重转换,打通在线推理流程,使用昇腾工具链进行调优。处理客户在模型迁移与调优过程中的技术问题。

部署架构

图2 部署架构图

方案通过华为云提供的一站式AI开发平台ModelArts,对象存储服务OBS等服务,为客户提供从模型设计、训练到部署的一站式服务,助力企业快速落地AI应用。

  • AI开发平台ModelArts:提供海量数据预处理及半自动化标注、大规模分布式训练、自动化模型生成及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理全周期AI工作流。
  • 对象存储服务:存储数据和模型,实现安全、高可靠和低成本的存储需求。
  • 云容器引擎:ModelArts使用云容器引擎部署模型为在线服务,支持服务的高并发和弹性伸缩需求。
  • 容器镜像服务:使用ModelArts不支持的AI框架构建模型时,可通过构建的自定义镜像导入ModelArts进行训练或推理。
  • 云监控服务:使用云监控服务监控在线服务和对应模型负载,执行自动实时监控、告警和通知操作。
  • 云审计服务:使用云审计服务记录ModelArts相关的操作事件,便于日后的查询、审计和回溯。

方案优势

通过天宽昇腾云行业大模型适配服务,用户能够在华为云高性价比的昇腾算力支持下,克服技术栈差异、技术理解不足、迁移难度大、开发环境复杂、专业人才短缺和调优经验不足等痛点,实现高效、可靠的AI应用落地,推动企业的数字化转型。

  • 高效模型迁移与适配:支持模型从GPU平台快速迁移至昇腾NPU平台,提供自动化迁移工具与算子适配,确保模型无缝迁移。
  • 定制化行业模型开发:针对不同行业的特定业务场景,提供专属的模型设计与训练服务,满足复杂场景需求,实现准确适配。
  • 高性能计算支持:基于昇腾云的强大算力,通过算子优化、内存管理与梯度优化等技术,显著提升模型的训练效率和推理速度。
  • 精度调优与性能优化:提供专业的精度调试与性能调优服务,确保模型在迁移后能够保持与原平台一致的精度,并优化推理性能。

相关文档