网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
云化数据中心 CloudDC
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络 ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务

实施步骤

更新时间:2024-12-05 GMT+08:00
分享

天宽行业大模型适配服务

前期咨询:天宽会深入了解客户所在行业的需求,评估业务场景中的具体问题和痛点。通过与客户的多轮沟通,明确所需解决的问题及目标,为客户量身定制相应的大模型解决方案。同时,天宽会结合模型的技术特点和行业实践,确定模型落地路径,并规划整个模型开发与实施的整体方案。

模型开发与训练:根据客户的具体业务需求及数据特性,天宽将设计出适合该业务场景的模型。此阶段会涉及数据预处理、特征工程及模型架构的选择。

  • 天宽在数据采集领域拥有丰富的爬虫开发经验,能够熟练使用Python、JavaScript等编程语言,为客户定制高效的爬虫脚本,从指定的网站和平台采集所需数据。天宽团队在实际项目中曾广泛应用Scrapy、Beautiful Soup和Selenium等工具,确保数据采集的速度和质量。
    图1 模型开发与训练1
  • 天宽团队在数据处理方面具备深厚的专业技能,能够熟练运用Python的Pandas和NumPy等库进行高效的数据清洗与预处理。天宽团队掌握全面的数据清洗流程,包括去除重复值、处理缺失数据、检测和修正异常值等操作,确保数据的完整性和一致性。对于大规模数据集,天宽团队擅长使用Apache Spark等大数据处理工具,能够高效地对数据进行清洗、转换和优化。
    图2 天宽行业大模型适配服务1
    图3 天宽行业大模型适配服务2
在模型训练过程中,天宽通过配置和管理云资源,确保训练任务的高效运行。借助云计算实例(华为云ECS),天宽团队能够为训练任务分配合适的计算资源,同时利用存储服务(华为云OBS)来存储大规模数据和模型。训练期间,天宽团队使用云服务提供的监控工具,实时跟踪训练进度和资源使用情况,快速发现并解决潜在问题。通过Git等版本控制系统管理模型版本,天宽团队能够在基模型更新时自动触发集成和测试流程,确保训练过程中的稳定性与优化。
图4 训练日志实时跟踪
图5 资源池状态监控
图6 节点状态监控
图7 NPU状态监控1
图8 NPU状态监控2

模型评估调优:天宽凭借在多个项目中的实践,积累了丰富的大模型评测经验,能够高效且准确地定义性能指标,如准确性、召回率、精确度等标准评价维度。对于不同的业务场景,天宽还会根据具体需求设定与业务紧密相关的关键绩效指标(KPIs),如用户满意度、转化率或响应时间,确保评测结果能够直接反映模型在真实业务中的表现。在评测准备阶段,天宽特别注重测试集的创建与选择,力求测试数据具有高度的多样性和代表性,以真实反映模型的预期使用场景。这不仅能有效避免因数据偏差导致的评测失真,还能确保模型在不同环境和条件下的一致表现,从而为实际应用提供可靠的依据。在工具和框架的选择上,天宽充分考虑项目的具体需求,精心挑选支持范围广、精确度高、效率和易用性兼备的评测工具。例如,MLPerf作为广泛应用的行业标准工具,能够对多种模型和任务进行性能测试;而TensorFlow Model Analysis则适用于深入分析TensorFlow模型的行为。在需要定制化解决方案的场景下,天宽也会开发自定义评测脚本,确保评测方案能够全面覆盖项目的特殊需求,实现对模型表现的全方位评估和优化。通过这一系统化的评测流程,天宽确保模型能够在实际业务中达到最佳性能。

图9 精度对比

实施模型能力评测时,首先运行评测测试,执行模型在预设的测试集上的推理,并收集相关的性能数据。这一过程也可以通过在线评测来完成,模拟模型在真实环境中的表现,从而获取更具参考价值的结果。随后,对测试结果进行统计和分析,运用统计方法来确定模型的性能是否达到了预期标准。如果条件允许,还可以进行A/B测试,以对比不同模型或不同版本的模型在实际场景中的表现,进一步评估其优劣。

图10 C_eval精度测试1

在结果解读阶段,对于未达到标准的指标,需要深入分析可能的原因。常见的问题可能包括数据质量的不足、模型过拟合或欠拟合等。通过混淆矩阵、ROC曲线等工具,可以更深入地理解模型的行为,找到其潜在的弱点,并据此进行相应的改进或优化。

图11 C_eval精度测试2

模型应用开发:基于大模型框架,天宽团队将训练好的模型集成到实际应用中,使其能够在具体的业务场景中发挥作用。例如在自动化流程、预测分析等应用中,构建智能体以应对复杂场景。同时,天宽团队会确保该系统在实际应用中的性能、稳定性及可扩展性。对需要部署在不同环境中的模型,会进行针对性的适配和优化。

模型推理部署:完成模型训练和优化后,进入推理部署阶段。天宽团队将模型打包部署为可供API调用的AI应用,使客户能够在自己的业务场景中方便地集成模型推理服务。通过API接口,客户可以实现与其他应用系统的集成,完成对大规模数据的实时处理和推理操作。天宽团队会确保部署过程中的高效性与稳定性,以应对业务中的并发需求和大数据量处理。

图12 MindIE 推理服务部署
图13 Npu占用

模型运维服务:部署完成后,天宽团队为客户提供完善的运维服务。通过现场或远程的方式,天宽团队会为客户提供后续支持,包括模型的日常巡检、性能监控、技术指导等。同时,还将提供模型升级服务,确保模型能够与最新的业务需求和技术发展同步。在遇到模型性能下降或业务调整时,天宽团队会迅速响应,并提供针对性的调优或升级方案,保障模型的长期稳定运行。

天宽科技昇腾迁移&优化服务

前期咨询:天宽具备丰富的技术实力和专业经验,可以为客户提供 NLP、CV、多模态等领域 L0 级别大模型的服务部署方案的全面规划设计。将利用大模型(商用大模型、经典开源大模型)、计算机视觉算法(例如 ResNet、YOLO 等)、以及多模态融合技术(如 CLIP 等),为客户量身定制符合其业务需求的部署方案。天宽将综合考虑模型选择、性能优化、部署架构设计、系统可扩展性以及高可用性等方面因素,确保客户能够在实际应用中充分发挥大模型的潜力,实现业务目标的有效实施。

图14 获取模型权重及源码

迁移可行性分析:天宽提供全面的迁移分析服务,帮助客户将基于其他平台(如GPU)的PyTorch训练脚本顺利迁移至昇腾AI处理器。迁移前,天宽会借助msFmkTransplt工具,对客户的PyTorch训练脚本进行全面分析,确保迁移过程的高效性和成功率。该工具能够深入分析脚本中使用的算子、三方库套件、亲和API以及动态shape等方面的适配情况,并对模型迁移到昇腾平台的可行性做出详细评估。通过迁移分析,天宽团队能够快速识别训练脚本中不支持的torch API和cuda API,提供针对性优化建议,帮助提升模型在昇腾平台上的精度和性能。此外,针对三方库套件的分析,也可以帮助用户快速发现代码中不支持的第三方库API及其相关依赖项。三方库中的函数如果包含了不被支持的算子或cuda自定义算子,天宽会根据分析结果提供替代方案或进行适配优化,以保证整体系统的兼容性和稳定性。

图15 工具分析
图16 生成结果
图17 不支持算子列表

模型迁移:天宽通过三种方式完成模型迁移任务。导入import torch_npu和from torch_npu.contrib import transfer_to_npu库,可以实现自动迁移。在这种方法下,训练脚本会在运行过程中自动将CUDA接口替换为昇腾AI处理器支持的NPU接口,整个流程是在训练中动态完成转换,简化了操作,提升了效率。使用迁移工具ms_fmk_transplt是另一种迁移方式。通过这个工具,训练脚本中的CUDA接口会被自动替换为NPU接口,并生成迁移报告,其中包括脚本转换日志、不支持的算子列表和脚本修改记录。完成脚本转换后,可直接运行转换后的脚本进行训练,实现快速迁移。在手工迁移中,天宽团队通过分析模型,对比GPU和NPU接口,对训练脚本进行手动调整,以支持昇腾AI处理器的运行。手工迁移的核心在于将训练设备切换至NPU,并手动替换脚本中适配GPU的接口。在涉及多卡分布式训练时,还需要修改芯片间的通信方式,使用昇腾支持的hccl。通过这些灵活的迁移方式,天宽能够高效地满足客户不同场景下的迁移需求,并优化模型性能。

图18 工具迁移列举出修改的算子列表
图19 修改不支持的算子

模型评估与调优

天宽凭借在多个项目中的实践,积累了丰富的大模型评测经验,能够高效且准确地定义性能指标,如准确性、召回率、精确度等标准评价维度。对于不同的业务场景,天宽还会根据具体需求设定与业务紧密相关的关键绩效指标(KPIs),如用户满意度、转化率或响应时间,确保评测结果能够直接反映模型在真实业务中的表现。在评测准备阶段,天宽特别注重测试集的创建与选择,力求测试数据具有高度的多样性和代表性,以真实反映模型的预期使用场景。这不仅能有效避免因数据偏差导致的评测失真,还能确保模型在不同环境和条件下的一致表现,从而为实际应用提供可靠的依据。在工具和框架的选择上,天宽充分考虑项目的具体需求,精心挑选支持范围广、精确度高、效率和易用性兼备的评测工具。例如,MLPerf作为广泛应用的行业标准工具,能够对多种模型和任务进行性能测试;而TensorFlow Model Analysis则适用于深入分析TensorFlow模型的行为。在需要定制化解决方案的场景下,天宽也会开发自定义评测脚本,确保评测方案能够全面覆盖项目的特殊需求,实现对模型表现的全方位评估和优化。通过这一系统化的评测流程,天宽确保模型能够在实际业务中达到最佳性能。

实施模型能力评测时,首先运行评测测试,执行模型在预设的测试集上的推理,并收集相关的性能数据。这一过程也可以通过在线评测来完成,模拟模型在真实环境中的表现,从而获取更具参考价值的结果。随后,对测试结果进行统计和分析,运用统计方法来确定模型的性能是否达到了预期标准。如果条件允许,还可以进行A/B测试,以对比不同模型或不同版本的模型在实际场景中的表现,进一步评估其优劣。

图20 评估脚本
图21 结果显示

在结果解读阶段,对于未达到标准的指标,需要深入分析可能的原因。常见的问题可能包括数据质量的不足、模型过拟合或欠拟合等。通过混淆矩阵、ROC曲线等工具,可以更深入地理解模型的行为,找到其潜在的弱点,并据此进行相应的改进或优化。

模型交付:在交付阶段准备详细的评测报告,清晰地描述评测过程、结果以及优化建议。同时,提供可交互的仪表板,使非技术利益相关者也能够理解评测结果。基于评测反馈,模型架构可能需要通过增加或减少层次来进行调整,或者通过引入更多的数据预处理步骤来提升输入数据的质量。此外,自动化测试流程的设立,能够确保模型定期接受性能评估,持续满足业务需求。

图22 测评结果展示
提示

您即将访问非华为云网站,请注意账号财产安全

文档反馈

文档反馈

意见反馈

0/500

标记内容

同时提交标记内容