文档首页/ AI/ 天宽昇腾云行业大模型适配服务解决方案/ 实施步骤

更新时间：2024-12-05 GMT+08:00

查看PDF

实施步骤

天宽行业大模型适配服务

前期咨询：天宽会深入了解客户所在行业的需求，评估业务场景中的具体问题和痛点。通过与客户的多轮沟通，明确所需解决的问题及目标，为客户量身定制相应的大模型解决方案。同时，天宽会结合模型的技术特点和行业实践，确定模型落地路径，并规划整个模型开发与实施的整体方案。

模型开发与训练：根据客户的具体业务需求及数据特性，天宽将设计出适合该业务场景的模型。此阶段会涉及数据预处理、特征工程及模型架构的选择。

天宽在数据采集领域拥有丰富的爬虫开发经验，能够熟练使用Python、JavaScript等编程语言，为客户定制高效的爬虫脚本，从指定的网站和平台采集所需数据。天宽团队在实际项目中曾广泛应用Scrapy、Beautiful Soup和Selenium等工具，确保数据采集的速度和质量。
图1 模型开发与训练1
天宽团队在数据处理方面具备深厚的专业技能，能够熟练运用Python的Pandas和NumPy等库进行高效的数据清洗与预处理。天宽团队掌握全面的数据清洗流程，包括去除重复值、处理缺失数据、检测和修正异常值等操作，确保数据的完整性和一致性。对于大规模数据集，天宽团队擅长使用Apache Spark等大数据处理工具，能够高效地对数据进行清洗、转换和优化。
图2 天宽行业大模型适配服务1

图3 天宽行业大模型适配服务2

在模型训练过程中，天宽通过配置和管理云资源，确保训练任务的高效运行。借助云计算实例（华为云ECS），天宽团队能够为训练任务分配合适的计算资源，同时利用存储服务（华为云OBS）来存储大规模数据和模型。训练期间，天宽团队使用云服务提供的监控工具，实时跟踪训练进度和资源使用情况，快速发现并解决潜在问题。通过Git等版本控制系统管理模型版本，天宽团队能够在基模型更新时自动触发集成和测试流程，确保训练过程中的稳定性与优化。

图4 训练日志实时跟踪

图5 资源池状态监控

图6 节点状态监控

图7 NPU状态监控1

图8 NPU状态监控2

模型评估调优：天宽凭借在多个项目中的实践，积累了丰富的大模型评测经验，能够高效且准确地定义性能指标，如准确性、召回率、精确度等标准评价维度。对于不同的业务场景，天宽还会根据具体需求设定与业务紧密相关的关键绩效指标（KPIs），如用户满意度、转化率或响应时间，确保评测结果能够直接反映模型在真实业务中的表现。在评测准备阶段，天宽特别注重测试集的创建与选择，力求测试数据具有高度的多样性和代表性，以真实反映模型的预期使用场景。这不仅能有效避免因数据偏差导致的评测失真，还能确保模型在不同环境和条件下的一致表现，从而为实际应用提供可靠的依据。在工具和框架的选择上，天宽充分考虑项目的具体需求，精心挑选支持范围广、精确度高、效率和易用性兼备的评测工具。例如，MLPerf作为广泛应用的行业标准工具，能够对多种模型和任务进行性能测试；而TensorFlow Model Analysis则适用于深入分析TensorFlow模型的行为。在需要定制化解决方案的场景下，天宽也会开发自定义评测脚本，确保评测方案能够全面覆盖项目的特殊需求，实现对模型表现的全方位评估和优化。通过这一系统化的评测流程，天宽确保模型能够在实际业务中达到最佳性能。

图9 精度对比

实施模型能力评测时，首先运行评测测试，执行模型在预设的测试集上的推理，并收集相关的性能数据。这一过程也可以通过在线评测来完成，模拟模型在真实环境中的表现，从而获取更具参考价值的结果。随后，对测试结果进行统计和分析，运用统计方法来确定模型的性能是否达到了预期标准。如果条件允许，还可以进行A/B测试，以对比不同模型或不同版本的模型在实际场景中的表现，进一步评估其优劣。

图10 C_eval精度测试1

在结果解读阶段，对于未达到标准的指标，需要深入分析可能的原因。常见的问题可能包括数据质量的不足、模型过拟合或欠拟合等。通过混淆矩阵、ROC曲线等工具，可以更深入地理解模型的行为，找到其潜在的弱点，并据此进行相应的改进或优化。

图11 C_eval精度测试2

模型应用开发：基于大模型框架，天宽团队将训练好的模型集成到实际应用中，使其能够在具体的业务场景中发挥作用。例如在自动化流程、预测分析等应用中，构建智能体以应对复杂场景。同时，天宽团队会确保该系统在实际应用中的性能、稳定性及可扩展性。对需要部署在不同环境中的模型，会进行针对性的适配和优化。

模型推理部署：完成模型训练和优化后，进入推理部署阶段。天宽团队将模型打包部署为可供API调用的AI应用，使客户能够在自己的业务场景中方便地集成模型推理服务。通过API接口，客户可以实现与其他应用系统的集成，完成对大规模数据的实时处理和推理操作。天宽团队会确保部署过程中的高效性与稳定性，以应对业务中的并发需求和大数据量处理。

图12 MindIE 推理服务部署

图13 Npu占用

模型运维服务：部署完成后，天宽团队为客户提供完善的运维服务。通过现场或远程的方式，天宽团队会为客户提供后续支持，包括模型的日常巡检、性能监控、技术指导等。同时，还将提供模型升级服务，确保模型能够与最新的业务需求和技术发展同步。在遇到模型性能下降或业务调整时，天宽团队会迅速响应，并提供针对性的调优或升级方案，保障模型的长期稳定运行。

天宽科技昇腾迁移&优化服务

前期咨询：天宽具备丰富的技术实力和专业经验，可以为客户提供 NLP、CV、多模态等领域 L0 级别大模型的服务部署方案的全面规划设计。将利用大模型（商用大模型、经典开源大模型）、计算机视觉算法（例如 ResNet、YOLO 等）、以及多模态融合技术（如 CLIP 等），为客户量身定制符合其业务需求的部署方案。天宽将综合考虑模型选择、性能优化、部署架构设计、系统可扩展性以及高可用性等方面因素，确保客户能够在实际应用中充分发挥大模型的潜力，实现业务目标的有效实施。

图14 获取模型权重及源码

迁移可行性分析：天宽提供全面的迁移分析服务，帮助客户将基于其他平台（如GPU）的PyTorch训练脚本顺利迁移至昇腾AI处理器。迁移前，天宽会借助msFmkTransplt工具，对客户的PyTorch训练脚本进行全面分析，确保迁移过程的高效性和成功率。该工具能够深入分析脚本中使用的算子、三方库套件、亲和API以及动态shape等方面的适配情况，并对模型迁移到昇腾平台的可行性做出详细评估。通过迁移分析，天宽团队能够快速识别训练脚本中不支持的torch API和cuda API，提供针对性优化建议，帮助提升模型在昇腾平台上的精度和性能。此外，针对三方库套件的分析，也可以帮助用户快速发现代码中不支持的第三方库API及其相关依赖项。三方库中的函数如果包含了不被支持的算子或cuda自定义算子，天宽会根据分析结果提供替代方案或进行适配优化，以保证整体系统的兼容性和稳定性。

图15 工具分析

图16 生成结果

图17 不支持算子列表

模型迁移：天宽通过三种方式完成模型迁移任务。导入import torch_npu和from torch_npu.contrib import transfer_to_npu库，可以实现自动迁移。在这种方法下，训练脚本会在运行过程中自动将CUDA接口替换为昇腾AI处理器支持的NPU接口，整个流程是在训练中动态完成转换，简化了操作，提升了效率。使用迁移工具ms_fmk_transplt是另一种迁移方式。通过这个工具，训练脚本中的CUDA接口会被自动替换为NPU接口，并生成迁移报告，其中包括脚本转换日志、不支持的算子列表和脚本修改记录。完成脚本转换后，可直接运行转换后的脚本进行训练，实现快速迁移。在手工迁移中，天宽团队通过分析模型，对比GPU和NPU接口，对训练脚本进行手动调整，以支持昇腾AI处理器的运行。手工迁移的核心在于将训练设备切换至NPU，并手动替换脚本中适配GPU的接口。在涉及多卡分布式训练时，还需要修改芯片间的通信方式，使用昇腾支持的hccl。通过这些灵活的迁移方式，天宽能够高效地满足客户不同场景下的迁移需求，并优化模型性能。

图18 工具迁移列举出修改的算子列表

图19 修改不支持的算子

模型评估与调优

天宽凭借在多个项目中的实践，积累了丰富的大模型评测经验，能够高效且准确地定义性能指标，如准确性、召回率、精确度等标准评价维度。对于不同的业务场景，天宽还会根据具体需求设定与业务紧密相关的关键绩效指标（KPIs），如用户满意度、转化率或响应时间，确保评测结果能够直接反映模型在真实业务中的表现。在评测准备阶段，天宽特别注重测试集的创建与选择，力求测试数据具有高度的多样性和代表性，以真实反映模型的预期使用场景。这不仅能有效避免因数据偏差导致的评测失真，还能确保模型在不同环境和条件下的一致表现，从而为实际应用提供可靠的依据。在工具和框架的选择上，天宽充分考虑项目的具体需求，精心挑选支持范围广、精确度高、效率和易用性兼备的评测工具。例如，MLPerf作为广泛应用的行业标准工具，能够对多种模型和任务进行性能测试；而TensorFlow Model Analysis则适用于深入分析TensorFlow模型的行为。在需要定制化解决方案的场景下，天宽也会开发自定义评测脚本，确保评测方案能够全面覆盖项目的特殊需求，实现对模型表现的全方位评估和优化。通过这一系统化的评测流程，天宽确保模型能够在实际业务中达到最佳性能。

图20 评估脚本

图21 结果显示

模型交付：在交付阶段准备详细的评测报告，清晰地描述评测过程、结果以及优化建议。同时，提供可交互的仪表板，使非技术利益相关者也能够理解评测结果。基于评测反馈，模型架构可能需要通过增加或减少层次来进行调整，或者通过引入更多的数据预处理步骤来提升输入数据的质量。此外，自动化测试流程的设立，能够确保模型定期接受性能评估，持续满足业务需求。

图22 测评结果展示