更新时间:2024-11-05 GMT+08:00
分享

方案概述

应用场景

该解决方案基于ModelArts Standard资源模式适配PyTorch NPU推理技术,将主流的开源大模型与硬件相结合,实现高速、高效的模型推理。帮助用户快速一键部署AI应用、在线推理,主要适用于自然语言处理 LLM应用场景,为用户提供更加高效、便捷的服务。

方案架构

该解决方案使用主流开源大模型,帮助用户快速搭建基于Standard适配PyTorch NPU的推理系统。

图1 方案架构图

该解决方案会部署如下资源:

  • 创建1台弹性云服务器 ECS,用于帮助用户制作镜像并上传。
  • 创建1个弹性公网IP EIP,并关联弹性云服务器 ECS,提供访问公网和被公网访问能力。
  • 创建一个安全组,通过配置安全组规则,为云服务器提供安全防护。
  • 创建一个容器镜像服务组织,用于上传镜像。
  • 使用AI开发平台ModelArts,创建AI应用,部署在线服务、用于获取推理结果。
  • 统一身份认证服务 IAM上创建一个委托,用于授权FunctionGraph,获取IAM用户Token,访问ModelArts在线服务和对象存储服务 OBS桶。

方案优势

  • 全栈自主可控

    芯片、芯片使能、AI框架、行业应用国产化,从底层芯片到上层应用实现全栈自主可控。

  • 快速推理

    内置开源模型,serverless化调用服务API快速配置模型,自动部署在线服务,实现快速推理。

  • 一键部署

    一键轻松部署,即可完成函数工作流、统一身份认证服务 IAM等资源创建,帮助用户快速搭建基于Standard适配PyTorch NPU的推理系统。

约束与限制

  • 部署该解决方案之前,您需要注册华为账号并开通华为云,完成实名认证,且账号不能处于欠费或冻结状态。
  • 此方案部署时需先执行“一键部署(制作镜像)”模板,获取镜像地址后方可执行“一键部署(部署模型)”模板。

相关文档