方案概述
应用场景
该解决方案基于ModelArts Standard资源模式适配PyTorch NPU推理技术,将主流的开源大模型与硬件相结合,实现高速、高效的模型推理。帮助用户快速一键部署AI应用、在线推理,主要适用于自然语言处理 LLM应用场景,为用户提供更加高效、便捷的服务。
方案架构
该解决方案使用主流开源大模型,帮助用户快速搭建基于Standard适配PyTorch NPU的推理系统。
该解决方案会部署如下资源:
- 创建1台弹性云服务器 ECS,用于帮助用户制作镜像并上传。
- 创建1个弹性公网IP EIP,并关联弹性云服务器 ECS,提供访问公网和被公网访问能力。
- 创建一个安全组,通过配置安全组规则,为云服务器提供安全防护。
- 创建一个容器镜像服务组织,用于上传镜像。
- 使用函数工作流 FunctionGraph创建一个函数,用于调用AI应用、在线服务接口,实现在AI开发平台ModelArts上快速部署推理服务。
- 使用AI开发平台ModelArts,创建AI应用,部署在线服务、用于获取推理结果。
- 在统一身份认证服务 IAM上创建一个委托,用于授权FunctionGraph,获取IAM用户Token,访问ModelArts在线服务和对象存储服务 OBS桶。
方案优势
约束与限制
- 部署该解决方案之前,您需要注册华为账号并开通华为云,完成实名认证,且账号不能处于欠费或冻结状态。
- 此方案部署时需先执行“一键部署(制作镜像)”模板,获取镜像地址后方可执行“一键部署(部署模型)”模板。