文档首页/
AI开发平台ModelArts/
最佳实践/
DeepSeek基于Lite Server&Cluster推理/
DeepSeek模型基于ModelArts Lite Cluster适配NPU的PD分离推理解决方案/
方案规划
更新时间:2025-08-20 GMT+08:00
方案规划
图1 架构图

本架构描述了部署开源三方大模型推理的整体方案:
- 架构整体分为接入层和推理层,其中接入层是业务请求入口,重点关注安全、流控和运维等方面;推理层是业务执行的地方,重点关注模型如何部署以及可靠性管理、运维等方面。
- 【可选】在接入层上业务请求通过EIP进入云网络,通过ELB进行流量转发,同时在网络安全上使用独享模式方式接入WAF;最后把chat API注册到APIG,并利用APIG的负载通道(微服务)能力对接K8s Service实现多实例的负载均衡。
- 【可选】接入层的监控由于各云服务已对接CES云服务,因此可使用CES云服务实现接入层各组件的监控功能,同时也支持配置指标监控告警。
- 【可选】接入层的依赖组件按高可靠原则,WAF和APIG实例建议至少2个。ELB本身是集群模式,因此单个实例并不意味着单点。
- 推理层使用Lite Cluster + CCE Kubernetes(K8s)作为基础设施进行模型部署。
- 在推理层利用ModelArts的KubeInfer插件(modelarts-infers-operator)和其依赖插件实现模型多实例的自动化部署。同时默认创建NodePort类型的K8s Service暴露KubeInfer实例对外访问端口。注:NodePort Service仅用于快速验证功能是否正常,正式调用从APIG入口。
- 推理层的模型权重存储使用SFS Turbo共享文件系统,并挂载至每个节点;同时对于KubeInfer实例Pod,使用hostPath方式访问挂载至节点目录的SFS Turbo目录。【可选】推理层的模型权重可使用EVS云硬盘。
- 推理层的监控使用ModelArts的maos-node-agent插件实现容器、节点指标(AI业务强相关节点指标)采集并上报至AOM云服务,通过AOM可实现容器指标监控告警;同时通过ModelArts的modelarts-device-plugin插件实现NPU的监控与告警。另外CES的ces-agent组件实现了节点指标(更多通用节点指标)采集并上报至CES云服务,通过CES可实现节点指标监控告警。
- 推理框架Ascend-vLLM提供了Prometheus exporter接口,可供外部组件采集推理框架的指标信息。
- 【可选】推理层的日志使用CCE的log-agent-fluent-bit插件将容器、节点日志转储至LTS云服务。