方案规划

图1 架构图

本架构描述了部署开源三方大模型推理的整体方案：

架构整体分为接入层和推理层，其中接入层是业务请求入口，重点关注安全、流控和运维等方面；推理层是业务执行的地方，重点关注模型如何部署以及可靠性管理、运维等方面。
【可选】在接入层上业务请求通过EIP进入云网络，通过ELB进行流量转发，同时在网络安全上使用独享模式方式接入WAF；最后把chat API注册到APIG，并利用APIG的负载通道（微服务）能力对接K8s Service实现多实例的负载均衡。
【可选】接入层的监控由于各云服务已对接CES云服务，因此可使用CES云服务实现接入层各组件的监控功能，同时也支持配置指标监控告警。
【可选】接入层的依赖组件按高可靠原则，WAF和APIG实例建议至少2个。ELB本身是集群模式，因此单个实例并不意味着单点。
推理层使用Lite Cluster + CCE Kubernetes(K8s)作为基础设施进行模型部署。
在推理层利用ModelArts的KubeInfer插件（modelarts-infers-operator）和其依赖插件实现模型多实例的自动化部署。同时默认创建NodePort类型的K8s Service暴露KubeInfer实例对外访问端口。注：NodePort Service仅用于快速验证功能是否正常，正式调用从APIG入口。
推理层的模型权重存储使用SFS Turbo共享文件系统，并挂载至每个节点；同时对于KubeInfer实例Pod，使用hostPath方式访问挂载至节点目录的SFS Turbo目录。【可选】推理层的模型权重可使用EVS云硬盘。
推理层的监控使用ModelArts的maos-node-agent插件实现容器、节点指标（AI业务强相关节点指标）采集并上报至AOM云服务，通过AOM可实现容器指标监控告警；同时通过ModelArts的modelarts-device-plugin插件实现NPU的监控与告警。另外CES的ces-agent组件实现了节点指标（更多通用节点指标）采集并上报至CES云服务，通过CES可实现节点指标监控告警。
推理框架Ascend-vLLM提供了Prometheus exporter接口，可供外部组件采集推理框架的指标信息。
【可选】推理层的日志使用CCE的log-agent-fluent-bit插件将容器、节点日志转储至LTS云服务。