更新时间:2025-08-20 GMT+08:00
分享

方案规划

图1 架构图

本架构描述了部署开源三方大模型推理的整体方案:

  1. 架构整体分为接入层和推理层,其中接入层是业务请求入口,重点关注安全、流控和运维等方面;推理层是业务执行的地方,重点关注模型如何部署以及可靠性管理、运维等方面。
  2. 【可选】在接入层上业务请求通过EIP进入云网络,通过ELB进行流量转发,同时在网络安全上使用独享模式方式接入WAF;最后把chat API注册到APIG,并利用APIG的负载通道(微服务)能力对接K8s Service实现多实例的负载均衡。
  3. 【可选】接入层的监控由于各云服务已对接CES云服务,因此可使用CES云服务实现接入层各组件的监控功能,同时也支持配置指标监控告警。
  4. 【可选】接入层的依赖组件按高可靠原则,WAF和APIG实例建议至少2个。ELB本身是集群模式,因此单个实例并不意味着单点。
  5. 推理层使用Lite Cluster + CCE Kubernetes(K8s)作为基础设施进行模型部署。
  6. 在推理层利用ModelArts的KubeInfer插件(modelarts-infers-operator)和其依赖插件实现模型多实例的自动化部署。同时默认创建NodePort类型的K8s Service暴露KubeInfer实例对外访问端口。注:NodePort Service仅用于快速验证功能是否正常,正式调用从APIG入口。
  7. 推理层的模型权重存储使用SFS Turbo共享文件系统,并挂载至每个节点;同时对于KubeInfer实例Pod,使用hostPath方式访问挂载至节点目录的SFS Turbo目录。【可选】推理层的模型权重可使用EVS云硬盘。
  8. 推理层的监控使用ModelArts的maos-node-agent插件实现容器、节点指标(AI业务强相关节点指标)采集并上报至AOM云服务,通过AOM可实现容器指标监控告警;同时通过ModelArts的modelarts-device-plugin插件实现NPU的监控与告警。另外CES的ces-agent组件实现了节点指标(更多通用节点指标)采集并上报至CES云服务,通过CES可实现节点指标监控告警。
  9. 推理框架Ascend-vLLM提供了Prometheus exporter接口,可供外部组件采集推理框架的指标信息。
  10. 【可选】推理层的日志使用CCE的log-agent-fluent-bit插件将容器、节点日志转储至LTS云服务。

相关文档