部署AI应用模板
简介
AI应用模板是基于华为云CCE(云容器引擎)“AI推理框架插件”打造的便捷化模型部署工具。
传统的AI大模型部署往往涉及复杂的容器配置、硬件资源(GPU/NPU)调度、网络网关设置以及存储挂载等繁琐步骤。为了大幅降低大模型部署的门槛,现为您提供了一键式的推理预置模板:
- 预置配置:底层已内置针对主流AI模型(如DeepSeek-R1)的预定义配置,涵盖运行参数、NPU资源需求及硬件适配。
- 极简操作:只需通过可视化前端界面,选择模板并简单配置,即可快速将大模型转化为高可用、低延迟的API推理服务。
核心优势
- 开箱即用:无需编写复杂的Kubernetes YAML文件,参数已针对昇腾(Ascend)底层硬件进行深度适配与优化。
- 一键部署:通过前端UI勾选即可完成从模型加载、资源调度到服务拉起的全生命周期管理。
- 高并发低延迟:底层自动结合vLLM等高性能执行引擎,提供生产级别的推理能力。
前提条件
在开始部署前,请确保满足以下条件:
- 集群准备:已创建v1.28及以上版本的CCE Standard或CCE Turbo集群。
- 依赖插件:集群已安装1.21.7及以上版本的Volcano调度器插件。
- 网络访问:推理节点需可访问外网,以便拉取镜像和模型,请参见配置公网访问。
操作步骤
- 进入AI应用模板页签。
- 登录CCE控制台。
- 在左侧导航栏中选择“AI容器”,单击“AI应用模板”页签。
- 在“AI应用模板”页签,选择需要部署的模板(本文选择的是DeepSeek-R1-Distill-Qwen-1.5B ),然后单击“部署”。
- 在部署应用页面,配置以下参数。
表1 基础配置 参数
描述
应用名称
部署的AI应用唯一标识符。
AI应用模板
预定义的应用模板。
选择此应用模板将决定底层架构(如DeepSeek-R1模型)及引擎模式(如vLLM PD分离)。
注意:切换应用模板会导致已填写的部分关联数据被更改或清空,请谨慎操作。
镜像
使用第三方镜像时,需确保实例可访问公网。更多信息请参见使用第三方镜像。
当前预置适配华为昇腾(Ascend)NPU的vLLM推理引擎镜像(v0.13.0)。
集群名称
选择需要部署服务的集群。该集群需预装Volcano调度器及NPU设备插件,否则任务提交后将部署失败。
命名空间
选择用于部署该推理服务的命名空间。
实例数
指定需要部署的推理服务实例数量。
- 单击“提交”。
您可以在“推理负载”页签查看工作负载信息。
- 配置Service,访问部署的模型。本文以节点访问为例,在选择器中将modelserving.volcano.sh/name设置为推理负载名称,modelserving.volcano.sh/role设置为proxy,并将容器端口和服务端口均设置为8181。更多信息请参见节点访问(NodePort)。

- 验证模型。通过向Service暴露的端口发送标准POST请求,验证模型是否正常运行。
curl -X POST http://<节点IP>:<节点端口>/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "ds_r1", "messages": [ { "role": "user", "content": "Hello, how are you?" } ], "max_tokens": 100 }'若部署成功,应返回包含choices和message字段的JSON数据,且content字段中包含模型的回复。
{ "id": "chatcmpl-753ceb4c-7aa5-4a4f-94b5-dc791c*****", "object": "chat.completion", "created": 1779936213, "model": "ds_r1", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "Alright, someone just said \"Hello, how are you?\" I should respond in a friendly and approachable way.\n\nI need to keep it simple and open-ended to encourage them to share more.\n\nMaybe ask them how they're doing or if they have any questions they want to discuss.\n\nThat should make the conversation feel natural and helpful.\n</think>\n\nHello! I'm just a computer program, so I don't have feelings, but thanks for asking! How can I assist you today?", "refusal": null, "annotations": null, "audio": null, "function_call": null, "tool_calls": [], "reasoning": null, "reasoning_content": null }, "logprobs": null, "finish_reason": "stop", "stop_reason": null, "token_ids": null } ], "service_tier": null, "system_fingerprint": null, "usage": { "prompt_tokens": 11, "total_tokens": 109, "completion_tokens": 98, "prompt_tokens_details": null }, "prompt_logprobs": null, "prompt_token_ids": null, "kv_transfer_params": null }