更新时间:2026-06-05 GMT+08:00
分享

部署AI应用模板

简介

AI应用模板是基于华为云CCE(云容器引擎)“AI推理框架插件”打造的便捷化模型部署工具。

传统的AI大模型部署往往涉及复杂的容器配置、硬件资源(GPU/NPU)调度、网络网关设置以及存储挂载等繁琐步骤。为了大幅降低大模型部署的门槛,现为您提供了键式的推理预置模板:

  • 预置配置:底层已内置针对主流AI模型(如DeepSeek-R1)的预定义配置,涵盖运行参数、NPU资源需求及硬件适配。
  • 极简操作:只需通过可视化前端界面,选择模板并简单配置,即可快速将大模型转化为高可用、低延迟的API推理服务。

核心优势

  • 开箱即用:无需编写复杂的Kubernetes YAML文件,参数已针对昇腾(Ascend)底层硬件进行深度适配与优化。
  • 一键部署:通过前端UI勾选即可完成从模型加载、资源调度到服务拉起的全生命周期管理。
  • 高并发低延迟:底层自动结合vLLM等高性能执行引擎,提供生产级别的推理能力。

前提条件

在开始部署前,请确保满足以下条件:

  • 集群准备:已创建v1.28及以上版本的CCE Standard或CCE Turbo集群。
  • 依赖插件:集群已安装1.21.7及以上版本的Volcano调度器插件。
  • 网络访问:推理节点需可访问外网,以便拉取镜像和模型,请参见配置公网访问

操作步骤

  1. 进入AI应用模板页签。

    1. 登录CCE控制台
    2. 在左侧导航栏中选择“AI容器”,单击“AI应用模板”页签。

  2. “AI应用模板”页签,选择需要部署的模板(本文选择的是DeepSeek-R1-Distill-Qwen-1.5B ),然后单击“部署”
  3. 在部署应用页面,配置以下参数。

    表1 基础配置

    参数

    描述

    应用名称

    部署的AI应用唯一标识符。

    AI应用模板

    预定义的应用模板。

    选择此应用模板将决定底层架构(如DeepSeek-R1模型)及引擎模式(如vLLM PD分离)。

    注意:

    切换应用模板会导致已填写的部分关联数据被更改或清空,请谨慎操作。

    镜像

    使用第三方镜像时,需确保实例可访问公网。更多信息请参见使用第三方镜像

    当前预置适配华为昇腾(Ascend)NPU的vLLM推理引擎镜像(v0.13.0)。

    集群名称

    选择需要部署服务的集群。该集群需预装Volcano调度器及NPU设备插件,否则任务提交后将部署失败。

    命名空间

    选择用于部署该推理服务的命名空间。

    实例数

    指定需要部署的推理服务实例数量。

  4. 单击“提交”

    您可以在“推理负载”页签查看工作负载信息。

  5. 配置Service,访问部署的模型。本文以节点访问为例,在选择器中将modelserving.volcano.sh/name设置为推理负载名称,modelserving.volcano.sh/role设置为proxy,并将容器端口和服务端口均设置为8181。更多信息请参见节点访问(NodePort)

  6. 验证模型。通过向Service暴露的端口发送标准POST请求,验证模型是否正常运行。

    curl -X POST http://<节点IP>:<节点端口>/v1/chat/completions \
       -H "Content-Type: application/json" \
       -d '{
         "model": "ds_r1",
         "messages": [
           {
             "role": "user",
             "content": "Hello, how are you?"
           }
         ],
         "max_tokens": 100
       }'

    若部署成功,应返回包含choices和message字段的JSON数据,且content字段中包含模型的回复。

    {
      "id": "chatcmpl-753ceb4c-7aa5-4a4f-94b5-dc791c*****",
      "object": "chat.completion",
      "created": 1779936213,
      "model": "ds_r1",
      "choices": [
        {
          "index": 0,
          "message": {
            "role": "assistant",
            "content": "Alright, someone just said \"Hello, how are you?\" I should respond in a friendly and approachable way.\n\nI need to keep it simple and open-ended to encourage them to share more.\n\nMaybe ask them how they're doing or if they have any questions they want to discuss.\n\nThat should make the conversation feel natural and helpful.\n</think>\n\nHello! I'm just a computer program, so I don't have feelings, but thanks for asking! How can I assist you today?",
            "refusal": null,
            "annotations": null,
            "audio": null,
            "function_call": null,
            "tool_calls": [],
            "reasoning": null,
            "reasoning_content": null
          },
          "logprobs": null,
          "finish_reason": "stop",
          "stop_reason": null,
          "token_ids": null
        }
      ],
      "service_tier": null,
      "system_fingerprint": null,
      "usage": {
        "prompt_tokens": 11,
        "total_tokens": 109,
        "completion_tokens": 98,
        "prompt_tokens_details": null
      },
      "prompt_logprobs": null,
      "prompt_token_ids": null,
      "kv_transfer_params": null
    }

相关文档