文档首页/ 魔坊（ModelArts）模型训推平台/ 最佳实践/ DeepSeek系列模型推理部署/ 推理入门：一键完成DeepSeek-V4-Flash模型部署

更新时间：2026-07-07 GMT+08:00

推理入门：一键完成DeepSeek-V4-Flash模型部署

场景介绍

DeepSeek-V4-Flash模型正式发布并开源。DeepSeek-V4-Flash拥有百万Token超长上下文，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先，且模型参数下降至284B，推理成本进一步降低。

为方便您快速部署模型，本案例介绍如何在ModelArts控制台一键部署DeepSeek-V4-Flash模型。

计费影响

DeepSeek-V4-Flash可部署在公共资源池或专属资源池。根据部署方式不同计费方式也不同。以下是两种部署方式下的计费说明：

公共资源池部署推理服务会基于时长计费。当服务状态为“运行中”和“告警”时，实例正常运行将产生费用；不使用时，请及时停止。详情请见推理部署计费项。
专属资源池部署推理服务。专属资源池的费用已在购买时支付，部署服务不再收费。专属资源池的费用请参考专属资源池计费项。

前提条件

已完成华为云账号注册、实名认证及相关权限授权。具体操作，请参见前置准备：账号与权限。

约束限制

仅“西南-贵阳一”区域支持一键部署。
推理超时时间限制：发送请求后等待系统返回首Token结果的最长等待时间，默认值600秒，超过该时间仍未收到回复，请求将被自动终止。流式传输场景下，每次收到请求响应时，会重新刷新该超时时间，但系统端到端响应超时时间固定为3600秒。

服务部署

进入ModelArts管理控制台的新版“总览”页面，在banner区域选DeepSeek-V4-Flash，单击“一键部署”进入“创建服务”页面。

图1 一键部署

仅西南-贵阳一控制台新版页面支持一键部署，旧版控制台页面不支持。在旧版总览页的右上角，可以单击“前往新版”切换到新版控制台页面。

在“创建服务”页面按表1配置参数，单击“确定”。

表1 一键部署在线服务参数说明
参数	说明	本案例推荐值
模型	一键部署支持预置模型部署。	默认值 “DeepSeek-V4-Flash”
服务名称	在线服务的名称，用于标识和管理在线服务。请按照界面提示规则填写。支持1~64个字符，可以包含字母、汉字、数字、连字符和下划线。	service-test
资源池类型	一键部署在线服务支持使用公共资源池和专属资源池。公共资源池部署在线服务使用公共资源池。公共资源池提供公共的计算集群，根据用户作业参数分配使用，资源按作业隔离。公共资源池经济灵活，适用于开发测试等场景。选择公共资源池部署时，由于资源有限，可能会出现资源余量不够的场景，请排队等待。专属资源池部署在线服务使用专属资源池。专属资源池不与其他用户共享，资源更可控。核心生产业务推荐选用专属资源池，以获得独占资源保障。选择专属资源池需提前创建专属资源池，详情请见创建专属资源池。	公共资源池
单元实例规格	选择在线服务实例的硬件资源配置。资源要求2台8 * Snt9b23节点，1P1D部署：推理单元1 (Prefill)：8 * Snt9b23 推理单元2 (Decode) ：8 * Snt9b23	默认值
自动停止	勾选后，需设置服务自动停止时间，默认为1小时，设置时长最多为24小时。开启后，当服务运行时开始计时，运行时间超出您预设的时长，它将自动停止运行。在线服务部署后，可在控制台“模型推理>在线推理”页面单击更多>设置自动停止，重新设置自动停止。	勾选，默认值“1小时”。

如果选择公共资源池，需要在对话框中确认计费提醒，单击“确定”后开始部署。
如果选择专属资源池，单击“确认”后开始部署。

部署完成后，在ModelArts管理控制台“模型推理>在线推理”页面，查看服务的基本情况。

在线推理列表中，刚部署的服务“状态”为“部署中”，当在线服务的“状态”变为“运行中”时，表示服务部署完成。

创建API KEY并绑定在线服务

当前一键部署的服务默认使用API KEY鉴权，您需要创建您自己的API KEY，绑定这个预置服务。

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击“API Key授权管理”，切换到“API Key授权管理”页签。
单击“创建”，在“创建API Key”弹框中，填写API KEY信息，授权范围选择“指定在线服务”，单击“确定”后自动下载和API Key同名的csv文件。打开该csv文件，查找列名为api_key对应的内容即为待使用的API Key。存放API Key的csv文件不支持二次下载，请您妥善保管该csv文件或牢记API Key内容，避免丢失。
单击API KEY操作列的“绑定”。
在“绑定服务”弹框中，勾选服务部署创建的服务，单击“确定”。如果授权范围选择“全部在线服务”，无需执行后面的绑定服务操作。

API Key是您调用部署模型API接口的凭证。如果API Key由非业务相关人员获取，非业务相关人员可使用API Key调用API，对您造成经济损失。

为避免以上可能的风险发生，请您妥善保管API Key。

在线调试服务

在ModelArts管理控制台“模型推理 > 在线推理”页面，单击已部署完成的服务，进入详情页。
切换到“预测”页签，填写请求参数：
- 对话接口：需要在已有的URL后添加/v1/chat/completions。
- Headers：添加请求头。键使用默认值“Authorization”，值默认值中的API Key替换为创建API KEY并绑定在线服务中保存的API Key值。或删除Authorization键值对，无需做其他配置，系统将自动切换为IAM Token认证。
- Body选择“raw”，model参数设置为deepseek-v4-flash，请求样例如下：
```
{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好"}
    ]
}
```

服务调用

获取访问地址和API Key

本文部署时默认使用了共享网关。部署完成后，可以在服务详情页获取调用所需的访问地址和Token。

公网调用URL：在ModelArts管理控制台“模型推理>在线推理”页面，单击已部署完成的服务，进入详情页，获取服务的“公网调用URL”。
大模型接口：DeepSeek-V4模型接口为/v1/chat/completions。
获取API Key：创建API KEY并绑定在线服务中保存的API Key值。

使用Curl或Python进行调用

示例代码如下。

在线服务调用地址为“公网调用URL+模型接口”。

示例代码中的API_KEY需要替换为自己已获取的API Key。

Python

import requests
import json

if __name__ == '__main__':
    url = "https://***/v2/infer/***/v1/chat/completions"  # 在线服务的调用地址=公网调用URL+模型接口
    api_key = "API_KEY"  # 把API_KEY替换成已获取的API Key

    # Send request.
    headers = {
        'Content-Type': 'application/json',
        'Authorization': f'Bearer {api_key}'
    }
    data = {
        "model": "deepseek-v4-flash",  # model参数
        "messages": [
            {"role": "system", "content": "You are a helpful assistant."},
            {"role": "user", "content": "你好"}
        ]
    }
    response = requests.post(url, headers=headers, data=json.dumps(data), verify=False)

    # Print result.
    print(response.status_code)
    print(response.text)

Curl

curl -X POST "https://***/v2/infer/***/v1/chat/completions" \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $API_KEY" \
  -d '{
    "model": "deepseek-v4-flash",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "你好"}
    ]
  }'

停止或删除服务

本案例使用公共资源池创建在线服务，基于服务时长计费。当您不需要使用服务时请在服务列表页停止或删除服务，以免继续扣费。

图2 停止或删除服务

模型能力说明

表2 DeepSeek-V4-Flash模型能力列表
特性	DeepSeek-V4-Flash	是否开启
分离部署	√	默认开启。
Reasoning Content	√	默认不开启。当前版本与DeepSeek官网思考模式开关方式有差异。当前版本在请求体中对应设置参数如下：开启思考模式 "chat_template_kwargs": {"thinking": true} 关闭思考模式 "chat_template_kwargs": {"thinking": false} 当前版本不支持DeepSeek官网提供的思考强度控制。不支持单独控制思维连长度REASONING_MAX_TOKENS。
Function Call	√	默认开启。
Chunked Prefill	√	默认开启。
MTP	√	默认开启，默认值是2，不允许修改。
图模式	√	默认开启。

常见问题

一键部署的在线服务如何修改请求超时时间？

在线推理-服务信息的高可用配置中，可以修改服务的“请求超时时间”，详情请见修改在线推理的服务信息。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

云宝助手提问云社区提问