文档首页/ 弹性云服务器 ECS/ 最佳实践/ GPU实例最佳实践/ 使用ollama单机部署DeepSeek量化模型（Linux）

更新时间：2025-08-06 GMT+08:00

查看PDF

使用ollama单机部署DeepSeek量化模型（Linux）

应用场景

量化是通过降低模型当中的参数精度，使得32位的浮点数转换成8位整数或者4位整数，实现模型的压缩和优化，从而降低模型的占用显存和算力，提高运行效率。但是精度会大量损失，通过量化模型我们可以减少显存的占用，提升计算效率，降低能耗，华为云为用户提供使用ollama来部署DeepSeek量化系列模型的详细步骤，帮助客户快速部署。

方案架构

图1 基于ollama部署DeepSeek量化模型示意图（Linux）
点击放大

方案优势

使用ollama从0开始部署DeepSeek蒸馏模型，深刻理解模型运行依赖，使用少量的资源，快速高效接入用户服务用于生产，实现更精细的性能和成本控制。

资源和成本规划

表1 资源和成本规划
资源	资源说明	成本说明
虚拟私有云VPC	VPC网段：192.168.0.0/16	免费
虚拟私有云子网	可用区：可用区1 子网网段：192.168.0.0/24	免费
安全组	入方向规则：优先级：1 策略：允许类型：IPv4 协议端口：TCP: 80 源地址：0.0.0.0/0	免费
弹性云服务器	计费模式：包年/包月可用区：可用区1 规格：见表2 系统盘：200G 弹性公网IP：需要购买线路：全动态BGP 公网带宽：按流量计费带宽大小：100 Mbit/s	ECS涉及以下几项费用：云服务器云硬盘弹性公网IP 具体的计费方式及标准请参考计费模式概述。

表2 蒸馏模型运行可选的GPU弹性云服务器规格
编号	模型名称	最小所需规格	GPU卡
0	deepseek-r1:7b deepseek-r1:8b	p2s.2xlarge.8	V100(32G)*1
		p2v.4xlarge.8	V100(16G)*1
		pi2.4xlarge.4	T4(16G)*1
		g6.18xlarge.7	T4(16G)*1
1	deepseek-r1:14b	p2s.4xlarge.8	V100(32G)*1
		p2v.8xlarge.8	V100(16G)*1
		pi2.8xlarge.4	T4(16G)*1
2	deepseek-r1:32b	p2s.8xlarge.8	V100(32G)*1
2	deepseek-r1:32b	p2v.16xlarge.8	V100(16G)*2
3	deepseek-r1:70b	p2s.16xlarge.8	V100(32G)*2

请联系华为云技术支持选择最适合您部署DeepSeek的GPU卡资源服务器。

基于ollama手动部署DeepSeek蒸馏模型步骤

Linux实例基于ollama手动部署DeepSeek量化版模型操作步骤如下：

创建GPU弹性云服务器。
驱动和CUDA的前置条件检查。
安装ollama。
下载大模型文件。
使用ollama运行大模型。
调用模型接口测试。

实施步骤

创建GPU弹性云服务器。
1. 镜像选择：建议选择华为云提供的GPU实例的未安装驱动的Huawei Cloud EulerOS 2.0/Ubuntu 22.04公共镜像。
  图2 GPU实例镜像选择
2. 需要创建EIP，方便依赖环境下载，方便调用模型接口进行推理。
驱动和CUDA的前置条件检查。

请参考手动安装GPU加速型ECS的Tesla驱动安装535版本驱动，12.2版本CUDA。

安装ollama。

执行以下命令，下载ollama安装脚本。

curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
chmod +x ollama_install.sh

执行以下命令，安装ollama。

sed -i 's|https://ollama.com/download/|https://github.com/ollama/ollama/releases/download/v0.5.7/|' ollama_install.sh
sh ollama_install.sh

下载大模型文件。

执行以下命令，按需下载对应的模型。

ollama pull deepseek-r1:7b
ollama pull deepseek-r1:14b
ollama pull deepseek-r1:32b
ollama pull deepseek-r1:70b

使用ollama运行大模型。

执行以下命令，运行大模型。

ollama run deepseek-r1:7b
ollama run deepseek-r1:14b
ollama run deepseek-r1:32b
ollama run deepseek-r1:70

调用模型接口测试。ollama完全兼容OpenAI接口。
1. 调用以下API查看当前运行的模型。
```
curl http://localhost:11434/v1/models
```
2. 调用以下API进行聊天对话
```
curl http: //localhost:11434/api/chat -d '{"model": "deepseek-r1:7b","messages": [{"role": "user", "content": "hello！"}]}'
```
到此模型就部署完毕并验证正常，您可以在本地postman或者自己的服务里面使用EIP调用对应的API接口来对话。

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消