文档首页/ 弹性云服务器 ECS/ 最佳实践/ GPU实例最佳实践/ 使用ollama单机部署DeepSeek量化模型(Linux)
更新时间:2025-08-06 GMT+08:00

使用ollama单机部署DeepSeek量化模型(Linux)

应用场景

量化是通过降低模型当中的参数精度,使得32位的浮点数转换成8位整数或者4位整数,实现模型的压缩和优化,从而降低模型的占用显存和算力,提高运行效率。但是精度会大量损失,通过量化模型我们可以减少显存的占用,提升计算效率,降低能耗,华为云为用户提供使用ollama来部署DeepSeek量化系列模型的详细步骤,帮助客户快速部署。

方案架构

图1 基于ollama部署DeepSeek量化模型示意图(Linux)

方案优势

使用ollama从0开始部署DeepSeek蒸馏模型,深刻理解模型运行依赖,使用少量的资源,快速高效接入用户服务用于生产,实现更精细的性能和成本控制。

资源和成本规划

表1 资源和成本规划

资源

资源说明

成本说明

虚拟私有云VPC

VPC网段:192.168.0.0/16

免费

虚拟私有云子网

  • 可用区:可用区1
  • 子网网段:192.168.0.0/24

免费

安全组

入方向规则:

  • 优先级:1
  • 策略:允许
  • 类型:IPv4
  • 协议端口:TCP: 80
  • 源地址:0.0.0.0/0

免费

弹性云服务器

  • 计费模式:包年/包月
  • 可用区:可用区1
  • 规格:见表2
  • 系统盘:200G
  • 弹性公网IP:需要购买
  • 线路:全动态BGP
  • 公网带宽:按流量计费
  • 带宽大小:100 Mbit/s

ECS涉及以下几项费用:

  • 云服务器
  • 云硬盘
  • 弹性公网IP

具体的计费方式及标准请参考计费模式概述

表2 蒸馏模型运行可选的GPU弹性云服务器规格

编号

模型名称

最小所需规格

GPU卡

0

deepseek-r1:7b

deepseek-r1:8b

p2s.2xlarge.8

V100(32G)*1

p2v.4xlarge.8

V100(16G)*1

pi2.4xlarge.4

T4(16G)*1

g6.18xlarge.7

T4(16G)*1

1

deepseek-r1:14b

p2s.4xlarge.8

V100(32G)*1

p2v.8xlarge.8

V100(16G)*1

pi2.8xlarge.4

T4(16G)*1

2

deepseek-r1:32b

p2s.8xlarge.8

V100(32G)*1

p2v.16xlarge.8

V100(16G)*2

3

deepseek-r1:70b

p2s.16xlarge.8

V100(32G)*2

请联系华为云技术支持选择最适合您部署DeepSeek的GPU卡资源服务器。

基于ollama手动部署DeepSeek蒸馏模型步骤

Linux实例基于ollama手动部署DeepSeek量化版模型操作步骤如下:

  1. 创建GPU弹性云服务器。
  2. 驱动和CUDA的前置条件检查。
  3. 安装ollama。
  4. 下载大模型文件。
  5. 使用ollama运行大模型。
  6. 调用模型接口测试。

实施步骤

  1. 创建GPU弹性云服务器。

    1. 镜像选择:建议选择华为云提供的GPU实例的未安装驱动的Huawei Cloud EulerOS 2.0/Ubuntu 22.04公共镜像。
      图2 GPU实例镜像选择
    2. 需要创建EIP,方便依赖环境下载,方便调用模型接口进行推理。

  2. 驱动和CUDA的前置条件检查。

    请参考手动安装GPU加速型ECS的Tesla驱动安装535版本驱动,12.2版本CUDA。

  3. 安装ollama。

    1. 执行以下命令,下载ollama安装脚本。
      curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
      chmod +x ollama_install.sh
    2. 执行以下命令,安装ollama。
      sed -i 's|https://ollama.com/download/|https://github.com/ollama/ollama/releases/download/v0.5.7/|' ollama_install.sh
      sh ollama_install.sh

  4. 下载大模型文件。

    执行以下命令,按需下载对应的模型。

    ollama pull deepseek-r1:7b
    ollama pull deepseek-r1:14b
    ollama pull deepseek-r1:32b
    ollama pull deepseek-r1:70b

  5. 使用ollama运行大模型。

    执行以下命令,运行大模型。

    ollama run deepseek-r1:7b
    ollama run deepseek-r1:14b
    ollama run deepseek-r1:32b
    ollama run deepseek-r1:70

  6. 调用模型接口测试。ollama完全兼容OpenAI接口。

    1. 调用以下API查看当前运行的模型。
      curl http://localhost:11434/v1/models

    2. 调用以下API进行聊天对话
      curl http: //localhost:11434/api/chat -d '{"model": "deepseek-r1:7b","messages": [{"role": "user", "content": "hello!"}]}'

    到此模型就部署完毕并验证正常,您可以在本地postman或者自己的服务里面使用EIP调用对应的API接口来对话。

相关操作

  1. 多卡运行需要执行以下命令,在ollama服务中添加以下参数,其中CUDA_VISIBLE_DEVICES设置使用的GPU编号。
    vim /etc/systemd/system/ollama.service

  2. 执行以下命令,重启ollama服务。
    systemctl daemon-reload
    systemctl stop ollama.service
    systemctl start ollama.service