更新时间:2025-11-26 GMT+08:00
分享

Deepseek大模型介绍

平台预置DeepSeek-R1-32K及DeepSeek-V3-32K模型。

DeepSeek-R1

DeepSeek-R1满血版671B参数模型,在数学、代码、自然语言处理能力比肩OpenAI o1正式版。DeepSeek-R1-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。

平台已预置推理服务,用户可通过体验中心或者API调用该推理服务。

表1 训练特性

训练方式

预训练

全量微调

LoRA微调

QLoRA微调

训练序列长度

4K

4K

4K

4K

起训规格(训练单元)

512

512

64

32

直接部署模型时,已预置最优模型,无需进行压缩后再部署。

表2 推理特性

推理精度

FP16

INT8

序列长度

32K

32K

起推规格(推理单元)

32

16

并发

256

256

DeepSeek-V3

DeepSeek-V3为MoE模型,671B参数,激活37B,在长文本、代码、数学、百科、中文能力上表现优秀。DeepSeek-V3-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。

表3 训练特性

训练方式

预训练

全量微调

LoRA微调

QLoRA微调

训练序列长度

4K

4K

4K

4K

起训规格(训练单元)

512

512

64

32

直接部署模型时,已预置最优模型,无需进行压缩后再部署。

表4 推理特性

推理精度

FP16

INT8

序列长度

32K

32K

起推规格(推理单元)

32

16

并发

256

256

相关文档