Deepseek大模型介绍
平台预置了DeepSeek-R1-32K及DeepSeek-V3-32K模型。
DeepSeek-R1
DeepSeek-R1满血版671B参数模型,在数学、代码、自然语言处理能力比肩OpenAI o1正式版。DeepSeek-R1-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。
平台已预置推理服务,用户可通过体验中心或者API调用该推理服务。
训练方式 | 预训练 | 全量微调 | LoRA微调 | QLoRA微调 |
|---|---|---|---|---|
训练序列长度 | 4K | 4K | 4K | 4K |
起训规格(训练单元) | 512 | 512 | 64 | 32 |
直接部署模型时,已预置最优模型,无需进行压缩后再部署。
推理精度 | FP16 | INT8 |
|---|---|---|
序列长度 | 32K | 32K |
起推规格(推理单元) | 32 | 16 |
并发 | 256 | 256 |
DeepSeek-V3
DeepSeek-V3为MoE模型,671B参数,激活37B,在长文本、代码、数学、百科、中文能力上表现优秀。DeepSeek-V3-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。
训练方式 | 预训练 | 全量微调 | LoRA微调 | QLoRA微调 |
|---|---|---|---|---|
训练序列长度 | 4K | 4K | 4K | 4K |
起训规格(训练单元) | 512 | 512 | 64 | 32 |
直接部署模型时,已预置最优模型,无需进行压缩后再部署。
推理精度 | FP16 | INT8 |
|---|---|---|
序列长度 | 32K | 32K |
起推规格(推理单元) | 32 | 16 |
并发 | 256 | 256 |

