Deepseek大模型介绍

平台预置了DeepSeek-R1-32K及DeepSeek-V3-32K模型。

DeepSeek-R1满血版671B参数模型，在数学、代码、自然语言处理能力比肩OpenAI o1正式版。DeepSeek-R1-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。

平台已预置推理服务，用户可通过体验中心或者API调用该推理服务。

表1 训练特性
训练方式	预训练	全量微调	LoRA微调	QLoRA微调
训练序列长度	4K	4K	4K	4K
起训规格（训练单元）	512	512	64	32

直接部署模型时，已预置最优模型，无需进行压缩后再部署。

DeepSeek-V3为MoE模型，671B参数，激活37B，在长文本、代码、数学、百科、中文能力上表现优秀。DeepSeek-V3-32K-0.0.1版本支持预训练、全量微调、LoRA微调、QLoRA微调特性、推理部署。

表3 训练特性
训练方式	预训练	全量微调	LoRA微调	QLoRA微调
训练序列长度	4K	4K	4K	4K
起训规格（训练单元）	512	512	64	32

直接部署模型时，已预置最优模型，无需进行压缩后再部署。

父主题： 开发Deepseek大模型

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨