三方大模型

三方大模型规格

当前ModelArts Studio大模型开发平台面向NLP领域，集成热门的开源三方NLP模型以供客户选择使用。

例如：DeepSeek V3发布于2024年12月26日，是一个MoE架构的LLM模型，总共671B参数量，在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。DeepSeek R1与DeepSeek V3模型结构相同，其于2025年1月20号正式开源，其作为强推理能力模型的杰出代表，引起了极大的关注。DeepSeek R1在数学推理、代码生成等核心任务上追平甚至超过GPT-4o和o1等顶尖闭源模型的效果，成为业界公认的LLM领先模型。近期，DeepSeek开源了更新后的版本模型DeepSeek V3-0324和DeepSeek-R1-0528，模型能力得到了进一步的提升，ModelArts Studio大模型开发平台也进行了集成。

除了DeepSeek外，当前还集成了Qwen3系列模型（Qwen3-8B/14B/30B-A3B/32B/235B-A22B）、 DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-LLama-70B/8B以及Qwen2.5-72B、QwQ-32B、Qwen2.5-VL-32B模型。

ModelArts Studio大模型开发平台为用户提供了多种规格的三方NLP大模型，以满足不同场景和需求。以下是当前支持的模型清单，您可以根据实际需求选择最合适的模型进行开发和应用。

表1 三方大模型规格清单
模型支持区域	模型名称	可处理最大上下文长度	说明
中国-香港	DeepSeek-V3-32K-0.0.1	32K	2025年3月发布的版本，支持32K序列长度推理。16个推理单元即可部署，32K支持256并发。
	DeepSeek-V3-32K-0.0.2	32K	2025年6月发布的版本，支持32K序列长度推理。16个推理单元即可部署，32K支持256并发。该版本基模型为DeepSeek V3-0324开源版本模型。
	DeepSeek-R1-32K-0.0.1	32K	2025年3月发布的版本，支持32K序列长度推理。16个推理单元即可部署，32K支持256并发。
	DeepSeek-R1-32K-0.0.2	32K	2025年6月发布的版本，支持32K序列长度推理。16个推理单元即可部署，32K支持256并发。该版本基模型为DeepSeek R1-0528开源版本模型。
	DeepSeek-R1-distil-Qwen-32B	32K	DeepSeek-R1-Distill-Qwen-32B是基于开源模型Qwen2.5-32B，使用DeepSeek-R1生成的数据微调得到的模型。
	DeepSeek-R1-distill-LLama-70B	32K	DeepSeek-R1-Distill-Llama-70B是基于开源模型Llama-3.1-70B，使用DeepSeek-R1生成的数据微调得到的模型。
	DeepSeek-R1-distill-LLama-8B	32K	DeepSeek-R1-Distill-Llama-8B是基于开源模型Llama-3.1-8B，使用DeepSeek-R2生成的数据微调得到的模型。
	通义千问3-235B-A22B	32K	Qwen3-235B-A22B实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct，达到同规模业界SOTA水平。
	通义千问3-32B	32K	Qwen3-32B实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct，达到同规模业界SOTA水平。
	通义千问3-30B-A3B	32K	Qwen3-30B-A3B实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct，达到同规模业界SOTA水平。
	通义千问3-14B	32K	Qwen3-14B实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。
	通义千问3-8B	32K	Qwen3-8B实现思考模式和非思考模式的有效融合，可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。
	通义千问2.5-72B	32K	Qwen2.5系列72B模型，相较于Qwen2，Qwen2.5获得了显著更多的知识，并在编程能力和数学能力方面有了大幅提升。此外，新模型在指令执行、生成长文本、理解结构化数据（例如表格）以及生成结构化输出特别是JSON方面取得了显著改进。
	通义千问2.5-VL-32B	32K	Qwen2.5-VL系列32B模型，具备图像识别、精准视觉定位、文字识别和理解、文档解析、视频理解等能力。
	通义千问-QWQ-32B	32K	基于Qwen2.5-32B模型训练的QwQ推理模型，通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标（AIME 24/25、livecodebench）以及部分通用指标（IFEval、LiveBench等）达到DeepSeek-R1满血版水平，各指标均显著超过同样基于Qwen2.5-32B的DeepSeek-R1-Distill-Qwen-32B。

三方大模型支持的平台操作

表2 三方大模型支持的平台操作清单
模型名称	模型评测	在线推理	体验中心能力调测
DeepSeek-V3-32K-0.0.1	√	√	√
DeepSeek-V3-32K-0.0.2	√	√	√
DeepSeek-R1-32K-0.0.1	√	√	√
DeepSeek-R1-32K-0.0.2	√	√	√
DeepSeek-R1-distil-Qwen-32B	√	√	√
DeepSeek-R1-distill-LLama-70B	√	√	√
DeepSeek-R1-distill-LLama-8B	√	√	√
通义千问3-235B-A22B	√	√	√
通义千问3-32B	√	√	√
通义千问3-30B-A3B	√	√	√
通义千问3-14B	√	√	√
通义千问3-8B	√	√	√
通义千问2.5-72B	√	√	√
通义千问2.5-VL-32B	√	√	√
通义千问-QWQ-32B	√	√	√

三方大模型对资源的依赖

表3 三方大模型对资源的依赖清单
模型名称	云上部署
DeepSeek-V3-32K-0.0.1	支持，16个推理单元部署
DeepSeek-V3-32K-0.0.2	支持，16个推理单元部署
DeepSeek-R1-32K-0.0.1	支持，16个推理单元部署
DeepSeek-R1-32K-0.0.2	支持，16个推理单元部署
DeepSeek-R1-distil-Qwen-32B	支持，2个推理单元部署
DeepSeek-R1-distill-LLama-70B	支持，4个推理单元部署
DeepSeek-R1-distill-LLama-8B	支持，1个推理单元部署
通义千问3-235B-A22B	支持，16个推理单元部署
通义千问3-32B	支持，4个推理单元部署
通义千问3-30B-A3B	支持，2个推理单元部署
通义千问3-14B	支持，1个推理单元部署
通义千问3-8B	支持，1个推理单元部署
通义千问2.5-72B	支持，4个推理单元部署
通义千问2.5-VL-32B	支持，4个推理单元部署
通义千问-QWQ-32B	支持，4个推理单元部署

父主题： 模型能力与规格

上一篇：模型能力与规格

下一篇：基础知识

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消