更新时间:2025-09-16 GMT+08:00
分享

三方大模型

三方大模型规格

除了盘古自研模型外,当前ModelArts Studio大模型开发平台还面向NLP领域,集成热门的开源三方NLP模型以供客户选择使用。

例如:DeepSeek V3发布于2024年12月26日,是一个MoE架构的LLM模型,总共671B参数量,在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。DeepSeek R1与DeepSeek V3模型结构相同,其于2025年1月20号正式开源,其作为强推理能力模型的杰出代表,引起了极大的关注。DeepSeek R1在数学推理、代码生成等核心任务上追平甚至超过GPT-4o和o1等顶尖闭源模型的效果,成为业界公认的LLM领先模型。近期,DeepSeek开源了更新后的版本模型DeepSeek V3-0324和DeepSeek-R1-0528,模型能力得到了进一步的提升,ModelArts Studio大模型开发平台也进行了集成。

除了DeepSeek外,当前还集成了Qwen3系列模型(Qwen3-8B/14B/30B-A3B/32B/235B-A22B)、 DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-LLama-70B/8B以及Qwen2.5-72B、QwQ-32B、Qwen2.5-VL-32B模型。

ModelArts Studio大模型开发平台为用户提供了多种规格的三方NLP大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。

表1 三方大模型规格清单

模型支持区域

模型名称

可处理最大上下文长度

说明

西南-贵阳一

DeepSeek-V3-32K-0.0.1

32K

2025年3月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。

DeepSeek-V3-32K-0.0.2

32K

2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为DeepSeek V3-0324开源版本模型。

DeepSeek-R1-32K-0.0.1

32K

2025年3月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。

DeepSeek-R1-32K-0.0.2

32K

2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为DeepSeek R1-0528开源版本模型。

DeepSeek-R1-distil-Qwen-32B

32K

DeepSeek-R1-Distill-Qwen-32B是基于开源模型Qwen2.5-32B,使用DeepSeek-R1生成的数据微调得到的模型。

DeepSeek-R1-distill-LLama-70B

32K

DeepSeek-R1-Distill-Llama-70B是基于开源模型Llama-3.1-70B,使用DeepSeek-R1生成的数据微调得到的模型。

DeepSeek-R1-distill-LLama-8B

32K

DeepSeek-R1-Distill-Llama-8B是基于开源模型Llama-3.1-8B,使用DeepSeek-R2生成的数据微调得到的模型。

通义千问3-235B-A22B

32K

Qwen3-235B-A22B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。

通义千问3-32B

32K

Qwen3-32B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。

通义千问3-30B-A3B

32K

Qwen3-30B-A3B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。

通义千问3-14B

32K

Qwen3-14B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。

通义千问3-8B

32K

Qwen3-8B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。

通义千问2.5-72B

32K

Qwen2.5系列72B模型,相较于Qwen2,Qwen2.5获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是JSON方面取得了显著改进。

通义千问2.5-VL-32B

32K

Qwen2.5-VL系列32B模型,具备图像识别、精准视觉定位、文字识别和理解、文档解析、视频理解等能力。

通义千问-QWQ-32B

32K

基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1满血版水平,各指标均显著超过同样基于Qwen2.5-32B的DeepSeek-R1-Distill-Qwen-32B。

三方大模型支持的平台操作

表2 三方大模型支持的平台操作清单

模型名称

模型评测

在线推理

体验中心能力调测

DeepSeek-V3-32K-0.0.1

DeepSeek-V3-32K-0.0.2

DeepSeek-R1-32K-0.0.1

DeepSeek-R1-32K-0.0.2

DeepSeek-R1-distil-Qwen-32B

DeepSeek-R1-distill-LLama-70B

DeepSeek-R1-distill-LLama-8B

通义千问3-235B-A22B

通义千问3-32B

通义千问3-30B-A3B

通义千问3-14B

通义千问3-8B

通义千问2.5-72B

通义千问2.5-VL-32B

通义千问-QWQ-32B

三方大模型对资源的依赖

表3 三方大模型对资源的依赖清单

模型名称

云上部署

DeepSeek-V3-32K-0.0.1

支持,16个推理单元部署

DeepSeek-V3-32K-0.0.2

支持,16个推理单元部署

DeepSeek-R1-32K-0.0.1

支持,16个推理单元部署

DeepSeek-R1-32K-0.0.2

支持,16个推理单元部署

DeepSeek-R1-distil-Qwen-32B

支持,2个推理单元部署

DeepSeek-R1-distill-LLama-70B

支持,4个推理单元部署

DeepSeek-R1-distill-LLama-8B

支持,1个推理单元部署

通义千问3-235B-A22B

支持,16个推理单元部署

通义千问3-32B

支持,4个推理单元部署

通义千问3-30B-A3B

支持,2个推理单元部署

通义千问3-14B

支持,1个推理单元部署

通义千问3-8B

支持,1个推理单元部署

通义千问2.5-72B

支持,4个推理单元部署

通义千问2.5-VL-32B

支持,4个推理单元部署

通义千问-QWQ-32B

支持,4个推理单元部署

相关文档