更新时间:2025-07-28 GMT+08:00

三方大模型

三方大模型规格

除了盘古自研模型外,当前 ModelArts Studio 还面向 NLP 领域,集成热门的开源三方NLP模型以供客户选择使用。

例如:DeepSeek V3 发布于2024年12月26日,是一个MoE 架构的 LLM 模型,总共 671B 参数量,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。DeepSeek R1 与 DeepSeek V3 结构类似,其于2025年1月20号正式开源,其作为强推理能力模型的杰出代表,引起了极大的关注。DeepSeek R1在数学推理、代码生成等核心任务上追平甚至超过 GPT-4o 和 o1 等顶尖闭源模型的效果,成为业界公认的 LLM 领先模型。

ModelArts Studio大模型开发平台为用户提供了多种规格的三方NLP大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。

模型支持区域

模型名称

可处理最大上下文长度

可处理最大输出长度

说明

中国-香港

DeepSeek-R1-32K-0.0.2

32K

8K

2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为 DeepSeek R1-0528 开源版本模型。

DeepSeek-V3-32K-0.0.2

32K

8K

2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为 DeepSeek V3-0324 开源版本模型。

DeepSeek-R1-Distil-Qwen-32B-0.0.1

32K

8K

DeepSeek-R1-Distill-Qwen-32B是基于开源模型Qwen2.5-32B,使用DeepSeek-R1生成的数据微调得到的模型。

DeepSeek-R1-distill-LLama-70B-0.0.1

32K

8K

DeepSeek-R1-Distill-Llama-70B是基于开源模型Llama-3.1-70B,使用DeepSeek-R1生成的数据微调得到的模型。

DeepSeek-R1-distill-LLama-8B-0.0.1

32K

8K

DeepSeek-R1-Distill-Llama-8B是基于开源模型Llama-3.1-8B,使用DeepSeek-R2生成的数据微调得到的模型。

通义千问3-235B-A22B-0.0.1

32K

8K

Qwen3-235B-A22B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。

通义千问3-32B-0.0.1

32K

8K

Qwen3-32B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。

通义千问3-30B-A3B-0.0.1

32K

8K

Qwen3-30B-A3B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。

通义千问3-14B-0.0.1

32K

8K

Qwen3-14B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。

通义千问3-8B-0.0.1

32K

8K

Qwen3-8B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。

通义千问2.5-72B-0.0.1

32K

8K

Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。

通义千问-QWQ-32B-0.0.1

32K

8K

基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。

三方大模型支持的平台操作

表1 三方大模型支持的平台操作清单

模型名称

模型评测

在线推理

体验中心能力调测

DeepSeek-V3-32K-0.0.2

DeepSeek-R1-32K-0.0.2

DeepSeek-R1-Distil-Qwen-32B-0.0.1

DeepSeek-R1-distill-LLama-70B-0.0.1

DeepSeek-R1-distill-LLama-8B-0.0.1

通义千问3-235B-A22B-0.0.1

通义千问3-32B-0.0.1

通义千问3-30B-A3B-0.0.1

通义千问3-14B-0.0.1

通义千问3-8B-0.0.1

通义千问2.5-72B-0.0.1

通义千问-QWQ-32B-0.0.1

三方大模型对资源的依赖

表2 三方大模型对资源的依赖清单

模型名称

云上部署

ARM+Snt9B3

DeepSeek-V3-32K-0.0.2

支持

DeepSeek-R1-32K-0.0.2

支持

DeepSeek-R1-Distil-Qwen-32B-0.0.1

支持

DeepSeek-R1-distill-LLama-70B-0.0.1

支持

DeepSeek-R1-distill-LLama-8B-0.0.1

支持

通义千问3-235B-A22B-0.0.1

支持

通义千问3-32B-0.0.1

支持

通义千问3-30B-A3B-0.0.1

支持

通义千问3-14B-0.0.1

支持

通义千问3-8B-0.0.1

支持

通义千问2.5-72B-0.0.1

支持

通义千问-QWQ-32B-0.0.1

支持