三方大模型
三方大模型规格
除了盘古自研模型外,当前 ModelArts Studio 还面向 NLP 领域,集成热门的开源三方NLP模型以供客户选择使用。
例如:DeepSeek V3 发布于2024年12月26日,是一个MoE 架构的 LLM 模型,总共 671B 参数量,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。DeepSeek R1 与 DeepSeek V3 结构类似,其于2025年1月20号正式开源,其作为强推理能力模型的杰出代表,引起了极大的关注。DeepSeek R1在数学推理、代码生成等核心任务上追平甚至超过 GPT-4o 和 o1 等顶尖闭源模型的效果,成为业界公认的 LLM 领先模型。
ModelArts Studio大模型开发平台为用户提供了多种规格的三方NLP大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。
模型支持区域 |
模型名称 |
可处理最大上下文长度 |
可处理最大输出长度 |
说明 |
---|---|---|---|---|
中国-香港 |
DeepSeek-R1-32K-0.0.2 |
32K |
8K |
2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为 DeepSeek R1-0528 开源版本模型。 |
DeepSeek-V3-32K-0.0.2 |
32K |
8K |
2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为 DeepSeek V3-0324 开源版本模型。 |
|
DeepSeek-R1-Distil-Qwen-32B-0.0.1 |
32K |
8K |
DeepSeek-R1-Distill-Qwen-32B是基于开源模型Qwen2.5-32B,使用DeepSeek-R1生成的数据微调得到的模型。 |
|
DeepSeek-R1-distill-LLama-70B-0.0.1 |
32K |
8K |
DeepSeek-R1-Distill-Llama-70B是基于开源模型Llama-3.1-70B,使用DeepSeek-R1生成的数据微调得到的模型。 |
|
DeepSeek-R1-distill-LLama-8B-0.0.1 |
32K |
8K |
DeepSeek-R1-Distill-Llama-8B是基于开源模型Llama-3.1-8B,使用DeepSeek-R2生成的数据微调得到的模型。 |
|
通义千问3-235B-A22B-0.0.1 |
32K |
8K |
Qwen3-235B-A22B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-32B-0.0.1 |
32K |
8K |
Qwen3-32B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-30B-A3B-0.0.1 |
32K |
8K |
Qwen3-30B-A3B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-14B-0.0.1 |
32K |
8K |
Qwen3-14B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。 |
|
通义千问3-8B-0.0.1 |
32K |
8K |
Qwen3-8B 实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。 |
|
通义千问2.5-72B-0.0.1 |
32K |
8K |
Qwen2.5系列72B模型,相较于 Qwen2,Qwen2.5 获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是 JSON 方面取得了显著改进。 |
|
通义千问-QWQ-32B-0.0.1 |
32K |
8K |
基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1 满血版水平,各指标均显著超过同样基于 Qwen2.5-32B 的 DeepSeek-R1-Distill-Qwen-32B。 |
三方大模型支持的平台操作
模型名称 |
模型评测 |
在线推理 |
体验中心能力调测 |
---|---|---|---|
DeepSeek-V3-32K-0.0.2 |
√ |
√ |
√ |
DeepSeek-R1-32K-0.0.2 |
√ |
√ |
√ |
DeepSeek-R1-Distil-Qwen-32B-0.0.1 |
√ |
√ |
√ |
DeepSeek-R1-distill-LLama-70B-0.0.1 |
√ |
√ |
√ |
DeepSeek-R1-distill-LLama-8B-0.0.1 |
√ |
√ |
√ |
通义千问3-235B-A22B-0.0.1 |
√ |
√ |
√ |
通义千问3-32B-0.0.1 |
√ |
√ |
√ |
通义千问3-30B-A3B-0.0.1 |
√ |
√ |
√ |
通义千问3-14B-0.0.1 |
√ |
√ |
√ |
通义千问3-8B-0.0.1 |
√ |
√ |
√ |
通义千问2.5-72B-0.0.1 |
√ |
√ |
√ |
通义千问-QWQ-32B-0.0.1 |
√ |
√ |
√ |
三方大模型对资源的依赖
模型名称 |
云上部署 |
---|---|
ARM+Snt9B3 |
|
DeepSeek-V3-32K-0.0.2 |
支持 |
DeepSeek-R1-32K-0.0.2 |
支持 |
DeepSeek-R1-Distil-Qwen-32B-0.0.1 |
支持 |
DeepSeek-R1-distill-LLama-70B-0.0.1 |
支持 |
DeepSeek-R1-distill-LLama-8B-0.0.1 |
支持 |
通义千问3-235B-A22B-0.0.1 |
支持 |
通义千问3-32B-0.0.1 |
支持 |
通义千问3-30B-A3B-0.0.1 |
支持 |
通义千问3-14B-0.0.1 |
支持 |
通义千问3-8B-0.0.1 |
支持 |
通义千问2.5-72B-0.0.1 |
支持 |
通义千问-QWQ-32B-0.0.1 |
支持 |