三方大模型
三方大模型规格
除了盘古自研模型外,当前ModelArts Studio大模型开发平台还面向NLP领域,集成热门的开源三方NLP模型以供客户选择使用。
例如:DeepSeek V3发布于2024年12月26日,是一个MoE架构的LLM模型,总共671B参数量,在数学、代码类相关评测集上取得了超过GPT-4.5的得分成绩。DeepSeek R1与DeepSeek V3模型结构相同,其于2025年1月20号正式开源,其作为强推理能力模型的杰出代表,引起了极大的关注。DeepSeek R1在数学推理、代码生成等核心任务上追平甚至超过GPT-4o和o1等顶尖闭源模型的效果,成为业界公认的LLM领先模型。近期,DeepSeek开源了更新后的版本模型DeepSeek V3-0324和DeepSeek-R1-0528,模型能力得到了进一步的提升,ModelArts Studio大模型开发平台也进行了集成。
除了DeepSeek外,当前还集成了Qwen3系列模型(Qwen3-8B/14B/30B-A3B/32B/235B-A22B)、 DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-LLama-70B/8B以及Qwen2.5-72B、QwQ-32B、Qwen2.5-VL-32B模型。
ModelArts Studio大模型开发平台为用户提供了多种规格的三方NLP大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。
模型支持区域 |
模型名称 |
可处理最大上下文长度 |
说明 |
---|---|---|---|
西南-贵阳一 |
DeepSeek-V3-32K-0.0.1 |
32K |
2025年3月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。 |
DeepSeek-V3-32K-0.0.2 |
32K |
2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为DeepSeek V3-0324开源版本模型。 |
|
DeepSeek-R1-32K-0.0.1 |
32K |
2025年3月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。 |
|
DeepSeek-R1-32K-0.0.2 |
32K |
2025年6月发布的版本,支持32K序列长度推理。16个推理单元即可部署,32K支持256并发。该版本基模型为DeepSeek R1-0528开源版本模型。 |
|
DeepSeek-R1-distil-Qwen-32B |
32K |
DeepSeek-R1-Distill-Qwen-32B是基于开源模型Qwen2.5-32B,使用DeepSeek-R1生成的数据微调得到的模型。 |
|
DeepSeek-R1-distill-LLama-70B |
32K |
DeepSeek-R1-Distill-Llama-70B是基于开源模型Llama-3.1-70B,使用DeepSeek-R1生成的数据微调得到的模型。 |
|
DeepSeek-R1-distill-LLama-8B |
32K |
DeepSeek-R1-Distill-Llama-8B是基于开源模型Llama-3.1-8B,使用DeepSeek-R2生成的数据微调得到的模型。 |
|
通义千问3-235B-A22B |
32K |
Qwen3-235B-A22B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-72B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-32B |
32K |
Qwen3-32B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-30B-A3B |
32K |
Qwen3-30B-A3B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力显著超过QwQ、通用能力显著超过Qwen2.5-32B-Instruct,达到同规模业界SOTA水平。 |
|
通义千问3-14B |
32K |
Qwen3-14B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-14B。 |
|
通义千问3-8B |
32K |
Qwen3-8B实现思考模式和非思考模式的有效融合,可在对话中切换模式。推理能力达到同规模业界SOTA水平、通用能力显著超过Qwen2.5-7B。 |
|
通义千问2.5-72B |
32K |
Qwen2.5系列72B模型,相较于Qwen2,Qwen2.5获得了显著更多的知识,并在编程能力和数学能力方面有了大幅提升。此外,新模型在指令执行、生成长文本、理解结构化数据(例如表格)以及生成结构化输出特别是JSON方面取得了显著改进。 |
|
通义千问2.5-VL-32B |
32K |
Qwen2.5-VL系列32B模型,具备图像识别、精准视觉定位、文字识别和理解、文档解析、视频理解等能力。 |
|
通义千问-QWQ-32B |
32K |
基于Qwen2.5-32B模型训练的QwQ推理模型,通过强化学习大幅度提升了模型推理能力。模型数学代码等核心指标(AIME 24/25、livecodebench)以及部分通用指标(IFEval、LiveBench等)达到DeepSeek-R1满血版水平,各指标均显著超过同样基于Qwen2.5-32B的DeepSeek-R1-Distill-Qwen-32B。 |
三方大模型支持的平台操作
模型名称 |
模型评测 |
在线推理 |
体验中心能力调测 |
---|---|---|---|
DeepSeek-V3-32K-0.0.1 |
√ |
√ |
√ |
DeepSeek-V3-32K-0.0.2 |
√ |
√ |
√ |
DeepSeek-R1-32K-0.0.1 |
√ |
√ |
√ |
DeepSeek-R1-32K-0.0.2 |
√ |
√ |
√ |
DeepSeek-R1-distil-Qwen-32B |
√ |
√ |
√ |
DeepSeek-R1-distill-LLama-70B |
√ |
√ |
√ |
DeepSeek-R1-distill-LLama-8B |
√ |
√ |
√ |
通义千问3-235B-A22B |
√ |
√ |
√ |
通义千问3-32B |
√ |
√ |
√ |
通义千问3-30B-A3B |
√ |
√ |
√ |
通义千问3-14B |
√ |
√ |
√ |
通义千问3-8B |
√ |
√ |
√ |
通义千问2.5-72B |
√ |
√ |
√ |
通义千问2.5-VL-32B |
√ |
√ |
√ |
通义千问-QWQ-32B |
√ |
√ |
√ |
三方大模型对资源的依赖
模型名称 |
云上部署 |
---|---|
DeepSeek-V3-32K-0.0.1 |
支持,16个推理单元部署 |
DeepSeek-V3-32K-0.0.2 |
支持,16个推理单元部署 |
DeepSeek-R1-32K-0.0.1 |
支持,16个推理单元部署 |
DeepSeek-R1-32K-0.0.2 |
支持,16个推理单元部署 |
DeepSeek-R1-distil-Qwen-32B |
支持,2个推理单元部署 |
DeepSeek-R1-distill-LLama-70B |
支持,4个推理单元部署 |
DeepSeek-R1-distill-LLama-8B |
支持,1个推理单元部署 |
通义千问3-235B-A22B |
支持,16个推理单元部署 |
通义千问3-32B |
支持,4个推理单元部署 |
通义千问3-30B-A3B |
支持,2个推理单元部署 |
通义千问3-14B |
支持,1个推理单元部署 |
通义千问3-8B |
支持,1个推理单元部署 |
通义千问2.5-72B |
支持,4个推理单元部署 |
通义千问2.5-VL-32B |
支持,4个推理单元部署 |
通义千问-QWQ-32B |
支持,4个推理单元部署 |