在ModelArts Studio(MaaS)模型广场查看预置模型
ModelArts Studio大模型即服务平台提供了丰富的开源大模型,在“模型广场”页面可以查看。模型详情页可以查看模型的详细介绍,根据这些信息选择合适的模型进行训练、推理,接入到企业解决方案中。
前提条件
已注册华为账号并开通华为云,详情请见注册华为账号并开通华为云。
访问模型广场
- 登录ModelArts Studio(MaaS)控制台,在顶部导航栏选择目标区域。
- 在左侧导航栏,单击“模型广场”。
- 在“模型广场”页面的“模型筛选”区域,按需选择模型系列、模型类型、支持作业和上下文长度进行筛选,或者直接输入模型名称进行搜索。
关于模型系列的介绍,请参见模型介绍。
表1 模型筛选说明 筛选项
说明
模型系列
支持按照全部、DeepSeek等模型系列进行筛选。
模型类型
支持按照全部、文本生成等模型类型进行筛选。
支持作业
支持按照全部、部署等支持作业进行筛选。
上下文长度
支持按照全部、16K以下、16K等上下文长度进行筛选。
- 单击目标模型下方的“模型详情”,进入模型详情页查看模型的介绍、基本信息和版本信息。
- 在“模型详情”页面,按需单击右上角的“部署”,使用模型进行训推。
当按钮置灰时,表示模型不支持该任务。关于部署模型服务的说明,请参见使用ModelArts Studio(MaaS)部署模型服务。
模型介绍
下表列举了ModelArts Studio大模型即服务平台支持的模型清单。关于模型的详细信息请在“模型详情”页面查看。
模型系列 |
模型类型 |
应用场景 |
支持语言 |
支持地域 |
模型介绍 |
|
---|---|---|---|---|---|---|
DeepSeek |
DeepSeek-R1 |
文本生成 |
对话问答、文本生成推理 |
中文、英文 |
香港 |
深度求索(DeepSeek)自主研发的DeepSeek-R1模型,基于核心技术突破,具备超长上下文理解与高效推理能力,支持多模态交互及API集成,可驱动智能客服、数据分析等场景应用,以行业领先的性价比加速企业智能化升级。 |
DeepSeek-V3 |
文本生成 |
对话问答、翻译 |
中文、英文 |
香港 |
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,开创了一种无辅助损失的负载平衡策略,并设置了多Token预测训练目标以获得更强大的性能。 |
|
DeepSeek-R1-Distill-Qwen-14B |
文本生成 |
对话问答、文本生成推理 |
中文、英文 |
香港 |
通过DeepSeek-R1的输出,蒸馏了Qwen-14B, 使得模型在多项能力上实现了对标OpenAI o1-mini的效果。DeepSeek-R1在数学、代码和推理任务中实现了与OpenAI-o1相当的性能。 |
|
DeepSeek-R1-Distill-Qwen-32B |
文本生成 |
对话问答、文本生成推理 |
中文、英文 |
香港 |
通过DeepSeek-R1的输出,蒸馏了Qwen-32B, 使得模型在多项能力上实现了对标OpenAI o1-mini的效果。DeepSeek-R1在数学、代码和推理任务中实现了与OpenAI-o1相当的性能。 |
|
Deepseek-Coder |
文本生成 |
对话问答、文本推理 |
中文、英文 |
香港 |
Deepseek Coder由一系列代码语言模型组成,每个模型都从头开始在2T标记上进行训练,其中87%为代码,13%为英文和中文的自然语言。在编码能力方面,DeepSeek Coder在多种编程语言和各种基准测试中均在开源代码模型中取得了较高性能。 |
|
通义千问 |
QwQ |
文本生成 |
对话问答 |
英文 |
香港 |
QwQ是通义千问系列的推理模型。与传统的指令调优模型相比,具有思维和推理能力的QwQ在下游任务(尤其是疑难问题)中可以实现显著的性能提升。 |
通义千问2.5 |
Qwen2.5 |
文本生成 |
多语言处理、数学推理、对话问答 |
中文、英文 |
香港 |
Qwen2.5是阿里云研发的Qwen系列的新的大型语言模型。对于Qwen2.5,发布了许多基本语言模型和指令调整的语言模型,参数范围从5亿到720亿。 |
Qwen2.5-VL |
图像理解 |
图像理解、对话问答 |
中文、英文 |
香港 |
通义千问2.5-VL是阿里云通义千问团队开源的多模态视觉语言模型,具备强大的视觉和语言理解能力。 |
|
通义千问3 |
Qwen3 |
文本生成 |
对话问答 |
中文、英文 |
香港 |
Qwen3是Qwen团队研发的大语言模型和大型多模态模型系列,在大规模语言和多模态数据上进行预训练,通过高质量的数据进行后期微调。 |