盘古多模态大模型

盘古多模态大模型融合文本、图像、视频等数据，利用深度学习实现跨模态语义对齐，实现多种模态的理解。

ModelArts Studio大模型开发平台为用户提供了多种规格的多模态大模型，以满足不同场景和需求。以下是当前支持的模型清单，您可以根据实际需求选择最合适的模型进行开发和应用。

表1 盘古多模态大模型规格清单
模型支持区域	模型名称	说明
西南-贵阳一	Pangu-MM-M2-Text2Video-1.0.0	2025年4月发布的版本，支持16:9、9:16、1:1、4:3、3:4等5种长宽比、时长5s的视频生成，需要8个推理单元部署。
	Pangu-MM-M2-AIGVideo-1.0.0	2025年4月发布的版本，图生视频支持16:9、9:16、1:1、4:3、3:4、原始比例等6种长宽比，时长5s的视频生成，视频续写支持16:9、9:16、1:1、4:3、3:4、原始比例等6种长宽比，续写96帧（24帧率的视频续写约4s），需要8个推理单元部署。
	Pangu-MM-M1-Txt2Img-1.0.0	2025年4月发布的版本，支持1024*1024分辨率的图像生成，支持写实、油画、动漫等数十种生成风格，需要8个推理单元部署。
	Pangu-MM-M2-Img2Txt-16K-V5.0.4.2	2025年6月发布的多模态理解大模型首版本。该模型具有百亿级参数量，支持图像理解，支持预训练、微调。
	Pangu-Traffic-MM-M2-Img2Txt-16K-V5.0.4.2.1	盘古多模态理解百亿级交通行业大模型，可以对图像、文本多模态信息进行综合理解和分析，支持16K序列，支持预训练、微调、在线推理。

在选择和使用盘古大模型时，了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型评测、模型压缩、在线推理和体验中心能力调测等方面的支持程度各不相同，开发者应根据自身需求选择合适的模型。以下是盘古多模态大模型支持的具体操作：

表2 盘古多模态大模型支持的平台操作清单
模型	预训练	微调	模型评测	模型压缩	在线推理	体验中心能力调测
Pangu-MM-M2-Text2Video-1.0.0	-	-	-	-	√	√
Pangu-MM-M2-AIGVideo-1.0.RC2	√	√	-	-	√	√
Pangu-MM-M1-Txt2Img-1.0.0	√	√	-	-	√	√
Pangu-MM-M2-Img2Txt-16K-V5.0.4.2	√	√	√	-	√	√
Pangu-Traffic-MM-M2-Img2Txt-16K-V5.0.4.2.1	-	√	√	-	√	√

父主题： 模型能力与规格

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨