更新时间:2025-09-16 GMT+08:00
分享

盘古多模态大模型

盘古多模态大模型规格

盘古多模态大模型融合文本、图像、视频等数据,利用深度学习实现跨模态语义对齐,实现多种模态的理解。

ModelArts Studio大模型开发平台为用户提供了多种规格的多模态大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。

表1 盘古多模态大模型规格清单

模型支持区域

模型名称

说明

西南-贵阳一

Pangu-MM-M2-Text2Video-1.0.0

2025年4月发布的版本,支持16:9、9:16、1:1、4:3、3:4等5种长宽比、时长5s的视频生成,需要8个推理单元部署。

Pangu-MM-M2-AIGVideo-1.0.0

2025年4月发布的版本,图生视频支持16:9、9:16、1:1、4:3、3:4、原始比例等6种长宽比,时长5s的视频生成,视频续写支持16:9、9:16、1:1、4:3、3:4、原始比例等6种长宽比,续写96帧(24帧率的视频续写约4s),需要8个推理单元部署。

Pangu-MM-M1-Txt2Img-1.0.0

2025年4月发布的版本,支持1024*1024分辨率的图像生成,支持写实、油画、动漫等数十种生成风格,需要8个推理单元部署。

Pangu-MM-M2-Img2Txt-16K-V5.0.4.2

2025年6月发布的多模态理解大模型首版本。该模型具有百亿级参数量,支持图像理解,支持预训练、微调。

盘古多模态大模型支持的平台操作

在选择和使用盘古大模型时,了解不同模型所支持的操作行为至关重要。不同模型在预训练、微调、模型评测、模型压缩、在线推理和体验中心能力调测等方面的支持程度各不相同,开发者应根据自身需求选择合适的模型。以下是盘古多模态大模型支持的具体操作:

表2 盘古多模态大模型支持的平台操作清单

模型

预训练

微调

模型评测

模型压缩

在线推理

体验中心能力调测

Pangu-MM-M2-Text2Video-1.0.0

-

-

-

-

Pangu-MM-M2-AIGVideo-1.0.RC2

-

-

Pangu-MM-M1-Txt2Img-1.0.0

-

-

Pangu-MM-M2-Img2Txt-16K-V5.0.4.2

-

盘古多模态大模型对资源池的依赖

表3 盘古多模态大模型对资源池的依赖清单

模型名称

云上部署

边缘部署

ARM+Snt9B3

ARM+D310P

Pangu-MM-M2-Text2Video-1.0.0

支持,8个推理单元部署

-

Pangu-MM-M2-AIGVideo-1.0.0

支持,8个推理单元部署

-

Pangu-MM-M1-Txt2Img-1.0.0

支持,8个推理单元部署

-

Pangu-MM-M2-Img2Txt-16K-V5.0.4.2

支持,8个推理单元部署

-

相关文档