更新时间:2025-07-30 GMT+08:00
分享

图像问答大模型训练流程与选择建议

多模态大模型训练流程介绍

多模态大模型的训练分为两个关键阶段:预训练和微调。

  • 预训练阶段:在这一阶段,模型通过学习大规模通用数据集来掌握语言的基本模式和语义。这一过程为模型提供了处理各种语言任务的基础,如阅读理解、文本生成和情感分析,但它还未能针对特定任务进行优化。

    预训练阶段完成之后,还可以继续进行训练,这一过程称为增量预训练。增量预训练是在已经完成的预训练的基础上继续训练模型。增量预训练旨在使模型能够适应新的领域或数据需求,保持其长期的有效性和准确性。

  • 微调阶段:基于预训练的成果,微调阶段通过在特定领域的数据集上进一步训练,使模型能够更有效地应对具体的任务需求。这一阶段使模型能够精确执行如文案生成、代码生成和专业问答等特定场景中的任务。在微调过程中,通过设定训练指标来监控模型的表现,确保其达到预期的效果。完成微调后,将对用户模型进行评估并进行最终优化,以确保满足业务需求,然后将其部署和调用,用于实际应用。

多模态大模型选择建议

选择合适的多模态大模型类型有助于提升训练任务的准确程度。您可以根据模型可处理上下文Token长度,选择合适的模型,从而提高模型的整体效果,详见表1

表1 不同系列多模态大模型对处理文本的长度差异

模型

场景

上下文Token长度

模型功能简介

盘古-MM-M2-图生文模型-16K

-

16K

百亿参数多模态理解大模型的图生文功能模型,对应功能模型,支持预训练和SFT微调工作流,支持16K序列,基于Snt9B卡可支持64卡起训,Snt9B卡支持8卡部署,此模型版本支持在线推理、能力调测特性。

多模态大模型训练类型选择建议

平台针对多模态大模型提供了两种训练类型,包括预训练、微调,二者区别详见表2

表2 预训练、微调训练类型区别

训练方式

训练目的

训练数据

模型效果

应用场景举例

预训练

关注通用性:预训练旨在让模型学习广泛的通用知识,建立词汇、句法和语义的基础理解。通过大规模的通用数据训练,模型可以掌握丰富的语言模式,如语言结构、词义关系和常见的句型。

使用大规模通用数据:通常使用海量的无监督数据(如文本语料库、百科文章),这些数据覆盖广泛的领域和语言表达方式,帮助模型掌握广泛的知识。

适合广泛应用:经过预训练后,模型可以理解自然语言并具备通用任务的基础能力,但还没有针对特定的业务场景进行优化。预训练后的模型主要用于多个任务的底层支持。

通过使用海量的互联网文本语料对模型进行预训练,使模型理解人类语言的基本结构。

微调

关注专业性:微调是对预训练模型的参数进行调整,使其在特定任务中达到更高的精度和效果。微调的核心在于利用少量的特定任务数据,使模型的表现从通用性向具体任务需求过渡。

使用小规模的特定任务数据:微调通常需要小规模但高质量的标注数据,直接与目标任务相关。通过这些数据,模型可以学习到任务特定的特征和模式。

在特定任务上具有更高的准确性:微调后的模型在具体任务中表现更优。相较于预训练阶段的通用能力,微调能使模型更好地解决细分任务的需求。

在一个客户服务问答系统中,可以用特定领域(如电商、保险)的对话数据对预训练模型进行微调,使其更好地理解和回答与该领域相关的问题。

相关文档