更新时间:2025-09-26 GMT+08:00
分享

大模型开发基本概念

大模型相关概念

概念名

说明

大模型是什么

大模型是大规模预训练模型的简称,也称预训练模型或基础模型。所谓预训练模型,是指在一个原始任务上预先训练出一个初始模型,然后在下游任务中对该模型进行精调,以提高下游任务的准确性。大规模预训练模型则是指模型参数达到千亿、万亿级别的预训练模型。此类大模型因具备更强的泛化能力,能够沉淀行业经验,并更高效、准确地获取信息。

大模型的计量单位token指的是什么

令牌(Token)是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token,然后根据模型的概率分布进行采样或计算。

例如,在英文中,有些组合单词会根据语义拆分,如overweight会被设计为2个token:“over”、“weight”。在中文中,有些汉字会根据语义被整合,如“等于”、“王者荣耀”。

在盘古大模型中,以N1系列模型为例,盘古1个token≈0.75个英文单词,1个token≈1.5汉字。不同模型的具体情况详见表1

表1 token比

模型规格

token比(token/英文单词)

token比(token/汉字)

N1系列模型

0.75

1.5

N2系列模型

0.88

1.24

N4系列模型

0.75

1.5

训练相关概念

表2 训练相关概念说明

概念名

说明

自监督学习

自监督学习(Self-Supervised Learning,简称SSL)是一种机器学习方法,它从未标记的数据中提取监督信号,属于无监督学习的一个子集但它与传统的无监督学习(如聚类、降维)不同,它通过引入自监督机制,将无监督问题转化为监督问题。该方法通过创建“预设任务”让模型从数据中学习,从而生成有用的表示,可用于后续任务。它无需额外的人工标签数据,因为监督信号直接从数据本身派生。自监督学习特别适合处理大规模未标注数据,例如互联网文本、图像等。

有监督学习

有监督学习是机器学习任务的一种。它从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。有监督学习适用于多种任务,比如:分类任务、回归任务、结构化预测等。

LoRA

局部微调(LoRA)是一种优化技术,用于在深度学习模型的微调过程中,只对模型的一部分参数进行更新,而不是对所有参数进行更新。这种方法可以显著减少微调所需的计算资源和时间,同时保持或接近模型的最佳性能。局部微调适用于自然语言处理、计算机视觉等领域,但也需要在微调过程中进行合理的参数选择和评估,以确保在目标任务上的准确性。

DPO

DPO(Direct Preference Optimization,直接偏好优化)通过利用偏好数据来提升模型的对话质量,增强其安全性、可控性,并且优化其输出的风格和语气。

RFT

RFT(Reinforcement Fine-Tuning,强化微调)是一种结合规则化奖励信号的强化学习方法。其训练目的是引导模型在具有明确“正确答案”的复杂任务中不断优化输出结果,使其逐步逼近最优解。RFT通过少量高质量反馈数据,使模型在特定领域实现高精度推理与决策能力。

GRPO

GRPO(Group Relative Policy Optimization,群组相对策略优化)是一种基于组间多个回复的相对优势水平进行训练的强化学习方法。其核心思想是根据模型多个采样回答的平均奖励计算奖励基线,并得到每个回答的相对优势值,进而用于迭代训练、不断优化提升模型的推理决策能力。

过拟合

过拟合是指为了得到一致假设而使假设变得过度严格,会导致模型产生“以偏概全”的现象,导致模型泛化效果变差。这种情况通常是由于模型复杂度过高、训练数据不足,或者训练数据中包含噪声和异常值引起的。预防这种情况的方法包括:简化模型、增加训练数据、提升数据集的质量等。

欠拟合

欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。这种情况通常是由于模型复杂度过低,无法充分学习数据的复杂性,或者训练数据不足、训练时间不够,导致模型训练过程未能充分优化参数。

损失函数

损失函数(Loss Function)是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数。它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好,因此它还可以为模型的优化提供明确的方向常见的损失函数包括:MAE(平均绝对误差)MSE(均方误差)RMSE(均方根误差)等。

推理相关概念

表3 训练相关概念说明

概念名

说明

温度系数

温度系数(temperature)控制生成语言模型中生成文本的随机性和创造性,调整模型的softmax输出层中预测词的概率。其值越大,则预测词的概率的方差减小,即很多词被选择的可能性增大,利于文本多样化。

多样性与一致性

多样性和一致性是评估LLM生成语言的两个重要方面,分别影响着模型的泛化能力和稳定性。 多样性指模型生成的不同输出之间的差异,可以通过大量的数据收集、数据增强、多语言训练等进行提升。一致性指相同输入对应的不同输出之间的一致性,可以通过正则化方法、参数调优等策略进行提升

重复惩罚

重复惩罚(repetition_penalty)是在模型训练或生成过程中加入的惩罚项,旨在减少重复生成的可能性。通过在计算损失函数(用于优化模型的指标)时增加对重复输出的惩罚来实现的。如果模型生成了重复的文本,它的损失会增加,从而鼓励模型寻找更多样化的输出。

提示词工程相关概念

表4 提示词工程相关概念说明

概念名

说明

提示词

提示词(Prompt)是一种用于与AI人工智能模型交互的语言,用于指示模型生成所需的内容帮助用户有效地将大语言模型用于各种应用场景和研究领域。一个提示词可以包含您传递到模型的指令或问题等信息,也可以包含其他种类的信息,如上下文、输入或示例等。

思维链

思维链 (Chain-of-Thought)是一种模拟人类解决问题的方法,通过一系列自然语言形式的推理过程,从输入问题开始,逐步推导至最终输出结论。这个过程可以被看作是一个链条,每一环代表模型在不同层次或阶段的处理和推理。

Self-instruct

Self-instruct是一种将预训练语言模型与指令对齐的方法,允许模型自主生成数据,而不需要大量的人工标注,减少了对人工指令的依赖,提高模型的自适应能力

相关文档