大模型开发基本概念

大模型相关概念

概念名	说明
大模型是什么	大模型是大规模预训练模型的简称，也称预训练模型或基础模型。所谓预训练模型，是指在一个原始任务上预先训练出一个初始模型，然后在下游任务中对该模型进行精调，以提高下游任务的准确性。大规模预训练模型则是指模型参数达到千亿、万亿级别的预训练模型。此类大模型因具备更强的泛化能力，能够沉淀行业经验，并更高效、准确地获取信息。
大模型的计量单位token指的是什么	令牌（Token）是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token，然后根据模型的概率分布进行采样或计算。例如，在英文中，有些组合单词会根据语义拆分，如overweight会被设计为2个token：“over”、“weight”。在中文中，有些汉字会根据语义被整合，如“等于”、“王者荣耀”。在盘古大模型中，以N1系列模型为例，盘古1个token≈0.75个英文单词，1个token≈1.5汉字。不同模型的具体情况详见表1。

概念名

说明

大模型是什么

大模型是大规模预训练模型的简称，也称预训练模型或基础模型。所谓预训练模型，是指在一个原始任务上预先训练出一个初始模型，然后在下游任务中对该模型进行精调，以提高下游任务的准确性。大规模预训练模型则是指模型参数达到千亿、万亿级别的预训练模型。此类大模型因具备更强的泛化能力，能够沉淀行业经验，并更高效、准确地获取信息。

大模型的计量单位token指的是什么

令牌（Token）是指模型处理和生成文本的基本单位。token可以是词或者字符的片段。模型的输入和输出的文本都会被转换成token，然后根据模型的概率分布进行采样或计算。

例如，在英文中，有些组合单词会根据语义拆分，如overweight会被设计为2个token：“over”、“weight”。在中文中，有些汉字会根据语义被整合，如“等于”、“王者荣耀”。

在盘古大模型中，以N1系列模型为例，盘古1个token≈0.75个英文单词，1个token≈1.5汉字。不同模型的具体情况详见表1。

表1 token比
模型规格	token比（token/英文单词）	token比（token/汉字）
N1系列模型	0.75	1.5
N2系列模型	0.88	1.24
N4系列模型	0.75	1.5

训练相关概念

表2 训练相关概念说明
概念名	说明
自监督学习	自监督学习（Self-Supervised Learning，简称SSL）是一种机器学习方法，它从未标记的数据中提取监督信号，属于无监督学习的一个子集，但它与传统的无监督学习（如聚类、降维）不同，它通过引入自监督机制，将无监督问题转化为监督问题。该方法通过创建“预设任务”让模型从数据中学习，从而生成有用的表示，可用于后续任务。它无需额外的人工标签数据，因为监督信号直接从数据本身派生。自监督学习特别适合处理大规模未标注数据，例如互联网文本、图像等。
有监督学习	有监督学习是机器学习任务的一种。它从有标记的训练数据中推导出预测函数。有标记的训练数据是指每个训练实例都包括输入和期望的输出。有监督学习适用于多种任务，比如：分类任务、回归任务、结构化预测等。
LoRA	局部微调（LoRA）是一种优化技术，用于在深度学习模型的微调过程中，只对模型的一部分参数进行更新，而不是对所有参数进行更新。这种方法可以显著减少微调所需的计算资源和时间，同时保持或接近模型的最佳性能。局部微调适用于自然语言处理、计算机视觉等领域，但也需要在微调过程中进行合理的参数选择和评估，以确保在目标任务上的准确性。
DPO	DPO（Direct Preference Optimization，直接偏好优化）通过利用偏好数据来提升模型的对话质量，增强其安全性、可控性，并且优化其输出的风格和语气。
RFT	RFT（Reinforcement Fine-Tuning，强化微调）是一种结合规则化奖励信号的强化学习方法。其训练目的是引导模型在具有明确“正确答案”的复杂任务中不断优化输出结果，使其逐步逼近最优解。RFT通过少量高质量反馈数据，使模型在特定领域实现高精度推理与决策能力。
GRPO	GRPO（Group Relative Policy Optimization，群组相对策略优化）是一种基于组间多个回复的相对优势水平进行训练的强化学习方法。其核心思想是根据模型多个采样回答的平均奖励计算奖励基线，并得到每个回答的相对优势值，进而用于迭代训练、不断优化提升模型的推理决策能力。
过拟合	过拟合是指为了得到一致假设而使假设变得过度严格，会导致模型产生“以偏概全”的现象，导致模型泛化效果变差。这种情况通常是由于模型复杂度过高、训练数据不足，或者训练数据中包含噪声和异常值引起的。预防这种情况的方法包括：简化模型、增加训练数据、提升数据集的质量等。
欠拟合	欠拟合是指模型拟合程度不高，数据距离拟合曲线较远，或指模型没有很好地捕捉到数据特征，不能够很好地拟合数据。这种情况通常是由于模型复杂度过低，无法充分学习数据的复杂性，或者训练数据不足、训练时间不够，导致模型训练过程未能充分优化参数。
损失函数	损失函数（Loss Function）是用来度量模型的预测值f(x)与真实值Y的差异程度的运算函数。它是一个非负实值函数，通常使用L(Y, f(x))来表示，损失函数值越小，模型的鲁棒性就越好，因此它还可以为模型的优化提供明确的方向。常见的损失函数包括：MAE（平均绝对误差）、MSE（均方误差）、RMSE（均方根误差）等。

推理相关概念

表3 训练相关概念说明
概念名	说明
温度系数	温度系数（temperature）控制生成语言模型中生成文本的随机性和创造性，调整模型的softmax输出层中预测词的概率。其值越大，则预测词的概率的方差减小，即很多词被选择的可能性增大，利于文本多样化。
多样性与一致性	多样性和一致性是评估LLM生成语言的两个重要方面，分别影响着模型的泛化能力和稳定性。多样性指模型生成的不同输出之间的差异，可以通过大量的数据收集、数据增强、多语言训练等进行提升。一致性指相同输入对应的不同输出之间的一致性，可以通过正则化方法、参数调优等策略进行提升。
重复惩罚	重复惩罚（repetition_penalty）是在模型训练或生成过程中加入的惩罚项，旨在减少重复生成的可能性。通过在计算损失函数（用于优化模型的指标）时增加对重复输出的惩罚来实现的。如果模型生成了重复的文本，它的损失会增加，从而鼓励模型寻找更多样化的输出。

提示词工程相关概念

表4 提示词工程相关概念说明
概念名	说明
提示词	提示词（Prompt）是一种用于与AI人工智能模型交互的语言，用于指示模型生成所需的内容，帮助用户有效地将大语言模型用于各种应用场景和研究领域。一个提示词可以包含您传递到模型的指令或问题等信息，也可以包含其他种类的信息，如上下文、输入或示例等。
思维链	思维链（Chain-of-Thought）是一种模拟人类解决问题的方法，通过一系列自然语言形式的推理过程，从输入问题开始，逐步推导至最终输出结论。这个过程可以被看作是一个链条，每一环代表模型在不同层次或阶段的处理和推理。
Self-instruct	Self-instruct是一种将预训练语言模型与指令对齐的方法，允许模型自主生成数据，而不需要大量的人工标注，减少了对人工指令的依赖，提高模型的自适应能力。

父主题： 基础知识

上一篇：大模型开发基本流程介绍

下一篇：安全

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！您可在我的云声建议查看反馈及问题处理状态。

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消

如您有其它疑问，您也可以通过华为云社区问答频道来与我们联系探讨

盘古Doer提问云社区提问