基本概念
Agent核心概念
|
术语概念 |
解释 |
|---|---|
|
智能体(Agent) |
一个能够感知环境、进行推理、决策并采取行动以实现特定目标的智能系统。它通常以大语言模型(LLM)为核心大脑,具备自主性。 |
|
大语言模型(LLM) |
Agent 的“大脑”。负责处理信息、逻辑推理、任务规划和生成响应。Agent 的智力水平很大程度上取决于其背后的 LLM 能力。 |
|
规划 (Planning) |
智能体将复杂目标拆解为可管理的子任务或步骤的能力。包括任务分解和路径规划。 |
|
记忆 (Memory) |
智能体存储和检索信息的能力。分为短期记忆(当前的上下文窗口)和长期记忆(通常存储在向量数据库中,用于持久化知识)。 |
|
工具使用 (Tool Use / Tooling) |
智能体调用外部API、软件或硬件来执行操作的能力(如搜索网页、运行代码、查询数据库)。这是智能体区别于纯聊天机器人的关键。 |
|
行动 (Action) |
智能体在规划后执行的具体操作,例如发送邮件、修改文件或调用一个函数。 |
|
推理与行动框架 (ReAct / Reason + Act) |
一种经典的智能体提示框架,要求模型在执行动作前先生成推理轨迹(“先思考,再行动”),并在行动后观察结果,形成闭环。 |
|
思维链 (Chain of Thought - CoT) |
一种提示技术,引导模型一步步展示其推理过程,有助于提高处理复杂逻辑任务的准确性,是智能体进行规划的基础。 |
|
函数调用 (Function Calling) |
一种机制,允许LLM输出结构化的数据(如 JSON),以触发预定义的代码函数或 API。这是实现“工具使用”的技术手段。 |
|
检索增强生成 (Retrieval-Augmented Generation - RAG) |
允许智能体在生成回答之前,先从外部知识库检索相关信息。这相当于给智能体配备了一个“图书馆”供随时查阅。 |
|
向量数据库 (Vector Database) |
用于存储文本嵌入(Embedding)的数据库,是智能体实现长期记忆的核心组件,支持通过语义相似度快速检索信息。 |
|
嵌入 (Embedding) |
将文本、图片等数据转化为数值向量的过程。智能体利用它来理解不同数据之间的语义关联,用于记忆检索。 |
|
感知 (Perception) |
智能体接收外部信息的过程,可以是文本输入,也可以是多模态输入(如视觉、听觉),使其能理解当前环境状态。 |
|
反思/自修正 (Reflection / Self-Correction) |
智能体在执行任务后,检查自己的输出或行为是否符合预期,并进行自我批评和修正的能力,以提高最终结果的质量。 |
|
多智能体系统 (Multi-Agent System - MAS) |
由多个拥有不同角色、技能和权限的智能体组成的协作网络。它们像人类团队一样分工合作(如一个负责写代码,一个负责测试)。 |
|
编排者/调度器 (Orchestrator) |
在多智能体系统中,负责理解用户意图、分发任务给子智能体、协调流程并汇总结果的“管理者”角色。 |
|
标准作业程序 (Standard Operating Procedure - SOP) |
在智能体工作流中预定义的固定流程或规范。通过SOP,可以让智能体遵循人类的最佳实践来执行任务,提高稳定性。 |
|
人设/角色 (Persona / Role) |
通过提示词赋予智能体的特定身份(如“资深 Python 工程师”),使其行为、语气和专业知识聚焦于特定领域。 |
|
人机协同 (Human-in-the-loop - HITL) |
一种工作模式,智能体在关键决策点需要人类的确认或反馈才能继续执行。这用于确保高风险操作的安全性。 |
|
环境 (Environment) |
智能体所处并与之交互的数字或物理空间(如操作系统、浏览器、游戏世界)。 |
|
零样本/少样本学习 (Zero-shot / Few-shot Learning) |
指智能体在没有示例(Zero-shot)或仅有少量示例(Few-shot)的情况下完成任务的能力,常用于测试智能体的泛化能力。 |
|
幻觉 (Hallucination) |
大模型(LLM)生成看似合理但实际上错误或不存在的信息的现象。在开发中需要通过 RAG 或工具验证来抑制幻觉。 |
|
上下文窗口 (Context Window) |
LLM 一次能处理的最大Token数量。限制了智能体的短期记忆容量(即它能同时“看到”多少信息)。 |
|
任务分解 (Task Decomposition) |
将一个模糊的高层指令(如“写一个贪吃蛇游戏”)拆解为一系列具体的、可执行的小步骤(如“生成界面”、“编写逻辑”、“调试代码”)。 |
工作流核心概念
|
术语概念 |
解释 |
|---|---|
|
画布/工作流编排页面 (Canvas) |
可视化编排工作流的界面。用户通过拖拽节点、连线来定义流程,所见即所得。这是低代码/无代码平台的标志性功能。 |
|
节点 (Node / Step / Block) |
工作流中的基本执行单元。一个节点代表一个动作,例如“发送邮件”、“调用大模型”、“运行 Python 代码”。 |
|
连线 (Edge / Connector) |
连接两个节点的线,代表执行的顺序(从 A 到 B)。也代表数据流动的方向。 |
|
结束/终点 (End / Terminate) |
工作流运行结束的节点。通常用于输出最终结果(如返回给用户的回答)或标记流程状态为“完成”。 |
|
变量 (Variable) |
工作流的“血液”。用于在节点之间存储和传递数据。 输入变量:用户填写的表单信息。 输出变量:某个节点处理完产生的结果。 |
|
全局变量 / 上下文 (Global Variable / Context) |
在整个工作流的生命周期内都有效的变量。任何节点都可以读取或修改它(例如:USER_ID,CONVERSATION_HISTORY)。 |
|
参数映射 / 引用 (Reference / Mapping) |
将上一个节点的输出(Output)填入下一个节点的输入(Input)的过程。例如:将“搜索节点”的结果,引用填入“大模型节点”的提示词中。 |
|
硬编码 (Hardcoding) |
在节点参数中直接使用固定的值,而不是引用变量。 |
|
分支 / 条件 (Branch / Conditional / If-Else) |
逻辑判断节点。根据变量的值决定走哪条路。 例如:如果 分数 > 60,则 走“及格”路径;否则 走“不及格”路径。 |
|
迭代 / 循环 (Iterator / Loop / For-Each) |
用于处理列表(List)数据的节点。它会遍历列表中的每一项,重复执行相同的操作。 例如:输入一个包含 10 个网址的列表,循环节点会运行 10 次“爬取网页”的操作。 |
|
并行分支 (Parallel Branch) |
同时执行多条路径,互不等待。常用于提高效率,最后通常接一个“聚合”节点。 |
|
聚合 / 汇聚 (Merge / Join) |
等待多个并行分支全部执行完毕后,将结果汇总,再继续执行后续步骤。 |
插件/MCP核心概念
|
术语概念 |
解释 |
|---|---|
|
插件 (Plugin) |
一种软件组件,允许智能体 (Agent) 连接外部应用程序或数据源。它通常由API接口或函数代码构成,使模型能够理解并调用外部API能力(如查询天气、预订机票),或者执行预设好的代码功能。 |
|
工具 (Tool) |
在插件中,指模型可以调用的具体功能。与被动的数据资源不同,工具可以执行操作(如“运行代码”、“发送消息”)。模型经过推理后决定是否调用工具以及使用什么参数。 |
|
MCP 模型上下文协议 (Model Context Protocol - MCP) |
一个开放标准协议,旨在标准化 AI 模型与外部数据/工具之间的连接。它解决了不同 AI 模型连接不同数据源时需要重复开发“适配器”的问题,被比作 "AI 时代的 USB 接口"。 |
|
清单文件 (Manifest) |
插件的“身份证”。通常是一个 JSON 文件(如 ai-plugin.json),包含插件的元数据(名称、描述、Logo)、鉴权方式以及 API 定义文件的位置。模型通过阅读它来了解插件是干什么的。 |
|
函数调用 (Function Calling) |
许多插件和MCP工具背后的底层机制。指大模型输出特定格式的 JSON(而非自然语言),以触发编程函数或 API 请求的能力。 |
|
OpenAPI 规范 (OpenAPI Specification) |
用于描述RESTful API的标准格式(通常是 YAML 或 JSON)。在插件开发中,它告诉模型这个 API 有哪些域名、需要什么参数、返回什么数据结构。 |
|
描述模式 (Schema) |
用于定义数据结构的规范(如 JSON Schema)。在插件中,它用来告诉模型工具需要的输入参数必须是“数字”还是“字符串”,以及是否“必填”。 |
|
MCP 主机 (MCP Host) |
运行AI模型的应用程序。它是发起请求的一方,负责管理与各种MCP服务器的连接。 |
|
MCP 客户端 (MCP Client) |
负责与MCP服务器建立连接。它将请求转换为MCP协议消息发送给服务器。 |
|
MCP 服务器 (MCP Server) |
提供数据或能力的独立服务程序。它通过MCP协议向 Host 暴露自己的资源、工具和提示词。 |
|
传输层 (Transport) |
MCP 用于在客户端和服务器之间发送消息的通信机制。主要有两种标准:Stdio(标准输入输出,用于本地进程通信)和 SSE(Server-Sent Events,用于远程 HTTP 通信)。 |
|
NPX (Node Package Execute) |
Node.js生态的MCP服务器运行工具。 它是Node.js的包执行器。MCP中,许多官方或社区的MCP服务是用 TypeScript/JavaScript 写的。 |
|
UVX (uv Execute) |
Python生态的MCP服务器运行工具。 它是高性能Python包管理器 uv 的一部分。MCP中,大量MCP服务是用 Python 写的。 |
|
Stdio (Standard Input/Output) |
标准输入输出,是 NPX/UVX 运行MCP服务时的默认通信管道。 当通过 npx 或 uvx 启动MCP服务时,它们并不通过网络端口通信,而是直接通过命令行窗口的“输入”和“输出”文本流来交换 JSON 消息。这是本地MCP最常见的连接方式。 |
|
uv |
一个极速的Python包管理器。MCP官方推荐使用它来管理Python环境和运行uvx命令。它是 Python 届的“新宠”,对MCP的Python生态支持非常好。 |
|
PyPI / NPM |
MCP服务器的分发仓库。 MCP协议本身不提供“应用商店”。开发者将写好的 Server 发布到 NPM(JS/TS版)或 PyPI(Python版)。用户通过npx或uvx来拉取这些资源。 |
|
Environment Variables (env) |
环境变量。 在使用npx或uvx运行MCP服务时,通常需要传递敏感信息(如 API Key)。在MCP客户端配置中,通常有一个env字段,用于将这些密钥安全地传递给由 NPX/UVX 启动的进程。 |
知识库核心概念
|
术语概念 |
解释 |
|---|---|
|
检索增强生成 (RAG - Retrieval-Augmented Generation) |
指在大模型生成回答之前,先从外部数据库检索相关信息,并将其作为上下文输入给模型。这解决了大模型知识滞后和幻觉问题。 |
|
向量数据库 (Vector Database) |
知识库的“物理载体”。一种专门存储高维向量数据的数据库。它不存文本本身(或仅存副本),核心存的是文本的“语义坐标”,支持通过语义相似度快速找回信息。 |
|
倒排索引 (Inverted Index) |
传统搜索引擎(如 Elasticsearch)的核心技术。通过关键词(Keyword)映射文档位置。在 Agent 中,常与向量检索结合使用,以弥补语义检索对专有名词(如产品型号)匹配不准的问题。 |
|
混合搜索 (Hybrid Search) |
同时使用关键词搜索(精确匹配)和向量搜索(语义匹配),并通过算法合并结果。这是目前企业级知识库的标准配置。 |
|
多路召回 (Multi-stage Retrieval) |
指通过多种策略(如向量、关键词)分别检索信息,汇聚成一个候选池,再进行筛选的过程。 |
|
切片 / 分块 (Chunking) |
将长文档(如 PDF、Wiki)切分成小的文本块(Chunk)的过程。切片策略(按字符数、按段落、按语义)直接决定了检索的精准度。切得太碎丢失上下文,切得太大包含噪音。 |
|
嵌入 (Embedding) |
知识库的核心“翻译”过程。将文本块转化为一串数字向量(Vector),使其能被计算机进行数学计算。意思相近的句子,在向量空间距离更近。 |
|
重排序 (Re-ranking) |
检索优化的“精修”环节。在向量数据库粗排召回多个结果后,使用一个更精准的重排序模型对这些结果进行打分,最终只选出质量最高的搜索结果传递给大模型。 |