AI概念与AI Agent

更新: 3/18/2026字数: 0 字时长: 0 分钟

随着人工智能技术的飞速发展，围绕大语言模型（LLM）构建的能力体系正在形成一个多层次、立体化的技术生态。从最基础的模型层，到能力增强层，再到Agent体系、工程化框架，以及最新的推理能力和未来趋势，本文将全景式解析这一技术体系的内在逻辑与核心组件。

一、模型层（最底层能力）

这是所有上层能力的基础：

1.1 LLM（大语言模型）

代表：OpenAI、Anthropic
核心：文本理解 + 生成
本质：概率预测下一个 token

LLM是当前AI浪潮的核心驱动力，代表产品包括OpenAI的GPT系列、Anthropic的Claude系列等。其本质是基于海量文本训练的统计模型，核心机制是概率预测下一个token。

当我们与ChatGPT对话时，它并不是真正“理解”了语义，而是通过复杂的神经网络计算，不断预测最可能出现的下一个字词。这种机制赋予了模型强大的文本生成和理解能力，使其能够完成写作、翻译、摘要、问答等多种任务。

1.2 多模态（Multimodal）

文本 + 图片 + 音频 + 视频
典型能力：
- 看图写代码
- 语音对话
- 视频理解

👉 趋势：从“会说话” → “会看 + 会听 + 会操作”

多模态能力是模型从“会说话”向“会看、会听、会操作”进化的必然趋势。它整合了文本、图片、音频、视频等多种数据形态，形成了更全面的感知能力。

典型应用包括：上传一张产品截图让AI生成对应代码、直接与AI进行语音对话交流、让AI理解视频内容并进行摘要等。多模态模型正在打破不同信息形态之间的壁垒，使AI更接近人类的感知方式。

二、能力增强层（让模型更“聪明”）

2.1 RAG（Retrieval-Augmented Generation）

RAG的核心思想是模型+外部知识库的组合模式。当用户提出问题时，系统首先从外部知识库中检索相关信息，然后将这些信息作为上下文拼接，最后交给LLM生成回答。

中文：检索增强生成
核心思想：
模型 + 外部知识库

👉 这种架构有效解决了两个关键问题：

幻觉问题（胡编）：基于检索到的真实信息生成，大幅降低胡编乱造的概率
数据更新问题：外部知识库可随时更新，无需重新训练模型

📌 典型结构：

用户问题 → 向量检索 → 拼接上下文 → LLM回答

2.2 Embedding（向量化）

Embedding 是将文本、图片等非结构化数据转化为数值向量的技术。这些向量在数学空间中的位置和距离，代表了原始内容的语义相似度。

把文本变成向量
用于：
- 相似度搜索
- 语义匹配

👉 是 RAG 的基础设施

2.3 向量数据库（Vector DB）

与传统数据库不同，向量数据库支持高效的相似性搜索，能够快速找到与查询向量最相似的记录，是实现RAG架构的关键组件。

常见：

Pinecone
Weaviate
Milvus

👉 用来存 embedding

三、Agent 体系（从被动应答到主动执行）

3.1 Agent（智能体）

核心：

LLM + 工具 + 记忆 + 规划能力

能力：

自动拆解复杂任务为可执行的子任务
根据需要调用外部工具（如搜索引擎、计算器、API接口）
在连续多轮交互中保持状态和执行轨迹

3.2 MCP（Model Context Protocol）

MCP是标准化模型调用工具的协议。它解决了过去Agent开发中“每个工具都要单独适配”的问题，通过统一接口规范，大幅降低了Agent与工具集成的成本。简单来说，MCP就像USB-C接口，让模型可以“即插即用”各种工具，而不是为每个设备准备专门的充电线。

👉 本质：

给模型“标准化接工具”的协议

作用：

统一工具调用方式
降低 Agent 集成成本

3.3 agents.md

agents.md文件可以理解为给Agent的“说明书”，是system prompt的结构化版本。它明确规定了Agent的角色定位、行为准则、可用工具、限制条件等信息，让Agent的行为更加可控和可预期。

👉 本质：

给 Agent 的“说明书”

类似：

system prompt 的结构化版本

3.4 Agent Skills（技能体系）

技能体系是可复用的能力模块集合。例如，查天气是一个技能，查数据库是另一个技能，调用外部API也是一个技能。将这些基础技能模块化，可以在不同Agent之间共享复用，提高开发效率。

👉 本质：

可复用的能力模块

比如：

查天气
查数据库
调接口

四、编排 & 框架层（工程化）

4.1 Agent Framework（Agent框架）

常见：

LangChain
LlamaIndex

作用：

工具调用的管理和路由
多轮对话的记忆维护
任务执行流程的编排与外部系统的集成

4.2 Workflow / DAG（工作流）

👉 把 AI 任务拆成流程：

用户输入
 → 检索
 → 推理
 → 调工具
 → 输出

典型形态：

类似后端微服务编排

4.3 Function Calling（函数调用）

👉 LLM 可以直接输出：

json

{
  "tool": "get_weather",
  "args": { "city": "Shanghai" }
}

系统接收到这个指令后，解析并执行对应的函数，将结果返回给模型继续处理。这是Agent能够“行动”的技术基础。

👉 是 Agent 能执行的关键

五、记忆体系（越来越火）

5.1 Memory（记忆）

分三种：

短期记忆（上下文）：当前对话窗口内的上下文，用于维持连贯对话
长期记忆（数据库）：跨会话存储的向量化信息，让AI能记住历史交互
用户记忆（个性化）：针对特定用户的个性化信息，如偏好、习惯、历史行为

越来越多的产品正在探索“AI有记忆”的能力，让每次交互都建立在过往的基础上，而非从零开始。

六、推理能力（2024–2026爆火）

6.1 Reasoning（推理模型）

代表趋势：

chain-of-thought
多步推理

👉 模型不只是“回答”，而是“思考”

6.2 ReAct（Reason + Act）

思考 + 行动结合：

text

Thought（思考下一步） → Action（执行行动） → Observation（观察结果） → Thought（继续思考）

👉 Agent 核心模式

七、自动化 & AI工程

7.1 AutoGPT / BabyAGI

👉 自动完成任务的早期形态

特点：

自己拆任务
自己执行

7.2 AI Coding Agent

代表趋势：

AI 写代码 + 改代码 + 跑代码
已经在改变开发模式

总结一张认知图

模型层
  └── LLM / 多模态

能力增强
  └── RAG / Embedding / 向量数据库

Agent层
  └── Agent / MCP / Skills / agents.md

工程层
  └── LangChain / Workflow / Function Calling

智能增强
  └── Memory / Reasoning / ReAct

未来趋势
  └── Multi-Agent / AI Native / Tool Use

AI概念与AI Agent ​

一、模型层（最底层能力） ​

1.1 LLM（大语言模型） ​

1.2 多模态（Multimodal） ​

二、能力增强层（让模型更“聪明”） ​

2.1 RAG（Retrieval-Augmented Generation） ​

2.2 Embedding（向量化） ​

2.3 向量数据库（Vector DB） ​

三、Agent 体系（从被动应答到主动执行） ​

3.1 Agent（智能体） ​

3.2 MCP（Model Context Protocol） ​

3.3 agents.md ​

3.4 Agent Skills（技能体系） ​

四、编排 & 框架层（工程化） ​

4.1 Agent Framework（Agent框架） ​

4.2 Workflow / DAG（工作流） ​

4.3 Function Calling（函数调用） ​

五、记忆体系（越来越火） ​

5.1 Memory（记忆） ​

六、推理能力（2024–2026爆火） ​

6.1 Reasoning（推理模型） ​

6.2 ReAct（Reason + Act） ​

七、自动化 & AI工程 ​

7.1 AutoGPT / BabyAGI ​

7.2 AI Coding Agent ​

总结一张认知图 ​

AI概念与AI Agent

一、模型层（最底层能力）

1.1 LLM（大语言模型）

1.2 多模态（Multimodal）

二、能力增强层（让模型更“聪明”）

2.1 RAG（Retrieval-Augmented Generation）

2.2 Embedding（向量化）

2.3 向量数据库（Vector DB）

三、Agent 体系（从被动应答到主动执行）

3.1 Agent（智能体）

3.2 MCP（Model Context Protocol）

3.3 agents.md

3.4 Agent Skills（技能体系）

四、编排 & 框架层（工程化）

4.1 Agent Framework（Agent框架）

4.2 Workflow / DAG（工作流）

4.3 Function Calling（函数调用）

五、记忆体系（越来越火）

5.1 Memory（记忆）

六、推理能力（2024–2026爆火）

6.1 Reasoning（推理模型）

6.2 ReAct（Reason + Act）

七、自动化 & AI工程

7.1 AutoGPT / BabyAGI

7.2 AI Coding Agent

总结一张认知图