Skip to content
 

AI概念与AI Agent

更新: 3/18/2026字数: 0 字 时长: 0 分钟

随着人工智能技术的飞速发展,围绕大语言模型(LLM)构建的能力体系正在形成一个多层次、立体化的技术生态。从最基础的模型层,到能力增强层,再到Agent体系、工程化框架,以及最新的推理能力和未来趋势,本文将全景式解析这一技术体系的内在逻辑与核心组件。

一、模型层(最底层能力)

这是所有上层能力的基础:

1.1 LLM(大语言模型)

  • 代表:OpenAI、Anthropic
  • 核心:文本理解 + 生成
  • 本质:概率预测下一个 token

LLM是当前AI浪潮的核心驱动力,代表产品包括OpenAI的GPT系列、Anthropic的Claude系列等。其本质是基于海量文本训练的统计模型,核心机制是概率预测下一个token

当我们与ChatGPT对话时,它并不是真正“理解”了语义,而是通过复杂的神经网络计算,不断预测最可能出现的下一个字词。这种机制赋予了模型强大的文本生成和理解能力,使其能够完成写作、翻译、摘要、问答等多种任务。

1.2 多模态(Multimodal)

  • 文本 + 图片 + 音频 + 视频

  • 典型能力:

    • 看图写代码
    • 语音对话
    • 视频理解

👉 趋势:从“会说话” → “会看 + 会听 + 会操作”

多模态能力是模型从“会说话”向“会看、会听、会操作”进化的必然趋势。它整合了文本、图片、音频、视频等多种数据形态,形成了更全面的感知能力。

典型应用包括:上传一张产品截图让AI生成对应代码、直接与AI进行语音对话交流、让AI理解视频内容并进行摘要等。多模态模型正在打破不同信息形态之间的壁垒,使AI更接近人类的感知方式。

二、能力增强层(让模型更“聪明”)

2.1 RAG(Retrieval-Augmented Generation)

RAG的核心思想是模型+外部知识库的组合模式。当用户提出问题时,系统首先从外部知识库中检索相关信息,然后将这些信息作为上下文拼接,最后交给LLM生成回答。

  • 中文:检索增强生成

  • 核心思想:

    模型 + 外部知识库

👉 这种架构有效解决了两个关键问题:

  • 幻觉问题(胡编):基于检索到的真实信息生成,大幅降低胡编乱造的概率
  • 数据更新问题:外部知识库可随时更新,无需重新训练模型

📌 典型结构:

用户问题 → 向量检索 → 拼接上下文 → LLM回答

2.2 Embedding(向量化)

Embedding 是将文本、图片等非结构化数据转化为数值向量的技术。这些向量在数学空间中的位置和距离,代表了原始内容的语义相似度。

  • 把文本变成向量

  • 用于:

    • 相似度搜索
    • 语义匹配

👉 是 RAG 的基础设施

2.3 向量数据库(Vector DB)

与传统数据库不同,向量数据库支持高效的相似性搜索,能够快速找到与查询向量最相似的记录,是实现RAG架构的关键组件。

常见:

  • Pinecone
  • Weaviate
  • Milvus

👉 用来存 embedding

三、Agent 体系(从被动应答到主动执行)

3.1 Agent(智能体)

核心:

LLM + 工具 + 记忆 + 规划能力

能力:

  • 自动拆解复杂任务为可执行的子任务
  • 根据需要调用外部工具(如搜索引擎、计算器、API接口)
  • 在连续多轮交互中保持状态和执行轨迹

3.2 MCP(Model Context Protocol)

MCP是标准化模型调用工具的协议。它解决了过去Agent开发中“每个工具都要单独适配”的问题,通过统一接口规范,大幅降低了Agent与工具集成的成本。 简单来说,MCP就像USB-C接口,让模型可以“即插即用”各种工具,而不是为每个设备准备专门的充电线。

👉 本质:

给模型“标准化接工具”的协议

作用:

  • 统一工具调用方式
  • 降低 Agent 集成成本

3.3 agents.md

agents.md文件可以理解为给Agent的“说明书”,是system prompt的结构化版本。它明确规定了Agent的角色定位、行为准则、可用工具、限制条件等信息,让Agent的行为更加可控和可预期。

👉 本质:

给 Agent 的“说明书”

类似:

  • system prompt 的结构化版本

3.4 Agent Skills(技能体系)

技能体系是可复用的能力模块集合。例如,查天气是一个技能,查数据库是另一个技能,调用外部API也是一个技能。将这些基础技能模块化,可以在不同Agent之间共享复用,提高开发效率。

👉 本质:

可复用的能力模块

比如:

  • 查天气
  • 查数据库
  • 调接口

四、编排 & 框架层(工程化)

4.1 Agent Framework(Agent框架)

常见:

  • LangChain
  • LlamaIndex

作用:

  • 工具调用的管理和路由
  • 多轮对话的记忆维护
  • 任务执行流程的编排与外部系统的集成

4.2 Workflow / DAG(工作流)

👉 把 AI 任务拆成流程:

用户输入
 → 检索
 → 推理
 → 调工具
 → 输出

典型形态:

  • 类似后端微服务编排

4.3 Function Calling(函数调用)

👉 LLM 可以直接输出:

json
{
  "tool": "get_weather",
  "args": { "city": "Shanghai" }
}

系统接收到这个指令后,解析并执行对应的函数,将结果返回给模型继续处理。这是Agent能够“行动”的技术基础。

👉 是 Agent 能执行的关键

五、记忆体系(越来越火)

5.1 Memory(记忆)

分三种:

  • 短期记忆(上下文):当前对话窗口内的上下文,用于维持连贯对话
  • 长期记忆(数据库):跨会话存储的向量化信息,让AI能记住历史交互
  • 用户记忆(个性化):针对特定用户的个性化信息,如偏好、习惯、历史行为

越来越多的产品正在探索“AI有记忆”的能力,让每次交互都建立在过往的基础上,而非从零开始。

六、推理能力(2024–2026爆火)

6.1 Reasoning(推理模型)

代表趋势:

  • chain-of-thought
  • 多步推理

👉 模型不只是“回答”,而是“思考”

6.2 ReAct(Reason + Act)

思考 + 行动结合:

text
Thought(思考下一步) → Action(执行行动) → Observation(观察结果) → Thought(继续思考)

👉 Agent 核心模式

七、自动化 & AI工程

7.1 AutoGPT / BabyAGI

👉 自动完成任务的早期形态

特点:

  • 自己拆任务
  • 自己执行

7.2 AI Coding Agent

代表趋势:

  • AI 写代码 + 改代码 + 跑代码
  • 已经在改变开发模式

总结一张认知图

模型层
  └── LLM / 多模态

能力增强
  └── RAG / Embedding / 向量数据库

Agent层
  └── Agent / MCP / Skills / agents.md

工程层
  └── LangChain / Workflow / Function Calling

智能增强
  └── Memory / Reasoning / ReAct

未来趋势
  └── Multi-Agent / AI Native / Tool Use

我见青山多妩媚,料青山见我应如是