AI概念与AI Agent
更新: 3/18/2026字数: 0 字 时长: 0 分钟
随着人工智能技术的飞速发展,围绕大语言模型(LLM)构建的能力体系正在形成一个多层次、立体化的技术生态。从最基础的模型层,到能力增强层,再到Agent体系、工程化框架,以及最新的推理能力和未来趋势,本文将全景式解析这一技术体系的内在逻辑与核心组件。
一、模型层(最底层能力)
这是所有上层能力的基础:
1.1 LLM(大语言模型)
- 代表:OpenAI、Anthropic
- 核心:文本理解 + 生成
- 本质:概率预测下一个 token
LLM是当前AI浪潮的核心驱动力,代表产品包括OpenAI的GPT系列、Anthropic的Claude系列等。其本质是基于海量文本训练的统计模型,核心机制是概率预测下一个token。
当我们与ChatGPT对话时,它并不是真正“理解”了语义,而是通过复杂的神经网络计算,不断预测最可能出现的下一个字词。这种机制赋予了模型强大的文本生成和理解能力,使其能够完成写作、翻译、摘要、问答等多种任务。
1.2 多模态(Multimodal)
文本 + 图片 + 音频 + 视频
典型能力:
- 看图写代码
- 语音对话
- 视频理解
👉 趋势:从“会说话” → “会看 + 会听 + 会操作”
多模态能力是模型从“会说话”向“会看、会听、会操作”进化的必然趋势。它整合了文本、图片、音频、视频等多种数据形态,形成了更全面的感知能力。
典型应用包括:上传一张产品截图让AI生成对应代码、直接与AI进行语音对话交流、让AI理解视频内容并进行摘要等。多模态模型正在打破不同信息形态之间的壁垒,使AI更接近人类的感知方式。
二、能力增强层(让模型更“聪明”)
2.1 RAG(Retrieval-Augmented Generation)
RAG的核心思想是模型+外部知识库的组合模式。当用户提出问题时,系统首先从外部知识库中检索相关信息,然后将这些信息作为上下文拼接,最后交给LLM生成回答。
中文:检索增强生成
核心思想:
模型 + 外部知识库
👉 这种架构有效解决了两个关键问题:
- 幻觉问题(胡编):基于检索到的真实信息生成,大幅降低胡编乱造的概率
- 数据更新问题:外部知识库可随时更新,无需重新训练模型
📌 典型结构:
用户问题 → 向量检索 → 拼接上下文 → LLM回答2.2 Embedding(向量化)
Embedding 是将文本、图片等非结构化数据转化为数值向量的技术。这些向量在数学空间中的位置和距离,代表了原始内容的语义相似度。
把文本变成向量
用于:
- 相似度搜索
- 语义匹配
👉 是 RAG 的基础设施
2.3 向量数据库(Vector DB)
与传统数据库不同,向量数据库支持高效的相似性搜索,能够快速找到与查询向量最相似的记录,是实现RAG架构的关键组件。
常见:
- Pinecone
- Weaviate
- Milvus
👉 用来存 embedding
三、Agent 体系(从被动应答到主动执行)
3.1 Agent(智能体)
核心:
LLM + 工具 + 记忆 + 规划能力
能力:
- 自动拆解复杂任务为可执行的子任务
- 根据需要调用外部工具(如搜索引擎、计算器、API接口)
- 在连续多轮交互中保持状态和执行轨迹
3.2 MCP(Model Context Protocol)
MCP是标准化模型调用工具的协议。它解决了过去Agent开发中“每个工具都要单独适配”的问题,通过统一接口规范,大幅降低了Agent与工具集成的成本。 简单来说,MCP就像USB-C接口,让模型可以“即插即用”各种工具,而不是为每个设备准备专门的充电线。
👉 本质:
给模型“标准化接工具”的协议
作用:
- 统一工具调用方式
- 降低 Agent 集成成本
3.3 agents.md
agents.md文件可以理解为给Agent的“说明书”,是system prompt的结构化版本。它明确规定了Agent的角色定位、行为准则、可用工具、限制条件等信息,让Agent的行为更加可控和可预期。
👉 本质:
给 Agent 的“说明书”
类似:
- system prompt 的结构化版本
3.4 Agent Skills(技能体系)
技能体系是可复用的能力模块集合。例如,查天气是一个技能,查数据库是另一个技能,调用外部API也是一个技能。将这些基础技能模块化,可以在不同Agent之间共享复用,提高开发效率。
👉 本质:
可复用的能力模块
比如:
- 查天气
- 查数据库
- 调接口
四、编排 & 框架层(工程化)
4.1 Agent Framework(Agent框架)
常见:
- LangChain
- LlamaIndex
作用:
- 工具调用的管理和路由
- 多轮对话的记忆维护
- 任务执行流程的编排与外部系统的集成
4.2 Workflow / DAG(工作流)
👉 把 AI 任务拆成流程:
用户输入
→ 检索
→ 推理
→ 调工具
→ 输出典型形态:
- 类似后端微服务编排
4.3 Function Calling(函数调用)
👉 LLM 可以直接输出:
{
"tool": "get_weather",
"args": { "city": "Shanghai" }
}系统接收到这个指令后,解析并执行对应的函数,将结果返回给模型继续处理。这是Agent能够“行动”的技术基础。
👉 是 Agent 能执行的关键
五、记忆体系(越来越火)
5.1 Memory(记忆)
分三种:
- 短期记忆(上下文):当前对话窗口内的上下文,用于维持连贯对话
- 长期记忆(数据库):跨会话存储的向量化信息,让AI能记住历史交互
- 用户记忆(个性化):针对特定用户的个性化信息,如偏好、习惯、历史行为
越来越多的产品正在探索“AI有记忆”的能力,让每次交互都建立在过往的基础上,而非从零开始。
六、推理能力(2024–2026爆火)
6.1 Reasoning(推理模型)
代表趋势:
- chain-of-thought
- 多步推理
👉 模型不只是“回答”,而是“思考”
6.2 ReAct(Reason + Act)
思考 + 行动结合:
Thought(思考下一步) → Action(执行行动) → Observation(观察结果) → Thought(继续思考)👉 Agent 核心模式
七、自动化 & AI工程
7.1 AutoGPT / BabyAGI
👉 自动完成任务的早期形态
特点:
- 自己拆任务
- 自己执行
7.2 AI Coding Agent
代表趋势:
- AI 写代码 + 改代码 + 跑代码
- 已经在改变开发模式
总结一张认知图
模型层
└── LLM / 多模态
能力增强
└── RAG / Embedding / 向量数据库
Agent层
└── Agent / MCP / Skills / agents.md
工程层
└── LangChain / Workflow / Function Calling
智能增强
└── Memory / Reasoning / ReAct
未来趋势
└── Multi-Agent / AI Native / Tool Use