Embedding向量化入门

更新: 5/19/2026字数: 0 字时长: 0 分钟

Embedding 是把文本、图片、音频等内容转换成一组数字向量的技术。向量之间的距离可以表示语义相似度，因此它是语义搜索、推荐系统、聚类分析、RAG 知识库的基础。

OpenAI 官方文档把 Embedding 描述为把文本转换为数字，从而支持搜索、聚类等任务。

一、先用一个例子理解

有三句话：

text

A：我想买一台适合编程的笔记本电脑
B：推荐一款开发用的电脑
C：今晚吃什么比较好

关键词上，A 和 B 并不完全一样；语义上，A 和 B 很接近，C 离它们很远。

Embedding 会把它们变成向量：

text

A → [0.12, -0.45, 0.87, ...]
B → [0.10, -0.41, 0.83, ...]
C → [-0.76, 0.18, 0.09, ...]

然后通过相似度计算判断：

text

相似度(A, B) > 相似度(A, C)

二、Embedding 在系统里的位置

在 RAG 中，文档和用户问题都会被转成向量。系统通过向量距离找到语义最接近的文档片段。

三、核心概念

概念	解释	例子
向量	一组数字，表示内容的语义特征	`[0.12, -0.45, ...]`
维度	向量中数字的数量	1536 维、3072 维
相似度	衡量两个向量是否接近	余弦相似度
TopK	返回最相似的前 K 条	Top5 文档片段
元数据	和向量一起保存的业务信息	标题、来源、权限、时间

四、常见相似度算法

4.1 余弦相似度

看两个向量方向是否接近，常用于文本语义相似度。

text

cosine(A, B) 越接近 1，表示越相似

4.2 点积

常用于经过归一化的向量，计算速度快。

4.3 欧氏距离

看两个向量在空间中的距离，距离越短越相似。

实际项目中，不一定要自己实现这些算法，向量数据库通常已经提供。

五、Embedding 能做什么

5.1 语义搜索

用户搜索“报销规则”，系统可以找到：

差旅费用审批制度
发票提交要求
补贴标准说明

即使文档标题没有出现“报销规则”四个字，也可以被召回。

5.2 相似内容推荐

文章、商品、课程、用户画像都可以向量化，然后做相似推荐。

5.3 文档去重

判断两篇文档是否高度相似，避免知识库里出现大量重复内容。

5.4 聚类分析

把大量用户反馈按语义聚成几类，辅助产品分析。

六、工程实践怎么做

6.1 文档入库

6.2 查询检索

七、常见坑

7.1 不保存原文

只保存向量是不够的。向量用于检索，原文用于回答和追溯。

7.2 不保存元数据

至少保存：

文档标题
原始链接
更新时间
所属业务
权限范围
切片序号

7.3 混用不同模型

同一个向量库里尽量不要混用不同 Embedding 模型生成的向量，否则相似度空间不一致。

7.4 只看 TopK，不看质量

TopK 返回了结果不代表结果正确。要抽样检查召回片段是否真的能回答问题。

八、延伸阅读

一句话总结：

Embedding 是 AI 系统理解“语义相似”的基础设施。

Embedding向量化入门 ​

一、先用一个例子理解 ​

二、Embedding 在系统里的位置 ​

三、核心概念 ​

四、常见相似度算法 ​

4.1 余弦相似度 ​

4.2 点积 ​

4.3 欧氏距离 ​

五、Embedding 能做什么 ​

5.1 语义搜索 ​

5.2 相似内容推荐 ​

5.3 文档去重 ​

5.4 聚类分析 ​

六、工程实践怎么做 ​

6.1 文档入库 ​

6.2 查询检索 ​

七、常见坑 ​

7.1 不保存原文 ​

7.2 不保存元数据 ​

7.3 混用不同模型 ​

7.4 只看 TopK，不看质量 ​

八、延伸阅读 ​

Embedding向量化入门

一、先用一个例子理解

二、Embedding 在系统里的位置

三、核心概念

四、常见相似度算法

4.1 余弦相似度

4.2 点积

4.3 欧氏距离

五、Embedding 能做什么

5.1 语义搜索

5.2 相似内容推荐

5.3 文档去重

5.4 聚类分析

六、工程实践怎么做

6.1 文档入库

6.2 查询检索

七、常见坑

7.1 不保存原文

7.2 不保存元数据

7.3 混用不同模型

7.4 只看 TopK，不看质量

八、延伸阅读