0

0

Langchain FAISS相似度计算深度解析:理解距离度量与嵌入模型的影响

心靈之曲

心靈之曲

发布时间:2025-07-30 22:24:18

|

636人浏览过

|

来源于php中文网

原创

Langchain FAISS相似度计算深度解析:理解距离度量与嵌入模型的影响

本文深入探讨了Langchain中FAISS向量数据库进行相似度计算时,L2距离与余弦相似度的差异及其对结果的影响。通过案例分析,阐述了即使文本完全相同,不同嵌入模型(如BGE与OpenAI)可能导致L2距离不为零的原因,并提供了优化建议,帮助开发者更准确地理解和应用向量相似度搜索。

在构建基于向量相似度搜索的rag(retrieval-augmented generation)系统时,选择合适的向量数据库和嵌入模型至关重要。然而,开发者在使用langchain结合faiss和特定嵌入模型(如bge)时,可能会遇到一个常见困惑:即使查询文本与向量库中存储的文本完全一致,similarity_search_with_score()方法返回的“相似度分数”却并非预期的完美匹配值(如余弦相似度为1.0或l2距离为0.0),而是出现一个非零值(例如0.9)。这通常源于对faiss内部距离度量方式的误解以及嵌入模型特性带来的细微差异。

FAISS与距离度量:L2距离的奥秘

FAISS(Facebook AI Similarity Search)是一个高效的相似度搜索库,它底层主要基于L2距离(欧几里得距离)进行向量间的相似度计算。L2距离衡量的是多维空间中两点之间的直线距离。

  • L2距离的特点:
    • 值越小,表示两个向量越相似。
    • 当两个向量完全相同时,L2距离为0,这是理论上的最佳匹配。
    • L2距离没有上限,但对于单位向量(长度为1的向量),其最大L2距离为2(当两个向量方向完全相反时)。

与L2距离相对的是余弦相似度(Cosine Similarity),它衡量的是两个向量在方向上的接近程度,与向量的长度无关。

  • 余弦相似度的特点:
    • 值越大,表示两个向量越相似。
    • 范围在-1到1之间。
    • 1表示方向完全相同(完美匹配)。
    • -1表示方向完全相反。
    • 0表示相互正交(不相关)。

当嵌入向量被标准化(即归一化为单位向量)后,L2距离和余弦相似度之间存在直接的数学关系: L2_distance^2 = 2 * (1 - cosine_similarity) 这意味着,如果余弦相似度为1.0(完美匹配),则L2距离为0.0。反之,如果L2距离为0.0,则余弦相似度为1.0。

Langchain的FAISS.similarity_search_with_score()方法在与FAISS交互时,其返回的score通常就是FAISS计算出的原始L2距离。因此,当我们期望一个“完美匹配”时,L2距离应趋近于0。

嵌入模型与标准化:BGE与OpenAI的实践

不同的嵌入模型在生成向量时具有各自的特性,这可能会影响到完全相同文本的嵌入向量是否能做到“完美一致”。

案例一:使用BGE模型

考虑使用BAAI/bge-large-zh-v1.5模型作为嵌入器,并设置normalize_embeddings=True进行向量标准化。

Civitai
Civitai

AI艺术分享平台!海量SD资源和开源模型。

下载
from langchain.embeddings import HuggingFaceBgeEmbeddings
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document

# 1. 初始化BGE嵌入模型
model_name = "BAAI/bge-large-zh-v1.5"
model_kwargs = {'device': 'cuda'} # 或 'cpu'
encode_kwargs = {'normalize_embeddings': True} # 设置为True以归一化嵌入向量

bge_model = HuggingFaceBgeEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
    cache_folder="../model/", # 模型缓存路径
)

# 2. 创建或加载FAISS向量库
# 假设我们已经有一个包含 '无纸化发送失败?' 的FAISS数据库
# 为了演示,我们先创建一个简单的数据库
docs = [Document(page_content='无纸化发送失败?'), Document(page_content='凭证打包失败?')]
# 在实际应用中,db可能从文件加载:db = FAISS.load_local('../dataset/bge_faiss_db', embeddings=bge_model, index_name='index')
db_bge = FAISS.from_documents(docs, bge_model)

# 3. 执行相似度搜索
query = '无纸化发送失败?'
res_bge = db_bge.similarity_search_with_score(query, k=3)

print("BGE模型搜索结果 (L2距离):")
print(res_bge)

预期结果分析: 在上述BGE模型的案例中,即使查询文本与文档内容完全相同,用户观察到的L2距离为0.9069208。这个值对于一个理论上应该为0的完美匹配来说,显得异常高。这可能由以下原因导致:

  1. 浮点数精度问题: 计算机处理浮点数时存在精度限制。即使文本完全相同,经过复杂的神经网络模型(如BGE)生成向量,再进行浮点运算和存储,最终的向量表示可能存在极其微小的差异,导致L2距离不为0。
  2. 模型特性: 某些嵌入模型可能在生成完全相同文本的嵌入时,其内部状态或随机性导致了微小的非确定性差异。尽管对于主流模型来说,这通常不是一个显著问题,但不能完全排除。
  3. Langchain或FAISS的内部处理: 尽管可能性较低,但Langchain的封装或FAISS在处理特定数据类型时,也可能引入微小的数值偏差。

案例二:使用OpenAI模型

作为对比,我们来看使用OpenAI Embeddings时的表现。OpenAI Embeddings在处理相同文本时,通常能保证生成完全相同的向量,从而使得L2距离为0。

from langchain.document_loaders import TextLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.docstore.document import Document

# 1. 初始化OpenAI嵌入模型
# 确保已设置OPENAI_API_KEY环境变量
embeddings_openai = OpenAIEmbeddings()

# 2. 创建一个包含测试文本的FAISS向量库
# 假设我们有一个text.txt文件,内容为 '无纸化发送失败?'
# 为了演示,我们直接创建文档对象
docs_openai = [Document(page_content='无纸化发送失败?')]
db_openai = FAISS.from_documents(docs_openai, embeddings_openai)

# 3. 执行相似度搜索
query_openai = '无纸化发送失败?'
res_openai = db_openai.similarity_search_with_score(query_openai, k=3)

print("\nOpenAI模型搜索结果 (L2距离):")
print(res_openai)

# 4. 尝试一个略微不同的查询
query_openai_slight_diff = '纸化发送失败?'
res_openai_slight_diff = db_openai.similarity_search_with_score(query_openai_slight_diff, k=3)

print("\nOpenAI模型搜索结果 (略微不同查询的L2距离):")
print(res_openai_slight_diff)

预期结果分析: 使用OpenAI Embeddings时,对于完全相同的查询,L2距离通常为0.0。而对于略有差异的查询,L2距离会是一个较小的非零值(例如0.08518691),这符合L2距离的定义和预期行为。

潜在原因与优化建议

从上述对比中可以看出,BGE模型在特定场景下为完全相同的文本返回了非零的L2距离,而OpenAI模型则返回了0.0。这表明问题可能出在BGE模型本身生成的向量的精确度或一致性上。

  1. FAISS的距离度量: 再次强调,FAISS默认使用L2距离,0代表完美匹配。当similarity_search_with_score返回一个非零值时,它表示的是距离,而不是一个接近1.0的“相似度分数”。
  2. 嵌入向量的微小差异: 即使是完全相同的文本,在经过嵌入模型处理并存储后,由于浮点数精度、模型内部计算细节(如批处理、并行计算、硬件加速器差异)或序列化/反序列化过程,生成的向量可能存在极其微小的差异。对于BGE模型,这种差异在用户观察到的0.9中体现出来,意味着实际存储的向量与查询向量存在较为明显的L2距离。
  3. 模型选择的影响: 不同嵌入模型在处理文本生成向量时的稳定性、精度和特性不同。某些模型(如OpenAI Embeddings)在处理完全相同文本时,其生成的向量能确保L2距离为0,表现出更高的“一致性”和鲁棒性。
  4. 标准化(Normalization)的作用: normalize_embeddings=True确实会将向量归一化为单位向量,这使得L2距离与余弦相似度之间存在数学关系。然而,它并不能完全消除因上述原因导致的微小差异。

优化建议:

  • 评估不同嵌入模型: 如果对精确匹配(L2距离为0)有严格要求,建议尝试其他主流的嵌入模型,特别是那些在一致性方面表现良好的模型,如OpenAI Embeddings,或经过广泛验证的其他开源模型(如Sentence-Transformers库中的其他模型)。
  • 设置合理的相似度阈值: 鉴于可能存在的非零距离,在实际应用中,不应严格期望L2距离为0。应根据所选模型和实际数据,通过实验确定一个合适的相似度(或距离)阈值。例如,如果L2距离在0到0.1之间都可视为高度相似,那么0.9的距离显然过大,需要进一步排查。但如果0.9是特定模型下“最相似”的距离,则需重新评估阈值。
  • 检查数据处理流程: 确保文本在嵌入前后的处理(如编码、去除空白符、大小写转换等)保持一致。任何细微的文本差异都可能导致嵌入向量的不同。
  • 模型版本与更新: 确保使用的嵌入模型是最新版本,有时模型更新会修复这类一致性问题。

总结

在Langchain与FAISS进行相似度搜索时,理解FAISS默认使用L2距离至关重要。对于完全相同的文本,理想的L2距离应为0。如果遇到非零距离,尤其是一个相对较大的值(如0.9),这通常不是Langchain或FAISS的错误,而是嵌入模型在处理相同文本时未能生成完全一致的向量,或存在浮点数精度问题。通过尝试不同的嵌入模型,并根据实际情况调整相似度阈值,可以更好地解决这类问题,从而构建出更健壮、更符合预期的向量相似度搜索系统。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

216

2025.10.31

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

335

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2068

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

346

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

251

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

321

2023.10.09

数据库对象名无效怎么解决
数据库对象名无效怎么解决

数据库对象名无效解决办法:1、检查使用的对象名是否正确,确保没有拼写错误;2、检查数据库中是否已存在具有相同名称的对象,如果是,请更改对象名为一个不同的名称,然后重新创建;3、确保在连接数据库时使用了正确的用户名、密码和数据库名称;4、尝试重启数据库服务,然后再次尝试创建或使用对象;5、尝试更新驱动程序,然后再次尝试创建或使用对象。

402

2023.10.16

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

74

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.2万人学习

React中文开发手册
React中文开发手册

共0课时 | 0人学习

react快速入门
react快速入门

共14课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号