混合相似度算法

DDD

发布时间：2025-01-21 23:24:23

708人浏览过

来源于php中文网

原创

混合相似度算法

混合相似度算法详解

本文深入探讨基于定制神经网络的混合相似度 (hybridsimilarity) 算法，该算法用于衡量两段文本间的相似性。此混合模型巧妙地融合了词汇、语音、语义和句法相似性，从而得到一个更全面的相似度评分。

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sentence_transformers import SentenceTransformer
from Levenshtein import ratio as levenshtein_ratio
from phonetics import metaphone
import torch
import torch.nn as nn

class HybridSimilarity(nn.Module):
    def __init__(self):
        super().__init__()
        self.bert = SentenceTransformer('all-MiniLM-L6-v2')
        self.tfidf = TfidfVectorizer()
        self.attention = nn.MultiheadAttention(embed_dim=384, num_heads=4)
        self.fc = nn.Sequential(
            nn.Linear(1152, 256),
            nn.ReLU(),
            nn.LayerNorm(256),
            nn.Linear(256, 1),
            nn.Sigmoid()
        )

    def _extract_features(self, text1, text2):
        # 多维度特征提取
        features = {}

        # 词汇相似度
        features['levenshtein'] = levenshtein_ratio(text1, text2)
        features['jaccard'] = len(set(text1.split()) & set(text2.split())) / len(set(text1.split()) | set(text2.split()))

        # 语音相似度
        features['metaphone'] = 1.0 if metaphone(text1) == metaphone(text2) else 0.0

        # 语义嵌入 (BERT)
        emb1 = self.bert.encode(text1, convert_to_tensor=True)
        emb2 = self.bert.encode(text2, convert_to_tensor=True)
        features['semantic_cosine'] = nn.CosineSimilarity()(emb1, emb2).item()

        # 句法相似度 (LSA-TFIDF)
        tfidf_matrix = self.tfidf.fit_transform([text1, text2])
        svd = TruncatedSVD(n_components=1)
        lsa = svd.fit_transform(tfidf_matrix)
        features['lsa_cosine'] = np.dot(lsa[0], lsa[1].T)[0][0]

        # 注意力机制
        att_output, _ = self.attention(
            emb1.unsqueeze(0).unsqueeze(0),
            emb2.unsqueeze(0).unsqueeze(0),
            emb2.unsqueeze(0).unsqueeze(0)
        )
        features['attention_score'] = att_output.mean().item()

        return torch.tensor(list(features.values())).unsqueeze(0)

    def forward(self, text1, text2):
        features = self._extract_features(text1, text2)
        return self.fc(features).item()

def calculate_similarity(text1, text2):
    model = HybridSimilarity()
    return model(text1, text2)

核心组件

hybridsimilarity 模型整合了以下库和技术：

SentenceTransformer: 用于生成语义嵌入的预训练Transformer模型。
Levenshtein ratio: 计算词汇相似度。
Metaphone: 用于语音相似性分析。
TF-IDF 和 TruncatedSVD: 通过潜在语义分析 (LSA) 实现句法相似性。
PyTorch: 用于构建包含注意力机制和全连接层的自定义神经网络。

步骤详解

1. 模型初始化

HybridSimilarity 类继承自 nn.Module，并初始化：

基于 BERT 的句子嵌入模型 (all-MiniLM-L6-v2)。
用于文本向量化的 TF-IDF 向量化器。
多头注意力机制，用于捕捉文本对间的相互依赖关系。
全连接神经网络，用于聚合特征并生成最终的相似度得分。

self.bert = SentenceTransformer('all-MiniLM-L6-v2')
self.tfidf = TfidfVectorizer()
self.attention = nn.MultiheadAttention(embed_dim=384, num_heads=4)
self.fc = nn.Sequential(
    nn.Linear(1152, 256),
    nn.ReLU(),
    nn.LayerNorm(256),
    nn.Linear(256, 1),
    nn.Sigmoid()
)

2. 特征提取

_extract_features 方法计算多种相似性特征：

词汇相似度:
- 编辑距离 (Levenshtein ratio): 衡量将一个文本转换为另一个文本所需的字符级编辑次数。
- Jaccard 指标: 比较两个文本中唯一词集的重叠程度。
语音相似度:
- 元音素编码 (Metaphone): 检查两个文本的语音表示是否一致。
语义相似度:

起航点卡销售系统
欢迎使用“起航点卡销售系统”销售程序：一、系统优势 1、售卡系统采取了会员与非会员相结合的销售方法，客户无需注册即可购卡，亦可注册会员购卡。 2、购卡速度快，整个购卡或过程只需二步即可取卡，让客户感受超快的取卡方式！ 3、批量加卡功能。 4、取卡方式：网上支付，即时取卡，30秒可完成交易。 5、加密方式：MD5 32位不可倒推加密 6、防止跨站

下载
- 使用 BERT 生成句子嵌入，并计算其余弦相似度。
句法相似度:
- 使用 TF-IDF 向量化文本，并通过 TruncatedSVD 应用潜在语义分析 (LSA)。
注意力机制:
- 将多头注意力机制应用于嵌入，并使用平均注意力分数作为特征。

3. 神经网络聚合

提取的特征被连接起来，并通过全连接神经网络进行处理。网络预测 0 到 1 之间的相似度分数。

4. 用法示例

calculate_similarity 函数初始化模型并计算两个输入文本间的相似度。

text_a = "The quick brown fox jumps over the lazy dog"
text_b = "A fast brown fox leaps over a sleepy hound"

print(f"Similarity coefficient: {calculate_similarity(text_a, text_b):.4f}")

该函数调用 HybridSimilarity 模型并输出一个介于 0（完全不相似）和 1（完全相同）之间的浮点数，表示相似度得分。