基于文本内容比较的相似度检测工具
以下是一个完整的文件相似度检测函数实现,支持多种相似度算法和阈值判断:
import difflib from pathlib import path import re from collections import counter import math import string def are_files_similar( file1: str | path, file2: str | path, similarity_threshold: float = 0.8, method: str = "cosine" ) -> bool: """ 比较两个文件的相似度是否超过指定阈值 参数: file1: 第一个文件路径 file2: 第二个文件路径 similarity_threshold: 相似度阈值 (0-1) method: 相似度计算方法 'cosine' - 余弦相似度 (默认) 'jaccard' - jaccard相似度 'levenshtein' - 编辑距离相似度 'sequence' - 序列匹配相似度 返回: bool: 相似度是否超过阈值 """ # 读取文件内容 content1 = _read_file(file1) content2 = _read_file(file2) # 空文件处理 if not content1 and not content2: return true # 两个空文件视为相同 # 选择计算方法 if method == "cosine": similarity = _cosine_similarity(content1, content2) elif method == "jaccard": similarity = _jaccard_similarity(content1, content2) elif method == "levenshtein": similarity = _levenshtein_similarity(content1, content2) elif method == "sequence": similarity = _sequence_similarity(content1, content2) else: raise valueerror(f"未知的相似度计算方法: {method}") return similarity >= similarity_threshold def _read_file(file_path: str | path) -> str: """读取文件内容并进行预处理""" path = path(file_path) if not path.exists(): raise filenotfounderror(f"文件不存在: {path}") # 读取文件内容 try: with open(path, 'r', encoding='utf-8') as f: content = f.read() except unicodedecodeerror: # 尝试其他编码 with open(path, 'r', encoding='latin-1') as f: content = f.read() # 基础预处理 content = content.lower() content = re.sub(r'\s+', ' ', content) # 合并连续空白 return content.strip() def _cosine_similarity(text1: str, text2: str) -> float: """计算余弦相似度""" # 创建词频向量 vec1 = counter(_tokenize(text1)) vec2 = counter(_tokenize(text2)) # 获取所有唯一词 words = set(vec1.keys()) | set(vec2.keys()) # 创建向量 vector1 = [vec1.get(word, 0) for word in words] vector2 = [vec2.get(word, 0) for word in words] # 计算点积 dot_product = sum(v1 * v2 for v1, v2 in zip(vector1, vector2)) # 计算模长 magnitude1 = math.sqrt(sum(v**2 for v in vector1)) magnitude2 = math.sqrt(sum(v**2 for v in vector2)) # 避免除以零 if magnitude1 == 0 or magnitude2 == 0: return 0.0 return dot_product / (magnitude1 * magnitude2) def _jaccard_similarity(text1: str, text2: str) -> float: """计算jaccard相似度""" set1 = set(_tokenize(text1)) set2 = set(_tokenize(text2)) intersection = len(set1 & set2) union = len(set1 | set2) if union == 0: return 1.0 # 两个空集 return intersection / union def _levenshtein_similarity(text1: str, text2: str) -> float: """基于编辑距离的相似度""" # 计算编辑距离 n, m = len(text1), len(text2) if n == 0 or m == 0: return 0.0 # 创建距离矩阵 d = [[0] * (m + 1) for _ in range(n + 1)] # 初始化边界 for i in range(n + 1): d[i][0] = i for j in range(m + 1): d[0][j] = j # 计算距离 for i in range(1, n + 1): for j in range(1, m + 1): cost = 0 if text1[i - 1] == text2[j - 1] else 1 d[i][j] = min( d[i - 1][j] + 1, # 删除 d[i][j - 1] + 1, # 插入 d[i - 1][j - 1] + cost # 替换 ) distance = d[n][m] max_len = max(n, m) return 1 - (distance / max_len) def _sequence_similarity(text1: str, text2: str) -> float: """基于序列匹配的相似度""" matcher = difflib.sequencematcher(none, text1, text2) return matcher.ratio() def _tokenize(text: str) -> list[str]: """文本分词处理""" # 移除标点 text = text.translate(str.maketrans('', '', string.punctuation)) # 分词 return text.split()
一、使用示例
1. 基本使用
# 比较两个文件是否相似度超过80% result = are_files_similar("file1.txt", "file2.txt", 0.8) print(f"文件相似: {result}")
2. 使用不同算法
# 使用jaccard相似度 result = are_files_similar("doc1.md", "doc2.md", method="jaccard") # 使用编辑距离相似度 result = are_files_similar("code1.py", "code2.py", method="levenshtein")
3. 批量比较
def find_similar_files(directory, threshold=0.9): """查找目录中相似的文件对""" from itertools import combinations files = list(path(directory).glob("*")) similar_pairs = [] for file1, file2 in combinations(files, 2): if are_files_similar(file1, file2, threshold): similar_pairs.append((file1.name, file2.name)) return similar_pairs
二、功能特点
1. 多算法支持
算法 | 适用场景 | 特点 |
---|---|---|
余弦相似度 | 长文档、自然语言 | 考虑词频,忽略词序 |
jaccard相似度 | 短文本、关键词匹配 | 基于集合运算 |
编辑距离相似度 | 代码、配置文件 | 考虑字符级差异 |
序列匹配相似度 | 通用文本 | python内置算法 |
2. 预处理流程
- 统一小写
- 合并连续空白
- 移除标点符号(分词时)
- 标准化编码处理
3. 健壮性设计
- 自动处理文件编码问题
- 空文件特殊处理
- 除零保护
- 路径对象兼容
三、性能优化建议
1. 大文件处理
def _read_large_file(file_path: path) -> str: """分块读取大文件""" content = [] with open(file_path, 'r', encoding='utf-8', errors='ignore') as f: while true: chunk = f.read(65536) # 64kb块 if not chunk: break content.append(chunk.lower()) return ' '.join(content)
2. 内存优化版jaccard
def _jaccard_similarity_large(text1: str, text2: str) -> float: """适用于大文件的jaccard相似度""" # 使用最小哈希(minhash)近似计算 from datasketch import minhash # 创建minhash对象 m1 = minhash(num_perm=128) m2 = minhash(num_perm=128) # 添加词元 for word in set(_tokenize(text1)): m1.update(word.encode('utf-8')) for word in set(_tokenize(text2)): m2.update(word.encode('utf-8')) return m1.jaccard(m2)
3. 并行处理
from concurrent.futures import threadpoolexecutor def batch_compare(file_pairs, threshold=0.8): """并行批量比较文件""" results = {} with threadpoolexecutor() as executor: futures = { (pair[0].name, pair[1].name): executor.submit( are_files_similar, pair[0], pair[1], threshold ) for pair in file_pairs } for names, future in futures.items(): results[names] = future.result() return results
四、应用场景
1. 文档查重
def check_plagiarism(submitted_file, source_files, threshold=0.7): """检查文档抄袭""" for source in source_files: if are_files_similar(submitted_file, source, threshold): print(f"检测到与 {source} 相似") return true return false
2. 代码相似度检测
def detect_code_clones(repo_path): """检测代码库中的相似代码片段""" code_files = list(path(repo_path).rglob("*.py")) clones = [] for file1, file2 in combinations(code_files, 2): if are_files_similar(file1, file2, 0.85, method="levenshtein"): clones.append((file1, file2)) return clones
3. 文件版本比较
def find_most_similar_version(target_file, versions): """在多个版本中查找最相似的文件""" similarities = [] for version_file in versions: sim = are_files_similar(target_file, version_file, method="sequence") similarities.append((version_file, sim)) # 按相似度排序 return sorted(similarities, key=lambda x: x[1], reverse=true)[0]
五、测试用例
import unittest import tempfile class testfilesimilarity(unittest.testcase): def setup(self): # 创建临时文件 self.file1 = tempfile.namedtemporaryfile(delete=false, mode='w+') self.file2 = tempfile.namedtemporaryfile(delete=false, mode='w+') self.file3 = tempfile.namedtemporaryfile(delete=false, mode='w+') # 写入内容 self.file1.write("this is a test file for similarity comparison.") self.file2.write("this is a test file for similarity comparison.") self.file3.write("this is a completely different file content.") # 确保写入磁盘 self.file1.flush() self.file2.flush() self.file3.flush() def test_identical_files(self): self.asserttrue(are_files_similar(self.file1.name, self.file2.name)) def test_different_files(self): self.assertfalse(are_files_similar(self.file1.name, self.file3.name, 0.8)) def test_empty_files(self): with tempfile.namedtemporaryfile(mode='w+') as empty1, \ tempfile.namedtemporaryfile(mode='w+') as empty2: self.asserttrue(are_files_similar(empty1.name, empty2.name)) def test_various_methods(self): # 相同文件应所有方法都返回高相似度 self.assertalmostequal( are_files_similar(self.file1.name, self.file2.name, 0.0, "cosine"), 1.0, delta=0.01 ) self.assertalmostequal( are_files_similar(self.file1.name, self.file2.name, 0.0, "jaccard"), 1.0, delta=0.01 ) self.assertalmostequal( are_files_similar(self.file1.name, self.file2.name, 0.0, "levenshtein"), 1.0, delta=0.01 ) self.assertalmostequal( are_files_similar(self.file1.name, self.file2.name, 0.0, "sequence"), 1.0, delta=0.01 ) def teardown(self): # 清理临时文件 path(self.file1.name).unlink() path(self.file2.name).unlink() path(self.file3.name).unlink() if __name__ == "__main__": unittest.main()
总结
这个文件相似度检测函数提供了:
- 多种算法选择:余弦、jaccard、编辑距离、序列匹配
- 阈值判断:灵活设置相似度阈值
- 健壮性处理:编码处理、空文件处理
- 易用接口:支持字符串和path对象
使用示例:
# 基本使用 result = are_files_similar("file1.txt", "file2.txt", 0.75) # 指定算法 result = are_files_similar("doc1.md", "doc2.md", method="jaccard")
通过这个函数,您可以轻松实现:
- 文档查重系统
- 代码克隆检测
- 文件版本比较
- 内容相似度分析
以上就是基于python实现一个文件相似度检测工具的详细内容,更多关于python文件相似度检测的资料请关注代码网其它相关文章!
发表评论