Python中计算相似度的方法详解_Python

计算相似度是许多机器学习和数据分析任务中的重要步骤，尤其是在推荐系统、文本分析和图像处理等领域。相似度的计算有多种方法，每种方法适用于不同类型的数据。本文将探讨如何在 python 中计算相似度，提供示例代码，并使用流程图和旅行图来表述我们的思路。

1. 相似度计算的基本概念

相似度是用来量化对象之间的相似程度的指标。相似度通常取值在 0 到 1 之间，值越接近 1 表示越相似。常见的相似度计算方法包括：

余弦相似度(cosine similarity)
欧氏距离(euclidean distance)
曼哈顿距离(manhattan distance)
杰卡德相似度(jaccard similarity)

2. 余弦相似度

余弦相似度是一种衡量两个非零向量夹角的相似度，计算公式为：

[ \text{cosine_similarity} = \frac{a \cdot b}{|a| |b|} ]

import numpy as np

def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

# 示例
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])
similarity = cosine_similarity(vector_a, vector_b)
print(f'余弦相似度: {similarity}')

3. 欧氏距离

欧氏距离是计算两点之间的“直线”距离，计算公式为：

[ \text{euclidean distance} = \sqrt{\sum (a_i - b_i)^2} ]

示例代码

from scipy.spatial import distance

def euclidean_distance(a, b):
    return distance.euclidean(a, b)

# 示例
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])
dist = euclidean_distance(vector_a, vector_b)
print(f'欧氏距离: {dist}')

4. 曼哈顿距离

曼哈顿距离计算两点在坐标轴上各分量的绝对差值的总和，计算公式为：

[ \text{manhattan distance} = \sum |a_i - b_i| ]

示例代码

def manhattan_distance(a, b):
    return np.sum(np.abs(a - b))# 示例
vector_a = np.array([1, 2, 3])


vector_b = np.array([4, 5, 6])
dist = manhattan_distance(vector_a, vector_b)
print(f'曼哈顿距离: {dist}')

5. 杰卡德相似度

杰卡德相似度用于测量有限样本集合之间的相似性，计算公式为：

[ \text{jaccard similarity} = \frac{|a \cap b|}{|a \cup b|} ]

示例代码

def jaccard_similarity(set_a, set_b):
    intersection = len(set_a.intersection(set_b))
    union = len(set_a.union(set_b))
    return intersection / union

# 示例
set_a = {1, 2, 3}
set_b = {3, 4, 5}
similarity = jaccard_similarity(set_a, set_b)
print(f'杰卡德相似度: {similarity}')

6. 流程分析

计算相似度的基本流程如下：

7. 旅行图

在数据分析的旅程中，我们可以将每个步骤视为旅途中的一个环节，以下是我们的数据计算之旅：

到此这篇关于python中计算相似度的方法详解的文章就介绍到这了,更多相关python计算相似度内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

在paddle中安装python-bidi出错问题及解决

在paddle中安装python-bidi出错翻看网上解决方式，是由于系统中缺少 rust 及其包管理器 cargo。python-bidi 依赖 rust 来... [阅读全文]

基于Python实现多人聊天室的示例代码

本文主要为大家介绍一下如何实现一个多人聊天室（server+client），感兴趣的小伙伴可以了解下效果图通过本地服务器以用户名登录实现关键代码支持群聊和私聊s... [阅读全文]

Python实现根据Excel表格某一列内容与数据库进行匹配

以下是一个基于python、使用pandas库和brightway2库实现根据excel表格某一列内容与数据库进行匹配，然后抓取匹配成功的数据并导出为新exce... [阅读全文]

使用Python进行自动化数据爬取与存储

一、准备阶段：确定目标与安装工具1. 确定目标网站数据爬取的第一步是明确你想要获取数据的网站。假设你对某个电商平台的商品价格感兴趣，那么该平台就是你的目标网站。... [阅读全文]

在Windows中安装Spire.XLS for Python的操作指南

如何在 windows 中安装 spire.xls for python步骤1下载最新版的 python并将其安装到您的电脑中。如果已经安装，请跳至步骤 2。步骤2点击 vs co…

2025年02月20日 • 前端脚本

Python如何实现播放本地音乐并在web页面播放

前言环境：python问题描述：python如何播放本地音乐并在web页面播放解决方案：要在 python 中播放本地音乐并在 web 页面中播放，您可以采用两... [阅读全文]


验证码：

验证码：

Python中计算相似度的方法详解

2025年02月19日 • Python •我要评论

1. 相似度计算的基本概念

2. 余弦相似度

3. 欧氏距离

4. 曼哈顿距离

5. 杰卡德相似度

6. 流程分析

7. 旅行图

相关文章:

在Windows中安装Spire.XLS for Python的操作指南

发表评论