基本原理
跳表:

jaccard相似度:

jaccard相似度的代码实现:

时间复杂度分析:

快速jaccard算法:

代码实现,这个要求两个集合都是有序的:

jaccard相似度算法的基本实现
算法:
package zdpgo_algorithm
// jaccard 计算两个数组之间的jaccard相似度
// @param arr1 数组1
// @param arr2 数组2
// @return float64 相似度
func jaccard[t number](arr1 []t, arr2 []t) float64 {
// 边界情况
if len(arr1) == 0 || len(arr2) == 0 {
return 0
}
// 将两个数组转换为字典
m1 := make(map[t]struct{}, len(arr1))
m2 := make(map[t]struct{}, len(arr2))
for _, v := range arr1 {
m1[v] = struct{}{}
}
for _, v := range arr2 {
m2[v] = struct{}{}
}
// 计算交集的元素个数
var count float64
for k, _ := range m1 {
if _, ok := m2[k]; ok {
count++
}
}
// 使用算法公式计算相似度
// 交集个数 / (集合1个数 + 集合2个数 - 交集个数)
// 由于结果是浮点数类型,需要手动将结果转换为浮点数类型
return count / float64(len(arr1)+len(arr2)-int(count))
}基本的测试代码:
package zdpgo_algorithm_test
import (
"github.com/zhangdapeng520/zdpgo_algorithm"
"testing"
)
func testjaccard_basic(t *testing.t) {
arr1 := []int{1, 2, 3, 4, 5}
arr2 := []int{4, 5, 6, 7}
t.log(zdpgo_algorithm.jaccard(arr1, arr2))
}基于有序数组的jaccard相似度算法实现
算法:
// jaccardsorted 用于两个有序数组的快速jaccard相似度算法
// 时间复杂度:o(n)
// @param arr1 数组1,要求是有序的
// @param arr2 数组2,要求是有序的
// @return float64 相似度
func jaccardsorted[t number](arr1 []t, arr2 []t) float64 {
if len(arr1) == 0 || len(arr2) == 0 {
return 0
}
// 求交集的个数
count := 0
for i, j := 0, 0; i < len(arr1) && j < len(arr2); {
// 两个有序的数组,只有其中的某个片段是连续相同的
if arr1[i] == arr2[j] {
// 这种情况说明重叠的部分已经出现了
count++
i++
j++
} else if arr1[i] < arr2[j] {
// 这种情况说明重叠的部分在arr1的后面,让arr1的索引往后递增
i++
} else {
// 这种情况说明重叠的部分在arr2的后面,让arr2的索引往后递增
j++
}
}
// 计算相似度
return float64(count) / float64(len(arr1)+len(arr2)-count)
}测试代码:
func testjaccardsorted_basic(t *testing.t) {
arr1 := []int{1, 2, 3, 4, 5}
arr2 := []int{4, 5, 6, 7}
t.log(zdpgo_algorithm.jaccardsorted(arr1, arr2))
}到此这篇关于如何使用go语言实现基于泛型的jaccard相似度算法的文章就介绍到这了,更多相关go语言jaccard相似度算法内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论