当前位置: 代码网 > it编程>游戏开发>ar > 大数据开发 NLP文本相似度

大数据开发 NLP文本相似度

2024年08月04日 ar 我要评论
5.
  • 相似文章

• 使用tf-idf算法,找出两篇文章的关键词;

• 每篇文章各取出若干个关键词,合并成一个集合,计算每篇文章对于这个集合

中的词的词频;

• 生成两篇文章各自的词频向量;

• 计算两个向量的余弦相似度,值越大就表示越相似。

  • 文章摘要

在这里插入图片描述

5.l c s 定 义

• 最长公共子序列(longest common subsequence)

• 一个序列s任意删除若干个字符得到的新序列t,则t叫做s的子序列

• 两个序列x和y的公共子序列中,长度最长的那个,定义为x和y的最长公共子序

– 字符串12455与245576的最长公共子序列为2455

– 字符串acdfg与adfc的最长公共子序列为adf

• 注意区别最长公共子串(longest common substring)

– 最长公共子串要求连接

l c s 作 用

• 求两个序列中最长的公共子序列算法

– 生物学家常利用该算法进行基因序列比对,以推测序列的结构、功能和演化过程。

• 描述两段文字之间的“相似度”

– 辨别抄袭,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列

外的部分提取出来,该方法判断修改的部分

求 解 — — 暴力穷举法

• 假定字符串x,y的长度分别为m,n;

• x的一个子序列即下标序列{1,2,……,m}严格递增子序列,因此,x共有2

m个

不同子序列;同理,y有2

n个不同子序列;

• 穷举搜索法时间复杂度o(2

m ∗ 2

n

);

• 对x的每一个子序列,检查它是否也是y的子序列,从而确定它是否为x和y的公

共子序列,并且在检查过程中选出最长的公共子序列;

• 复杂度高,不可用!

求 解 — — 动态规划法

• 字符串x,长度为m,从1开始数;

• 字符串y,长度为n,从1开始数;

• xi=<x1,……,xi>即x序列的前i个字符(1<=i<=m)(xi计作“字符串x的i前缀”)

• yi=<y1,……,yi>即y序列的前j个字符(1<=j<=n)(yj计作“字符串y的j前缀”)

• lcs(x,y)为字符串x和y的最长公共子序列,即为z=<z1,……,zk>
• 如果xm = yn(最后一个字符相同),则:x?与yn的最长公共子序列zk的最后一个字符必定为
xm(= yn)
• ?? = xm = yn
• lcs(x?, yn)=lcs(x?−1, yn−1)+x

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、oppo等大厂,18年进入阿里一直到现在。

深知大多数初中级android工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则近万的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年android移动开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

img

img

img

img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上android开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:android)

推荐学习资料


  • 脑图
    360°全方位性能调优

《android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,

img-whqpca9s-1711952122194)]

《android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com