当前位置: 代码网 > it编程>数据库>Nosql > 第05课:面向非结构化数据转换的词袋和词向量模型

第05课:面向非结构化数据转换的词袋和词向量模型

2024年08月06日 Nosql 我要评论
通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词查看文本核心思想,进而可以通过可视化技术把文档从视觉的角度表达出来。 下面,我们来看看,文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型:词袋和词向量模型。 词袋模型(Bag of Words Model) 词袋模型的概念 先来看张图,从视觉上感受一下词袋模型的样子。 词袋模型看起来好像一个...

通过前面几个小节的学习,我们现在已经学会了如何获取文本预料,然后分词,在分词之后的结果上,我们可以提取文本的关键词查看文本核心思想,进而可以通过可视化技术把文档从视觉的角度表达出来。

下面,我们来看看,文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型:词袋和词向量模型。

词袋模型(bag of words model)

词袋模型的概念

先来看张图,从视觉上感受一下词袋模型的样子。

enter image description here

词袋模型看起来好像一个口袋把所有词都装进去,但却不完全如此。在自然语言处理和信息检索中作为一种简单假设,词袋模型把文本(段落或者文档)被看作是无序的词汇集合,忽略语法甚至是单词的顺序,把每一个单词都进行统计,同时计算每个单词出现的次数,常常被用在文本分类中,如贝叶斯算法、lda 和 lsa 等。

动手实战词袋模型

(1)词袋模型

本例中,我们自己动手写代码看看词袋模型是如何操作的。

首先,引入 jieba 分词器、语料和停用词(标点符号集合,自己可以手动添加或者用一个文本字典代替)。

    import jieba
    #定义停用词、标点符号
    punctuation = [",","。", ":", ";", "?"]
   
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com