第05课：面向非结构化数据转换的词袋和词向量模型_Nosql

通过前面几个小节的学习，我们现在已经学会了如何获取文本预料，然后分词，在分词之后的结果上，我们可以提取文本的关键词查看文本核心思想，进而可以通过可视化技术把文档从视觉的角度表达出来。

下面，我们来看看，文本数据如何转换成计算机能够计算的数据。这里介绍两种常用的模型：词袋和词向量模型。

先来看张图，从视觉上感受一下词袋模型的样子。

enter image description here

词袋模型看起来好像一个口袋把所有词都装进去，但却不完全如此。在自然语言处理和信息检索中作为一种简单假设，词袋模型把文本（段落或者文档）被看作是无序的词汇集合，忽略语法甚至是单词的顺序，把每一个单词都进行统计，同时计算每个单词出现的次数，常常被用在文本分类中，如贝叶斯算法、lda 和 lsa 等。

（1）词袋模型

本例中，我们自己动手写代码看看词袋模型是如何操作的。

首先，引入 jieba 分词器、语料和停用词（标点符号集合，自己可以手动添加或者用一个文本字典代替）。

    import jieba
    #定义停用词、标点符号
    punctuation = ["，","。", "：", "；", "？"]

了解ES，倒排索引，文档和字段，索引和映射，索引库操作，文档操作，RestAPI，RestClient操作文档…

2024年08月02日 • 数据库

学习mongodb，体会mongodb的每一个使用细节，欢迎阅读威赞的文章。这是威赞发布的第92篇mongodb技术文章，欢迎浏览本专栏威赞发布的其他文章。如果... [阅读全文]

学习mongodb，体会mongodb的每一个使用细节，欢迎阅读威赞的文章。这是威赞发布的第93篇mongodb技术文章，欢迎浏览本专栏威赞发布的其他文章。如果您认为我的文章对您有…

2024年09月07日 • 数据库

学习mongodb，体会mongodb的每一个使用细节，欢迎阅读威赞的文章。这是威赞发布的第89篇mongodb技术文章，欢迎浏览本专栏威赞发布的其他文章。如果... [阅读全文]

虽然mongodb这些年很流行，但笔者之前没研究过，现在有需求研究这类nosql的数据库，是为了验证其是否可被替换。mongodb是很轻量的文档数据库，简单测试... [阅读全文]


验证码：

验证码：

第05课：面向非结构化数据转换的词袋和词向量模型