Python 多模式字符串搜索 Aho-Corasick详解_Python

ahocorasick.automaton 是 python 中 pyahocorasick 库提供的一个类，用于实现 aho-corasick 自动机。aho-corasick 算法是一种用于精确或近似多模式字符串搜索的高效算法。

通过 pip install pyahocorasick 安装 pyahocorasick 库。
并且，该模块是用 c 编写的，安装时需要有 c 编译器来编译本机 cpython 扩展。

使用 ahocorasick.automaton 类的一般步骤如下：

导入 ahocorasick 库：import ahocorasick。
创建 automaton 对象：a = ahocorasick.automaton() 。
（可选）将字符串键及其关联值添加到自动机，可作为 trie 树使用。例如：

for idx, key in enumerate('heherhersshe'.split()):
    a.add_word(key, (idx, key))

调用 make_automaton() 方法完成并创建 aho-corasick 自动机：a.make_automaton() 。

创建好自动机后，可以使用以下主要方法进行搜索操作：

iter(string, (start, (end)))：使用提供的输入字符串执行 aho-corasick 搜索过程。它返回一个迭代器，为在字符串中找到的键返回元组 (end_index, value)，其中 end_index 是匹配结束的索引位置，value 是与匹配的键相关联的值。
iter_long(string, (start, (end)))：返回一个搜索最长、非重叠匹配的迭代器（automaton_search_iter_long 类的对象）。

以下是一个使用 ahocorasick.automaton 进行多模式字符串搜索的示例代码：

import ahocorasick as ah
a = ah.automaton()
with open('userdict.txt', 'r', encoding='utf-8') as f2:  # 加载文件
    keywords = (a.strip() for a in f2.readlines())  # 加载关键词
    # 利用 add_word 方法将关键词加入自动机！
    for x in range(len(keywords)):
        a.add_word(keywords[x], (x, keywords[x]))  # 第二个参数为自定义的返回值
# 创建 aho-corasick 自动机
a.make_automaton()
with open('jianjie.txt', 'r', encoding='utf-8') as f:  # 打开要检索文档
    jianjie = f.read()  # 读取正文（如果太多，可以分断加载，分段检索）
# 开始查找，该方法匹配最长的字符串
for item in a.iter_long(jianjie):
    print(item)
print('-' * 20)
# 开始查找，该方法匹配所有字符串
for item in a.iter(jianjie):
    print(item)

在上述示例中，首先创建了一个自动机对象 a，然后从文件中读取关键词，并使用 add_word 方法将关键词添加到自动机中。接着调用 make_automaton 方法创建 aho-corasick 自动机。最后，通过打开另一个文件读取要搜索的正文，并使用 iter_long 和 iter 方法进行匹配查找，并打印出匹配的结果。

aho-corasick 自动机的优点包括能够在一次运行中找到给定集合所有字符串，适用于多模式字符串匹配的场景，例如网络内容过滤、版权检测、病毒扫描等，在自然语言处理中查找特定词汇或模式，以及生物信息学中在 dna 或蛋白质序列分析中寻找特定的序列模式等方面都有应用。

到此这篇关于python 多模式字符串搜索 aho-corasick详解的文章就介绍到这了,更多相关python 多模式字符串搜索内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网！

使用python将一个文件分配到指定的多个文件夹

文件准备再dir文件夹中有如下一些子目录，子目录中没有任何文件这是di文件夹中的内容这是一张样本图片我要实现的功能就是通过代码将这个样板图片分配到dir中所有的文件夹下代码准备im…

2025年01月20日 • 前端脚本

一文带你理解Python中import机制与importlib的妙用

在python编程的世界里，import语句是开发者最常用的工具之一。它就像一把钥匙，打开了通往各种功能和库的大门。无论是标准库还是第三方库，import语句都... [阅读全文]

Python如何使用seleniumwire接管Chrome查看控制台中参数

1、cmd打开控制台，启动谷歌并制定端口号，找不到文件的加环境变量chrome.exe --remote-debugging-port=92222、获取f12控... [阅读全文]

使用Python将word中的图片进行导出功能

模块准备首先安装spire.doc这个库，win+r，键入cmd，输入此代码，待安装完成pip install spire.doc将要导出的wordword中有如下图片，我要将其进…

2025年01月21日 • 前端脚本

Python实现迅速获取文件的路径

文件准备如图我要获取get_path的绝对路径，以及下方mp3文件的绝对路径代码准备1.获取当前工作目录的绝对路径import os # 获取当前工作目录的绝对路径current_…

2025年01月21日 • 前端脚本

Python使用Selenium与pytest进行高效测试的示例详解

引言随着软件开发的快速发展，自动化测试成为了提高开发效率、降低错误率的重要工具。python作为一种高效且易于使用的编程语言，已经成为自动化测试领域的重要工具之... [阅读全文]


验证码：

验证码：

Python 多模式字符串搜索 Aho-Corasick详解

2025年01月20日 • Python •我要评论

相关文章:

使用python将一个文件分配到指定的多个文件夹

使用Python将word中的图片进行导出功能

Python实现迅速获取文件的路径

发表评论