Python实现常用文本内容提取_Python

一、引言

在日常工作和学习中，我们经常需要从pdf、word文档中提取文本，例如为了数据分析和文本处理等。如果手动进行这些操作，不仅费时费力，而且容易出错。因此，编写一个文本内容提取变得尤为重要。本文将介绍如何使用python编写一个文本内容提取，该工具可以从pdf、word文档中提取文本。

二、文本内容提取的原理

文本内容提取的核心原理是遍历指定目录下的所有文件，根据文件类型（pdf或word）使用相应的库提取文本，然后将提取的文本保存到指定目录。在这个过程中，我们需要考虑以下几个问题：

如何遍历指定目录下的所有文件？

如何根据文件类型提取文本？

如何保存提取的文本？

接下来，我们将分别介绍这三个问题的解决方案。

三、文本内容提取的设计

在设计文本内容提取时，我们需要考虑以下几个方面的内容：

用户界面：为了方便用户使用，我们可以设计一个简单的命令行界面，让用户可以输入目录、输出目录等参数。

文件遍历：我们需要编写一个文件遍历，用于遍历指定目录下的所有文件。

文本提取：我们需要编写一个文本提取，用于根据文件类型提取文本。

文本保存：我们需要编写一个文本保存，用于将提取的文本保存到指定目录。

四、文本内容提取的实现

接下来，我们将详细介绍文本内容提取的实现过程。为了方便起见，我们将使用python编写这个工具。

1.用户界面

我们可以使用python的argparse库来设计一个简单的命令行界面。界面包括以下几个部分：

目录参数：让用户指定需要提取文本的文件所在的目录。

输出目录参数：让用户指定提取的文本保存到的目录。

2.文件遍历

我们可以使用python的os库来遍历指定目录下的所有文件。具体实现如下：

import os
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list

3.文本提取

对于pdf文件，我们可以使用python的pypdf2库来提取文本。具体实现如下：

import pypdf2
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = pypdf2.pdffilereader(file)
        for page_num in range(pdf_reader.numpages):
            page = pdf_reader.getpage(page_num)
            text = page.extracttext()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)

对于word文档，我们可以使用python的python-docx库来提取文本。具体实现如下：

from docx import document
def extract_text_from_docx(docx_path, output_path):
    doc = document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))

4.文本保存

我们可以使用python的os.path.join()函数来保存提取的文本。具体实现如下：

import os
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)

五、完整代码示例

import argparse
import os
import pypdf2
from docx import document
def traverse_dir(dir_path):
    file_list = []
    for root, dirs, files in os.walk(dir_path):
        for file in files:
            file_list.append(os.path.join(root, file))
    return file_list
def extract_text_from_pdf(pdf_path, output_path):
    with open(pdf_path, 'rb') as file:
        pdf_reader = pypdf2.pdffilereader(file)
        for page_num in range(pdf_reader.numpages):
            page = pdf_reader.getpage(page_num)
            text = page.extracttext()
            with open(output_path, 'a', encoding='utf-8') as output_file:
                output_file.write(text)
def extract_text_from_docx(docx_path, output_path):
    doc = document(docx_path)
    text = []
    for para in doc.paragraphs:
        text.append(para.text)
    with open(output_path, 'a', encoding='utf-8') as output_file:
        output_file.write('\n'.join(text))
def save_text(text, output_path):
    with open(output_path, 'w', encoding='utf-8') as output_file:
        output_file.write(text)
def main():
    parser = argparse.argumentparser(description="文本内容提取")
    parser.add_argument("directory", help="指定目录")
    parser.add_argument("output_directory", help="指定输出目录")
    args = parser.parse_args()
    dir_path = args.directory
    output_dir = args.output_directory
    file_list = traverse_dir(dir_path)
    for file_path in file_list:
        if file_path.lower().endswith(('.pdf')):
            extract_text_from_pdf(file_path, output_dir)
        elif file_path.lower().endswith(('.docx', '.doc')):
            extract_text_from_docx(file_path, output_dir)
if __name__ == "__main__":
    main()

以上就是python实现常用文本内容提取的详细内容，更多关于python文本内容提取的资料请关注代码网其它相关文章！