Python使用pdfminer库玩转PDF文本提取_Python

一、背景

在日常工作中，我们常常需要处理pdf文件，比如提取文本内容、分析文档结构等。然而，pdf文件的格式复杂，直接提取信息并非易事。pdfminer库应运而生，它能够高效地解析pdf文件，提取文本、元数据、表格等信息，帮助我们轻松应对各种pdf处理需求。接下来，让我们深入了解这个强大的工具。

二、什么是pdfminer

pdfminer是一个开源的python第三方库，专门用于解析pdf文件。它提供了丰富的api，可以精确提取文本、分析页面布局、提取元数据等。它的核心功能是将pdf文件的内容转换为可操作的文本数据，方便进一步处理和分析。

三、如何安装pdfminer

pdfminer是一个第三方库，可以通过以下命令行安装：

pip install pdfminer.six

安装完成后，可以通过以下命令确认安装是否成功：

python -c "import pdfminer; print(pdfminer.__version__)"

如果能够正常输出版本号，说明安装成功。

四、简单库函数使用方法

以下是pdfminer中常用的五个函数及其使用方法：

1. 提取文本

from pdfminer.high_level import extract_text

text = extract_text("example.pdf")
print(text)

extract_text函数用于从pdf文件中提取全部文本。

2. 获取页面布局信息

from pdfminer.layout import laparams, lttextbox, lttextline
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter
from pdfminer.converter import pdfpageaggregator

resource_manager = pdfresourcemanager()
fake_file_handle = io.stringio()
converter = pdfpageaggregator(resource_manager, laparams=laparams())
page_interpreter = pdfpageinterpreter(resource_manager, converter)

with open("example.pdf", "rb") as pdf_file:
    for page in pdfpage.get_pages(pdf_file):
        page_interpreter.process_page(page)
        layout = converter.get_result()
        for lt_obj in layout:
            if isinstance(lt_obj, (lttextbox, lttextline)):
                text = lt_obj.get_text()
                x, y, width, height = lt_obj.bbox
                font = lt_obj._objs[0].fontname
                font_size = lt_obj._objs[0].size
                print(f"text: {text.strip()}, position: ({x:.2f}, {y:.2f}), font: {font}, size: {font_size:.2f}")

这段代码获取文本块的位置、字体和字号等信息。

3. 提取表格数据

from pdfminer.high_level import extract_text
import tabula

table_text = extract_text("table_example.pdf")
print(table_text)

tables = tabula.read_pdf("table_example.pdf", pages="all")
for df in tables:
    print(df)

使用pdfminer提取pdf文档中的表格，并使用tabula提取表格数据。

4. 提取图像

from pdfminer.pdfparser import pdfparser
from pdfminer.pdfdocument import pdfdocument
from pdfminer.pdftypes import pdfstream
import io
from pil import image

with open('example.pdf', 'rb') as file:
    parser = pdfparser(file)
    document = pdfdocument(parser)
    if document.is_extractable:
        for xref in document.xrefs:
            if xref.get_subtype() == '/image':
                stream_obj = xref.get_object()
                if isinstance(stream_obj, pdfstream):
                    data = stream_obj.get_rawdata()
                    image = image.open(io.bytesio(data))
                    image.show()

提取pdf文档中的图像。

5. 提取元数据

from pdfminer.pdfparser import pdfparser
from pdfminer.pdfdocument import pdfdocument

def extract_metadata(pdf_path):
    with open(pdf_path, 'rb') as fh:
        parser = pdfparser(fh)
        doc = pdfdocument(parser)
        metadata = doc.info[0]
        for key, value in metadata.items():
            print(f"{key}: {value}")

extract_metadata('example.pdf')

提取pdf文件的元数据。

五、实际应用场景

以下是pdfminer在不同场景中的应用示例：

1. 法律文档处理

from pdfminer.high_level import extract_text

def extract_legal_document_text(pdf_path):
    text = extract_text(pdf_path)
    return text

text = extract_legal_document_text('legal_document.pdf')
print(text)

在法律行业，通过pdfminer提取和分析法律文档中的文本和元数据，自动生成报告。

2. 财务报表分析

from pdfminer.layout import laparams, lttextboxhorizontal
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter
from pdfminer.converter import pdfpageaggregator

def extract_financial_tables(pdf_path):
    with open(pdf_path, 'rb') as fh:
        rsrcmgr = pdfresourcemanager()
        laparams = laparams()
        device = pdfpageaggregator(rsrcmgr, laparams=laparams)
        interpreter = pdfpageinterpreter(rsrcmgr, device)

        for page in pdfpage.get_pages(fh, caching=true, check_extractable=true):
            interpreter.process_page(page)
            layout = device.get_result()
            for element in layout:
                if isinstance(element, lttextboxhorizontal):
                    print(element.get_text())

extract_financial_tables('financial_report.pdf')

在财务行业，通过pdfminer提取财务报表中的表格数据，进行自动化的数据分析和处理。

3. 研究论文数据提取

from pdfminer.layout import laparams, lttextboxhorizontal, ltfigure
from pdfminer.pdfpage import pdfpage
from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter
from pdfminer.converter import pdfpageaggregator

def extract_research_paper_content(pdf_path):
    with open(pdf_path, 'rb') as fh:
        rsrcmgr = pdfresourcemanager()
        laparams = laparams()
        device = pdfpageaggregator(rsrcmgr, laparams=laparams)
        interpreter = pdfpageinterpreter(rsrcmgr, device)

        for page in pdfpage.get_pages(fh, caching=true, check_extractable=true):
            interpreter.process_page(page)
            layout = device.get_result()
            for element in layout:
                if isinstance(element, lttextboxhorizontal):
                    print(element.get_text())
                elif isinstance(element, ltfigure):
                    print("figure found")

extract_research_paper_content('research_paper.pdf')

在学术研究中，通过pdfminer提取研究论文中的文本和图表信息，辅助研究分析。

4. 文本逐页提取

from pdfminer.pdfpage import pdfpage
from pdfminer.pdfinterp import pdfresourcemanager, pdfpageinterpreter
from pdfminer.converter import textconverter
from io import stringio

def extract_text_by_page(pdf_path):
    resource_manager = pdfresourcemanager()
    fake_file_handle = stringio()
    converter = textconverter(resource_manager, fake_file_handle)
    page_interpreter = pdfpageinterpreter(resource_manager, converter)

    with open(pdf_path, 'rb') as fh:
        for page in pdfpage.get_pages(fh, caching=true, check_extractable=true):
            page_interpreter.process_page(page)
            text = fake_file_handle.getvalue()
            yield text

    converter.close()
    fake_file_handle.close()

for page_text in extract_text_by_page('example.pdf'):
    print(page_text)

逐页提取pdf文件中的文本，适用于需要逐页处理的情况。

5. 提取目录

from pdfminer.pdfparser import pdfparser
from pdfminer.pdfdocument import pdfdocument, pdfnooutlines

def extract_toc(pdf_path):
    with open(pdf_path, 'rb') as file:
        parser = pdfparser(file)
        document = pdfdocument(parser)
        try:
            outlines = document.get_outlines()
            toc = []
            for (level, title, dest, a, se) in outlines:
                toc.append((level, title))
            return toc
        except pdfnooutlines:
            return []

toc = extract_toc('example.pdf')
for item in toc:
    print(f"level: {item[0]}, title: {item[1]}")

提取pdf文档的目录，方便快速定位文档结构。