当前位置: 代码网 > it编程>前端脚本>Python > 使用Python提取PDF表格到Excel文件的操作步骤

使用Python提取PDF表格到Excel文件的操作步骤

2024年09月25日 Python 我要评论
引言在对pdf中的表格进行再利用时,除了直接将pdf文档转换为excel文件,我们还可以提取pdf文档中的表格数据并写入excel工作表。这样做可以避免一些不必要的文本和格式带来的干扰,获得更易于分析

引言

在对pdf中的表格进行再利用时,除了直接将pdf文档转换为excel文件,我们还可以提取pdf文档中的表格数据并写入excel工作表。这样做可以避免一些不必要的文本和格式带来的干扰,获得更易于分析和处理的表格数据,并方便进行更多的格式设置。利用python,我们可以实现对pdf表格数据的批量提取,并写入excel工作表中,实现高效的提取写入操作。本文将介绍如何使用python提取pdf文档中的表格并写入excel文件中。

本文所使用的方法需要用到spire.pdf for pythonspire.xls for python,pypi:pip install spire.pdf, spire.xls

python提取pdf表格数据写入excel工作表

提取表格需要用到spire.pdf for python中的pdftableextractor类。我们可以使用载入的pdf文档创建一个pdftableextractor对象,然后使用pdftableextractor.extracttable()方法直接提取指定页面的所有表格返回为列表。然后,我们可以使用pdftable.gettext()来获取表格指定单元格的文本,再使用spire.xls for python新建工作表并写入读取的数据到工作表中的相应位置。最后,对工作表进行合适的格式设置,即可完成pdf表格数据到excel工作表的提取。

以下是详细操作步骤:

  1. 导入所需模块。
  2. 创建 pdfdocument 对象,并使用 pdfdocument.loadfromfile() 方法加载pdf文档。
  3. 创建一个 workbook 对象,并使用 workbook.worksheets.clear() 方法清除默认工作表。
  4. 为加载的pdf文档创建一个 pdftableextractor 对象。
  5. 使用 pdftableextractor.extracttable() 方法提取文档中每一页的表格。
  6. 遍历每个表格
    • 使用 workbook.worksheets.add() 方法为每个表格在工作簿中添加一个工作表。
    • 使用 table.gettext() 方法遍历各行各列以获取单元格值,并通过 worksheet.range[].text 属性将其插入工作表的相应位置。
    • 设置单元格格式。
  7. 使用 workbook.savetofile() 方法保存工作簿。
  8. 释放资源。

代码示例

from spire.pdf import *
from spire.xls import *

# 创建一个 pdfdocument 对象
pdf = pdfdocument()
# 加载一个 pdf 文档
pdf.loadfromfile("示例.pdf")

# 创建一个 workbook 对象
workbook = workbook()
# 清除默认工作表
workbook.worksheets.clear()

# 创建一个 pdftableextractor 对象
extractor = pdftableextractor(pdf)

# 从每个 pdf 页面提取表格
for pageindex in range(pdf.pages.count):
    tables = extractor.extracttable(pageindex)
    # 如果有多个表格则迭代
    if tables is not none:
        for tableindex in range(len(tables)):
            # 获取一个表格
            table = tables[tableindex]
            # 为该表格创建一个工作表
            sheet = workbook.worksheets.add(f"page{pageindex + 1}-table{tableindex + 1}")
            # 迭代表格的行和列
            for rowindex in range(table.getrowcount()):
                for colindex in range(table.getcolumncount()):
                    # 获取单元格的值
                    text = table.gettext(rowindex, colindex)
                    celltext = text.replace("\n", "")
                    # 将单元格的值写入工作表中的相应单元格
                    sheet.range[rowindex + 1, colindex + 1].text = celltext
            # 设置表头行样式
            sheet.rows.get_item(0).style.font.fontname = "harmonyos sans sc"
            sheet.rows.get_item(0).style.font.size = 12
            sheet.rows.get_item(0).style.font.isbold = true
            sheet.rows.get_item(0).style.horizontalalignment = horizontalaligntype.center
            # 设置数据行样式
            for i in range(1, sheet.rows.count):
                sheet.rows.get_item(i).style.font.fontname = "harmonyos sans sc"
                sheet.rows.get_item(i).style.font.size = 12
                sheet.rows.get_item(i).style.horizontalalignment = horizontalaligntype.left
            # 自动调整列宽
            for j in range(1, sheet.columns.count):
                sheet.autofitcolumn(j)

# 保存工作簿
workbook.savetofile("output/pdftabletoexcel.xlsx", fileformat.version2016)
workbook.dispose()
pdf.close()

结果

本文演示了如何使用python提取pdf文档表格数据到excel文件中。

到此这篇关于使用python提取pdf表格到excel文件的操作步骤的文章就介绍到这了,更多相关python提取pdf表格到excel内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com