当前位置: 代码网 > it编程>前端脚本>Python > Python实现快速提取Word表格并写入Excel

Python实现快速提取Word表格并写入Excel

2024年12月20日 Python 我要评论
在日常办公中,常常会遇到需要从word文档中提取表格内容,并将其写入excel表格的需求。通过使用python编程语言,我们可以高效地完成这一任务。本文将详细介绍如何使用python提取word文档表

在日常办公中,常常会遇到需要从word文档中提取表格内容,并将其写入excel表格的需求。通过使用python编程语言,我们可以高效地完成这一任务。本文将详细介绍如何使用python提取word文档表格内容并写入excel,提供完整的代码示例。

一、环境准备

在开始编写代码之前,我们需要安装一些python库来处理word和excel文档。主要使用到的库有python-docx和openpyxl。

1. 安装python-docx库

python-docx库用于读取和操作word文档。使用以下命令安装:

pip install python-docx

2. 安装openpyxl库

openpyxl库用于读取和写入excel文件。使用以下命令安装:

pip install openpyxl

二、读取word文档中的表格

首先,需要编写代码来读取word文档中的表格内容。以下是一个示例代码,用于从word文档中提取所有表格内容并打印出来。

示例代码:

from docx import document

def read_word_tables(file_path):
    doc = document(file_path)
    tables = doc.tables
    data = []
    for table in tables:
        table_data = []
        for row in table.rows:
            row_data = []
            for cell in row.cells:
                row_data.append(cell.text)
            table_data.append(row_data)
        data.append(table_data)
    return data

​​​​​​​# 示例用法
word_file = 'example.docx'
tables = read_word_tables(word_file)
for i, table in enumerate(tables):
    print(f"table {i+1}:")
    for row in table:
        print("\t".join(row))

在这个示例中,read_word_tables函数接受一个word文件的路径,返回一个包含所有表格内容的列表。每个表格内容以二维列表的形式存储,其中每个子列表代表一行,每个子列表中的元素代表一个单元格的内容。

三、将表格内容写入excel

将提取的表格内容写入excel文件。以下是一个示例代码,用于将表格内容写入excel文件。

示例代码:

from openpyxl import workbook

def write_to_excel(file_path, tables):
    wb = workbook()
    ws = wb.active

    for table in tables:
        for row in table:
            ws.append(row)
        ws.append([])  # 添加一个空行,分隔不同的表格

    wb.save(file_path)

# 示例用法
excel_file = 'output.xlsx'
write_to_excel(excel_file, tables)

在这个示例中,write_to_excel函数接受一个excel文件的路径和表格内容列表,将表格内容写入excel文件。使用openpyxl库的workbook对象创建一个新的工作簿,并通过ws.append方法将每行数据添加到工作表中。

四、完整示例:从word提取表格并写入excel

将上述步骤结合起来,编写一个完整的示例代码,从word文档中提取表格内容并写入excel文件。

示例代码:

from docx import document
from openpyxl import workbook

def read_word_tables(file_path):
    doc = document(file_path)
    tables = doc.tables
    data = []
    for table in tables:
        table_data = []
        for row in table.rows:
            row_data = []
            for cell in row.cells:
                row_data.append(cell.text)
            table_data.append(row_data)
        data.append(table_data)
    return data

def write_to_excel(file_path, tables):
    wb = workbook()
    ws = wb.active

    for table in tables:
        for row in table:
            ws.append(row)
        ws.append([])  # 添加一个空行,分隔不同的表格

    wb.save(file_path)

# 示例用法
word_file = 'example.docx'
excel_file = 'output.xlsx'
tables = read_word_tables(word_file)
write_to_excel(excel_file, tables)

print(f"已成功将word文档中的表格内容提取并写入excel文件:{excel_file}")

实际应用中的考虑事项

在实际应用中,处理word文档和excel文件时可能会遇到一些特殊情况和问题。

1. 处理复杂表格

word文档中的表格可能具有复杂的结构,例如合并单元格、嵌套表格等。处理这些复杂表格时,需要额外的代码逻辑来处理这些特殊情况。

2. 表格数据清洗

从word文档提取的表格数据可能包含一些多余的空格或换行符。在写入excel之前,可以对数据进行清洗,以确保数据的整洁和一致性。

3. 大文件处理

对于包含大量表格的大型word文档或需要写入大量数据的excel文件,可能需要考虑内存和性能问题。可以采用分批读取和写入的方式来处理大文件。

示例代码:

import re
from docx import document
from openpyxl import workbook

def clean_text(text):
    # 去除多余的空格和换行符
    return re.sub(r'\s+', ' ', text).strip()

def read_word_tables(file_path):
    doc = document(file_path)
    tables = doc.tables
    data = []
    for table in tables:
        table_data = []
        for row in table.rows:
            row_data = []
            for cell in row.cells:
                row_data.append(clean_text(cell.text))
            table_data.append(row_data)
        data.append(table_data)
    return data

def write_to_excel(file_path, tables):
    wb = workbook()
    ws = wb.active

    for table in tables:
        for row in table:
            ws.append(row)
        ws.append([])  # 添加一个空行,分隔不同的表格

    wb.save(file_path)

# 示例用法
word_file = 'example.docx'
excel_file = 'output.xlsx'
tables = read_word_tables(word_file)
write_to_excel(excel_file, tables)

print(f"已成功将word文档中的表格内容提取并写入excel文件:{excel_file}")

总结

本文详细介绍了如何使用python从word文档中提取表格内容并写入excel文件。通过使用python-docx库读取word文档,openpyxl库写入excel文件,我们可以高效地完成这一任务。此外,本文还介绍了实际应用中的一些考虑事项和解决方案。

以上就是python实现快速提取word表格并写入excel的详细内容,更多关于python快速提取word的资料请关注代码网其它相关文章!

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com