Python实现将PDF转DOCX的超简单教程(附源码)_Python

在日常工作中，我们经常需要将 pdf 文件转换为 word（.docx） 方便编辑。今天分享一个非常简单、实用的 python 工具 —— pdf2docx，仅需几行代码就能完成转换！

一、环境准备

使用 pdf2docx 库前，需要安装它：

pip install pdf2docx

如果你使用的是国内源（推荐）：

pip install pdf2docx -i https://pypi.tuna.tsinghua.edu.cn/simple

安装完成后即可使用。

二、pdf 转 docx 完整示例代码

下面是一段直接可运行的示例代码，仅需三步即可完成 pdf → word：

from pdf2docx import converter

pdf_file = "1.pdf"
docx_file = "2.docx"

# 创建转换器对象
cv = converter(pdf_file)

# 执行转换
cv.convert(docx_file, start=0, end=none)

# 关闭转换器
cv.close()

print("转换完成！")

代码说明

pdf_file：要转换的 pdf 文件路径

docx_file：需要输出的 word 文件路径

cv.convert()：

start=0 表示从第一页开始
end=none 表示转换到最后一页

转换完成后需要执行 cv.close() 释放资源

三、运行效果

运行后将在当前目录生成一个 2.docx 文件，格式尽可能保持与原 pdf 一致，非常适合文字类文档。

四、常见问题

pdf 转换后格式不完美

这是 pdf → word 转换的常见问题，尤其是复杂排版或扫描件。

你可以尝试：

使用 ocrmypdf 处理扫描件
提升 pdf 清晰度
使用 adobe acrobat 或 wps 的转换功能对比效果

五、方法补充

python使用pdf2docx和os模块实现批量将pdf转word文档

注意事项：

1、pdf文档的后缀务必是“.pdf”，否则转换不成功

2、大部分的pdf文档都可用这个程序来转换，如果是图片生成的pdf文档，则转换不成功，原因是要将图片里的文字转换成文档涉及到人工智能的知识，它已超出这个程序的能力范围。但也不用慌，遇到此情况，可以用qq的文件助手来帮忙，此处不赘述。

完整代码：

import os
from pdf2docx import converter


def pdf_docx():
    # 获取当前工作目录
    file_path = r'c:\users\test'
    # 遍历所有文件
    for file in os.listdir(file_path):
        # 获取文件后缀
        suff_name = os.path.splitext(file)[1]
        # 过滤非pdf格式文件
        if suff_name != '.pdf':
            continue
        # 获取文件名称
        file_name = os.path.splitext(file)[0]
        # pdf文件名称
        pdf_name = file_path + '\\' + file
        # 要转换的docx文件名称
        docx_name = file_path + '\\' + file_name + '.docx'
        # 加载pdf文档
        cv = converter(pdf_name)
        cv.convert(docx_name)
        cv.close()


if __name__ == '__main__':
    pdf_docx()

python使用pdf2docx模块实现pdf到word的批量转换

以下是一个可以批量将 pdf 文件转换为 word 文档的 python 代码示例，代码实现了遍历指定文件夹下的所有 pdf 文件，并逐个进行转换的功能：

import os
from pdf2docx import converter
 
def pdf_to_docx(pdf_folder, docx_folder):
    """
    将指定文件夹下的pdf文件批量转换为word文档
    :param pdf_folder: pdf文件所在文件夹路径
    :param docx_folder: 转换后word文档存放的文件夹路径
    """
    # 检查目标文件夹是否存在，不存在则创建
    if not os.path.exists(docx_folder):
        os.makedirs(docx_folder)
 
    # 遍历pdf文件夹下的所有文件
    for file in os.listdir(pdf_folder):
        if file.endswith('.pdf'):
            pdf_file_path = os.path.join(pdf_folder, file)
            docx_file_path = os.path.join(docx_folder, os.path.splitext(file)[0] + '.docx')
            try:
                # 创建converter对象开始转换
                cv = converter(pdf_file_path)
                cv.convert(docx_file_path)
                cv.close()
                print(f"{pdf_file_path} 已成功转换为 {docx_file_path}")
            except exception as e:
                print(f"转换 {pdf_file_path} 时出现错误: {e}")
 
if __name__ == "__main__":
    # 指定pdf文件所在文件夹路径
    pdf_folder_path = r'c:\users\example\pdfs'
    # 指定转换后word文档存放的文件夹路径
    docx_folder_path = r'c:\users\example\docxs'
    pdf_to_docx(pdf_folder_path, docx_folder_path)

代码解析

函数定义部分：定义了pdf_to_docx函数，它接受两个参数，pdf_folder表示存放 pdf 文件的文件夹路径，docx_folder表示转换后要存放 word 文档的文件夹路径。在函数内部，首先检查docx_folder是否存在，如果不存在就创建该文件夹，用于确保后续能正常存放转换后的文件。

文件遍历与转换部分：通过os.listdir函数遍历pdf_folder下的所有文件，对于以.pdf结尾的文件，先拼接出其完整路径（pdf_file_path），再根据文件名（去除.pdf后缀后）拼接出转换后 word 文档的路径（docx_file_path）。接着使用converter类创建对象并调用convert方法进行转换，转换完成后关闭对象。如果在转换过程中出现任何异常，会通过try-except语句捕获并打印出错误信息。

主程序部分：在if __name__ == "__main__"语句块中，指定了实际的pdf_folder_path（存放 pdf 文件的文件夹路径）和docx_folder_path（存放 word 文档的文件夹路径），然后调用pdf_to_docx函数开始批量转换操作。