Python自动化办公之从Excel/Word处理到浏览器操控的全面指南_Python

openpyxl, python-docx, selenium 核心实战

核心定位：本指南聚焦于非结构化与结构化文档的自动化处理。

openpyxl：excel (.xlsx) 文件的读写与格式化专家。
python-docx：word (.docx) 报告的生成与编辑利器。
selenium：浏览器自动化之王，用于网页数据抓取、表单自动填写及跨系统流程打通。
核心价值：将重复、枯燥的“复制粘贴”工作转化为秒级执行的脚本，释放人力专注于高价值决策。

摘要

在数字化办公时代，python 自动化已成为职场核心竞争力。

三大支柱：
- openpyxl：直接操作 excel 内存对象，支持公式、图表、样式，无需安装 excel 软件。
- python-docx：精准控制 word 段落、表格、样式，实现报告批量生成。
- selenium：模拟真实用户行为（点击、输入、滚动），解决无 api 接口的网页交互难题。
适用场景：财务对账、销售报表合并、合同批量生成、竞品价格监控、跨系统数据录入、rpa (机器人流程自动化) 基础构建。
2026 趋势：与 ai (llm) 深度结合，脚本不仅能执行操作，还能理解文档内容并自动生成摘要或决策建议；云原生 rpa 逐渐普及。

本指南旨在帮助职场人士、数据分析师及开发者利用 python 解放双手，实现办公流程的自动化。我们将深入剖析三大核心工具库：openpyxl（高效操作 excel）、python-docx（专业生成 word 文档）以及 selenium（全能的浏览器自动化测试与爬虫工具）。文章不仅涵盖从基础文件读写到复杂样式定制、动态网页交互的语法详解，还通过“财务报表合并”、“合同批量生成”、“web 数据抓取与录入”等真实场景案例，展示端到端的自动化解决方案。同时，重点揭示内存管理、反爬虫对抗、环境依赖等常见陷阱，并提供系统的学习路径与资源推荐，助您构建高效的数字化办公工作流。

一、背景、发展历史与方向

1. 为什么需要 python 自动化办公？

效率革命：人工处理 1000 个 excel 文件需数天，python 仅需几分钟。
零错误率：消除人为疲劳导致的复制错误、公式遗漏。
7x24 小时工作：脚本可定时运行，夜间完成数据更新，早晨直接查看结果。
系统集成：打通 excel、word、web 系统、邮件、数据库之间的壁垒，形成完整工作流。

2. 发展历史

早期 (2000s)：依赖 win32com (仅 windows)，必须安装 office 软件，速度慢且不稳定。办公自动化主要依赖 vba (visual basic for applications)，虽然功能强大但局限于 microsoft office 生态，且难以与现代 it 系统集成。
转折点 (2010-2015)：
- openpyxl 诞生，支持纯 python 操作 .xlsx，跨平台。
- python-docx 出现，解决了 word 自动化难题。
- selenium 从测试工具演变为通用的浏览器自动化库。
- python 崛起 (2010s): 随着 python 在数据科学领域的爆发，社区涌现出一批专用库。
  - openpyxl (2010): 取代了老旧的 xlwt/xlrd，成为唯一支持 .xlsx 格式读写且无需安装 excel 软件的纯 python 库。
  - python-docx (2012): 解决了 word 文档 (.docx) 基于 xml 结构复杂难解的问题，提供了直观的 api。
  - selenium (2012-2015): 最初为 web 应用测试而生，因其能模拟真实用户行为，逐渐成为网页自动化和数据采集的事实标准。
成熟期 (2016-2023)：pandas 成为数据处理核心，但复杂格式仍需 openpyxl；selenium 4 引入 webdriver manager，简化环境配置。
2024-2026 现状：rpa (机器人流程自动化) 概念兴起，python 凭借这些库成为轻量级 rpa 的核心引擎，广泛应用于财务、hr、运营等部门。
- 无头模式 (headless)：selenium 在服务器端无界面运行成为标配。
- ai 增强：脚本结合 ocr (文字识别) 和 llm (大模型) 处理扫描件和半结构化数据。
- 反爬对抗：selenium 需配合更高级的指纹伪装技术应对现代网站防御。

3. 核心作用与发展方向

作用:
- 数据处理: 批量合并/拆分 excel、数据清洗、公式计算、图表生成。
- 文档生成: 批量制作合同、发票、报告、邀请函，保持格式统一。
- 流程自动化: 自动登录系统、抓取网页数据、填报表单、下载附件。
发展方向:
- 云原生集成: 结合 google sheets api、onedrive api 实现云端自动化。
- ai 增强: 结合 llm (大语言模型) 自动撰写 word 内容或分析 excel 数据趋势。
- 无头模式 (headless): 服务器端无人值守运行浏览器任务。

智能 rpa：从“固定规则执行”向“基于视觉/语义理解的自适应执行”演进。
云原生部署：自动化脚本容器化 (docker)，在云端弹性调度。
低代码融合：python 作为后端引擎，前端提供拖拽式流程设计器。

二、基础语法与核心库详解

1. openpyxl：excel 精细操作

核心概念: workbook (工作簿), worksheet (工作表), cell (单元格)。
注意: 仅支持 .xlsx 格式，不支持 .xls (旧版)。
作用：读取、修改、创建 .xlsx 文件，保留原有公式和样式。

from openpyxl import workbook, load_workbook
from openpyxl.styles import font, color, patternfill

# 1. 创建新 workbook
wb = workbook()
ws = wb.active
ws.title = "sales data"

# 2. 写入数据
ws['a1'] = "product"
ws['b1'] = "price"
ws.append(['laptop', 1200]) # 追加一行
ws.append(['mouse', 25])

# 添加公式
# 3. 设置样式
ws['a1'].font = font(bold=true, color="ffffff")
ws['a1'].fill = patternfill(start_color="4472c4", fill_type="solid")
ws['c1'] = "total"
ws['c2'] = "=a2*b2" # 注意：openpyxl 只写公式字符串，不计算结果

# 4. 读取现有文件
wb_load = load_workbook('report.xlsx')
ws_load = wb_load['sheet1']
value = ws_load['a1'].value
# 读取现有文件
wb = load_workbook("report.xlsx", data_only=true) # data_only=true 读取公式计算后的值
ws = wb["sales data"]
print(ws['a2'].value)
# 5. 保存
wb.save('new_report.xlsx')

2. python-docx：word 文档生成

核心概念: document, paragraph, run (文本片段，用于样式), table。
注意: 只能创建/修改 .docx，不能打开旧的 .doc。
作用：创建报告、合同，控制段落样式、表格布局。

from docx import document
from docx.shared import inches, pt
from docx.enum.text import wd_align_paragraph

# 1. 创建文档
doc = document()

# 2. 添加标题
heading = doc.add_heading('monthly report', 0)
heading.alignment = wd_align_paragraph.center

# 3. 添加段落与样式 (run 的概念)
p = doc.add_paragraph('this is an automated report generated by python.')
p.add_run(' bold text').bold = true
p.add_run(' italic text').italic = true

# 4. 添加表格
table = doc.add_table(rows=3, cols=3)
table.style = 'table grid'
cell = table.cell(0, 0)
cell.text = 'header 1'

# 5. 保存
doc.save('report.docx')

3. selenium：浏览器自动化神器

核心概念: webdriver, webelement, locator strategies (by.id, by.xpath), wait (显式/隐式等待)。
前置: 需安装对应浏览器的 driver (如 chromedriver) 并匹配版本。
作用：模拟用户打开网页、点击、输入、截图、下载。

from selenium import webdriver
from selenium.webdriver.common.by import by
from selenium.webdriver.common.keys import keys
from selenium.webdriver.chrome.service import service
from selenium.webdriver.chrome.options import options
import time

# 1. 配置 chrome 选项 (无头模式)
options = options()
options.add_argument("--headless=new") # 2026 新版无头模式
options.add_argument("--disable-gpu")

# 初始化驱动 (需确保 chromedriver 版本匹配)
driver = webdriver.chrome(options=options)

try:
    # 2. 打开网页
    driver.get("https://www.example.com")
    
    # 3.查找元素 (推荐 webdriverwait 显式等待，此处简化演示)
    search_box = driver.find_element(by.name, "q")
    # 4. 模拟操作
    search_box.send_keys("python automation")
    search_box.send_keys(keys.return)
    
    time.sleep(2) # 实际生产请用 webdriverwait
    
    # 5. 获取数据
    results = driver.find_elements(by.css_selector, ".result-title")
    print(f"found {len(results)} results")
    
    # 6.截图
    driver.save_screenshot("result.png")
    
finally:
    # 7.关闭浏览器
    driver.quit() # 务必关闭浏览器

三、基本使用与进阶场景实例

场景一：批量合并 100 个 excel 销售报表并生成透视表

需求：将文件夹下所有 sales_*.xlsx 合并为一个总表，并计算总和。

import os
import openpyxl
from openpyxl.utils import get_column_letter

def merge_excel_files(folder_path, output_file):
    master_wb = openpyxl.workbook()
    master_ws = master_wb.active
    master_ws.title = "all_data"
    
    headers_written = false
    row_offset = 1
    
    for filename in os.listdir(folder_path):
        if filename.startswith("sales_") and filename.endswith(".xlsx"):
            wb = load_workbook(os.path.join(folder_path, filename))
            ws = wb.active
            
            for i, row in enumerate(ws.iter_rows(values_only=true), start=1):
                if i == 1: # 表头
                    if not headers_written:
                        master_ws.append(row)
                        headers_written = true
                    continue
                
                # 添加来源文件名作为新的一列
                new_row = list(row) + [filename]
                master_ws.append(new_row)
    
    # 添加汇总公式示例
    last_row = master_ws.max_row
    col_b = get_column_letter(2) # 假设第2列是金额
    master_ws[f'b{last_row+1}'] = f"=sum(b2:b{last_row})"
    
    master_wb.save(output_file)
    print(f"merged into {output_file}")

# merge_excel_files('./sales_reports', 'total_sales.xlsx')

场景二：根据 excel 名单批量生成 word 聘用合同

需求：读取 excel 中的姓名、职位、薪资，填充到 word 模板中，生成独立合同。

import openpyxl
from docx import document

def generate_contracts(excel_path, template_path, output_folder):
    wb = load_workbook(excel_path)
    ws = wb.active
    
    # 加载模板
    template = document(template_path)
    
    for row in ws.iter_rows(min_row=2, values_only=true):
        name, position, salary = row[0], row[1], row[2]
        
        # 复制模板内容 (深拷贝避免污染)
        import copy
        doc = copy.deepcopy(template)
        
        # 替换占位符 (简单文本替换，复杂情况需遍历 paragraphs)
        for paragraph in doc.paragraphs:
            if '{{name}}' in paragraph.text:
                paragraph.text = paragraph.text.replace('{{name}}', name)
            if '{{position}}' in paragraph.text:
                paragraph.text = paragraph.text.replace('{{position}}', position)
            if '{{salary}}' in paragraph.text:
                paragraph.text = paragraph.text.replace('{{salary}}', str(salary))
        
        # 处理表格内的替换 (略，逻辑类似，需遍历 table.rows)
        
        doc.save(f"{output_folder}/contract_{name}.docx")
    print("contracts generated!")

场景三：自动登录后台系统并下载日报

需求：登录公司内部 erp，点击“下载日报”，保存文件。

from selenium import webdriver
from selenium.webdriver.common.by import by
from selenium.webdriver.support.ui import webdriverwait
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.chrome.options import options
import os

def auto_download_report(url, username, password, download_dir):
    options = options()
    options.add_argument("--headless=new")
    prefs = {"download.default_directory": download_dir, "download.prompt_for_download": false}
    options.add_experimental_option("prefs", prefs)
    
    driver = webdriver.chrome(options=options)
    wait = webdriverwait(driver, 10)
    
    try:
        driver.get(url)
        
        # 等待并输入账号密码
        user_input = wait.until(ec.presence_of_element_located((by.id, "username")))
        user_input.send_keys(username)
        
        pass_input = driver.find_element(by.id, "password")
        pass_input.send_keys(password)
        
        driver.find_element(by.id, "login-btn").click()
        
        # 等待导航栏出现
        wait.until(ec.presence_of_element_located((by.link_text, "daily reports")))
        driver.find_element(by.link_text, "daily reports").click()
        
        # 点击下载按钮
        download_btn = wait.until(ec.element_to_be_clickable((by.class_name, "download-excel")))
        download_btn.click()
        
        print("download triggered. waiting for completion...")
        # 实际项目中需轮询检查文件是否下载完成
        
    finally:
        driver.quit()

场景四：跨平台数据搬运 (web -> excel)

需求：从网页抓取股票数据，写入 excel 并标红跌幅超过 5% 的股票。

from openpyxl.styles import font, patternfill

# 假设 data 是从 selenium 或 requests 抓取到的列表 [(name, price, change), ...]
data = [("aapl", 150.2, -0.5), ("tsla", 200.5, -6.2), ("nvda", 400.0, 2.1)]

wb = workbook()
ws = wb.active
ws.append(["stock", "price", "change%"])

red_fill = patternfill(start_color="ffc7ce", end_color="ffc7ce", fill_type="solid")
red_font = font(color="9c0006", bold=true)

for item in data:
    row_idx = ws.max_row + 1
    ws.append(item)
    
    # 条件格式化：如果跌幅 > 5% (即 change < -5)
    if item[2] < -5.0:
        for cell in ws[row_idx]:
            cell.fill = red_fill
            cell.font = red_font

wb.save("stock_monitor.xlsx")

场景五：财务月报自动化 (openpyxl 进阶)

任务: 合并 12 个分公司的 excel 报表，计算总和，生成透视表风格汇总，并标红异常值。

import os
from openpyxl import load_workbook
from openpyxl.styles import font, color

def merge_reports(folder_path):
    summary_wb = workbook()
    summary_ws = summary_wb.active
    summary_ws.append(['company', 'item', 'amount', 'status'])

    for filename in os.listdir(folder_path):
        if filename.endswith('.xlsx'):
            wb = load_workbook(os.path.join(folder_path, filename))
            ws = wb.active
            company_name = filename.split('.')[0]
            
            for row in ws.iter_rows(min_row=2, values_only=true):
                item, amount = row[0], row[1]
                status = "normal"
                color = "000000"
                
                # 业务逻辑：金额大于 10000 标红
                if amount > 10000:
                    status = "high risk"
                    color = "ff0000"
                
                summary_ws.append([company_name, item, amount, status])
                
                # 动态样式设置 (需要获取单元格对象)
                cell = summary_ws.cell(row=summary_ws.max_row, column=4)
                cell.font = font(color=color, bold=true)

    summary_wb.save('monthly_summary.xlsx')

场景六：批量合同生成 (python-docx + 数据源)

任务: 根据 excel 中的客户名单，批量生成个性化的 word 劳动合同。

from docx import document
import pandas as pd

def generate_contracts():
    # 读取数据源
    df = pd.read_excel('clients.xlsx')
    
    # 加载模板
    template = document('contract_template.docx')
    
    for index, row in df.iterrows():
        # 复制模板内容 (深拷贝避免污染)
        doc = document() 
        # 实际项目中通常直接复制模板文件再打开，此处简化逻辑
        # 更好的做法：shutil.copy('template.docx', f'contract_{row["name"]}.docx')
        # 然后打开该文件进行修改
        
        # 模拟替换逻辑 (实际需遍历 paragraph 和 table 进行文本替换)
        # 这里展示核心思路：查找占位符 {{name}} 并替换
        for para in template.paragraphs:
            if '{{name}}' in para.text:
                para.text = para.text.replace('{{name}}', row['name'])
            if '{{date}}' in para.text:
                para.text = para.text.replace('{{date}}', str(row['date']))
        
        # 保存
        doc.save(f"contracts/contract_{row['name']}.docx")

注：实际替换文本保留样式较复杂，建议使用 mailmerge 库辅助或仔细处理 run 级别替换。

场景七：电商竞品价格监控与录入 (selenium 实战)

任务: 登录后台，抓取竞品网站价格，填入内部系统。

from selenium import webdriver
from selenium.webdriver.common.by import by
from selenium.webdriver.support.ui import webdriverwait
from selenium.webdriver.support import expected_conditions as ec
import time

def price_monitor_and_entry():
    driver = webdriver.chrome()
    wait = webdriverwait(driver, 15)
    
    # 1. 抓取竞品价格
    driver.get("https://competitor-site.com/product/123")
    price_elem = wait.until(ec.visibility_of_element_located((by.class_name, "price-tag")))
    competitor_price = float(price_elem.text.replace('$', ''))
    
    # 2. 登录内部系统
    driver.get("https://internal-system.com/login")
    driver.find_element(by.id, "user").send_keys("admin")
    driver.find_element(by.id, "pass").send_keys("secret")
    driver.find_element(by.id, "submit").click()
    
    # 3. 填入数据
    wait.until(ec.presence_of_element_located((by.name, "price_input")))
    input_box = driver.find_element(by.name, "price_input")
    input_box.clear()
    input_box.send_keys(str(competitor_price * 0.95)) # 定价为竞品的 95%
    
    driver.find_element(by.id, "save_btn").click()
    
    time.sleep(2)
    driver.quit()

四、致命陷阱与避坑指南

陷阱 1：selenium 元素定位失败 (elementnotfound)

现象：代码报错 nosuchelementexception，明明页面上有该元素。
原因：页面未加载完成、元素在 iframe 内、元素被遮挡、动态 id 变化。
修正：
- 显式等待：严禁使用 time.sleep()，必须用 webdriverwait 等待元素可见或可点击。
- 切换 iframe：driver.switch_to.frame("frame_name")。
- 稳健选择器：优先使用 by.css_selector 或 by.xpath 结合文本内容，避免依赖动态 id。

元素未就绪 (race condition): 页面 html 加载了，但 js 还没执行完，元素不可见或不可点击。
- 解决: 严禁使用 time.sleep() 硬等待。必须使用 webdriverwait 配合 expected_conditions (如 element_to_be_clickable)。
driver 版本不匹配: chrome 浏览器升级后，chromedriver 未升级，导致报错 session not created。
- 解决: 使用 webdriver-manager 库自动管理驱动版本 (chromedrivermanager().install())。
反爬虫检测: 网站检测到 navigator.webdriver 属性从而拦截。
- 解决: 使用 undetected-chromedriver 库，或在 chromeoptions 中添加排除开关 (--disable-blink-features=automationcontrolled)。
资源泄露: 脚本异常退出未执行 driver.quit()，导致后台残留大量浏览器进程，耗尽服务器资源。
- 解决: 务必将 driver.quit() 放在 finally 块中。

陷阱 2：openpyxl 处理大文件内存爆炸

现象：处理超过 10 万行的 excel 时，程序卡死或内存溢出。
原因：load_workbook 默认加载整个文件到内存对象树。
修正：使用 只读模式 (read_only=true) 和 写入优化模式 (write_only=true)。

# 读取大文件
wb = load_workbook("huge_file.xlsx", read_only=true)
# 写入大文件
wb = workbook(write_only=true)

内存爆炸: load_workbook 默认加载所有数据和样式到内存。处理大文件 (>50mb) 会导致内存溢出。
- 解决: 使用 load_workbook(filename, read_only=true, data_only=true)。注意：只读模式下无法写入，需新建 workbook 写入。
公式不计算: openpyxl 读取带公式的单元格时，默认读取的是上次保存的计算结果，而不是实时计算。
- 解决: 设置 data_only=true 读取结果；若需重新计算，必须用 excel 软件打开保存一次，或使用 xlwings 调用本地 excel 引擎。
样式丢失: 直接赋值 cell.value 不会保留原有样式，但若替换整个行需注意样式对象引用。

陷阱 3：word 模板替换破坏样式

现象：使用 paragraph.text = ... 替换后，原有的加粗、颜色、超链接丢失。
原因：直接赋值 text 会清除段落内所有的 run (格式片段)。
修正：遍历 paragraph.runs 进行局部替换，或使用 mailmerge 库（专门用于邮件合并），或者在 python 中重新构建带样式的 runs。

陷阱 4：浏览器指纹被识别 (反爬虫)

现象：selenium 打开网站立即被拦截，提示“检测到自动化测试工具”。
原因：webdriver 特征明显 (navigator.webdriver 属性为 true)。
修正：
- 使用 undetected-chromedriver 库（专为绕过检测设计）。
- 配置 chrome options 排除自动化开关：options.add_experimental_option("excludeswitches", ["enable-automation"])。
- 模拟人类行为：随机延迟、随机鼠标移动轨迹。

陷阱 5：路径与编码问题

现象：中文文件名乱码，或在不同操作系统 (win/mac/linux) 上路径报错。
修正：
- 始终使用 os.path.join 或 pathlib 处理路径。
- 打开文件时指定编码 encoding='utf-8' (虽然 openpyxl/docx 内部处理较好，但涉及 csv 或文本时要注意)。
- windows 下注意路径长度限制 (超过 260 字符需加 \\?\ 前缀)。

陷阱 6：python-docx 陷阱

文本替换断裂: word 中的连续文本可能被拆分成多个 run (例如因为加粗、颜色不同)。直接 para.text.replace() 往往无效或破坏样式。
- 解决: 需要编写递归函数遍历 para.runs，或者使用专门的库如 docxtpl (基于 jinja2 模板引擎)，这是更推荐的方案。
图片尺寸失控: 插入图片时若不指定宽高，可能因 dpi 问题导致图片巨大或微小。
- 解决: 始终使用 doc.add_picture(path, width=inches(2)) 明确指定尺寸。

五、实践总结

异常处理是必须的：网络波动、文件占用、元素加载失败随时可能发生。务必使用 try-except-finally 块，并确保在 finally 中关闭浏览器或保存文件。
显式等待优于隐式等待：在 selenium 中，永远使用 webdriverwait 配合 expected_conditions，不要依赖固定的 sleep 时间。
数据与逻辑分离：将配置信息 (路径、账号、url) 提取到配置文件 (.env 或 .json) 中，不要硬编码在脚本里。
日志记录：使用 logging 模块代替 print，记录操作步骤、错误信息和时间戳，便于排查问题。
分步调试：先手动操作一遍流程，再写成代码。开发时先注释掉大部分代码，逐段验证。
尊重目标系统：
- 不要高频请求导致服务器崩溃。
- 遵守网站的 robots.txt 协议和服务条款。
- 仅在授权范围内使用自动化工具。

终极建议：
“自动化不是为了完全取代人，而是为了把人从机械劳动中解放出来。最好的自动化脚本是健壮的、可维护的，并且能在出错时优雅地通知人类介入。”

python 自动化办公不仅仅是学习几个库的 api，更是一种思维方式的转变：从“手动重复”转向“流程设计”。

对于 excel，理解 openpyxl 的内存机制和 pandas 的数据处理能力是关键。
对于 word，掌握 docxtpl 模板化思想比死磕 python-docx 底层样式更高效。
对于 浏览器，理解 dom 结构和异步等待机制是稳定运行的基石。

起步时，请从解决手头最繁琐的一个小任务开始（如“每天合并这 5 个表”），逐步积累代码片段，最终形成自己的自动化工具箱。记住，最好的自动化脚本是那些稳定、易维护且能真正节省时间的脚本。

掌握 openpyxl, python-docx 和 selenium，你将拥有“点石成金”的能力，让电脑为你 24 小时工作。现在，去写下你的第一个自动化脚本吧！

以上就是python自动化办公之从excel/word处理到浏览器操控的全面指南的详细内容，更多关于python从excel/word处理到浏览器操控的资料请关注代码网其它相关文章！

Python自动化办公之从Excel/Word处理到浏览器操控的全面指南

2026年03月24日 • Python •我要评论

openpyxl, python-docx, selenium 核心实战

摘要

一、背景、发展历史与方向

1. 为什么需要 python 自动化办公？

2. 发展历史

3. 核心作用与发展方向

二、基础语法与核心库详解

1. openpyxl：excel 精细操作

2. python-docx：word 文档生成

3. selenium：浏览器自动化神器

三、基本使用与进阶场景实例

场景一：批量合并 100 个 excel 销售报表并生成透视表

场景二：根据 excel 名单批量生成 word 聘用合同

场景三：自动登录后台系统并下载日报

场景四：跨平台数据搬运 (web -> excel)

场景五：财务月报自动化 (openpyxl 进阶)

场景六：批量合同生成 (python-docx + 数据源)

场景七：电商竞品价格监控与录入 (selenium 实战)

四、致命陷阱与避坑指南

陷阱 1：selenium 元素定位失败 (elementnotfound)

陷阱 2：openpyxl 处理大文件内存爆炸

陷阱 3：word 模板替换破坏样式

陷阱 4：浏览器指纹被识别 (反爬虫)

陷阱 5：路径与编码问题

陷阱 6：python-docx 陷阱

五、实践总结

相关文章:

发表评论


验证码：

Python自动化办公之从Excel/Word处理到浏览器操控的全面指南

2026年03月24日 • Python •我要评论

openpyxl, python-docx, selenium 核心实战

摘要

一、背景、发展历史与方向

1. 为什么需要 python 自动化办公？

2. 发展历史

3. 核心作用与发展方向

二、基础语法与核心库详解

1. openpyxl：excel 精细操作

2. python-docx：word 文档生成

3. selenium：浏览器自动化神器

三、基本使用与进阶场景实例

场景一：批量合并 100 个 excel 销售报表并生成透 视表

场景二：根据 excel 名单批量生成 word 聘用合同

场景三：自动登录后台系统并下载日报

场景四：跨平台数据搬运 (web -> excel)

场景五：财务月报自动化 (openpyxl 进阶)

场景六：批量合同生成 (python-docx + 数据源)

场景七：电商竞品价格监控与录入 (selenium 实战)

四、致命陷阱与避坑指南

陷阱 1：selenium 元素定位失败 (elementnotfound)

陷阱 2：openpyxl 处理大文件内存爆炸

陷阱 3：word 模板替换破坏样式

陷阱 4：浏览器指纹被识别 (反爬虫)

陷阱 5：路径与编码问题

陷阱 6：python-docx 陷阱

五、实践总结

相关文章:

发表评论

场景一：批量合并 100 个 excel 销售报表并生成透视表