使用Python管理PPT页面与文档属性_Python

老王的苦恼，很多做汇报的人都懂。

他是一家咨询公司的项目经理，每做完一个项目，要把二十几页的分析ppt、excel图表、word总结拼成一份完整的汇报材料。最烦人的不是内容，而是ppt页面管理——有时候客户要求把结论页放到最前面，有时候要批量删除某些页的备注，有时候要在十几份ppt的标题栏统一加上项目编号。

每次手工搞一轮，至少两个小时。

他问我：“能不能用代码批量管理ppt的页面？”

能，而且比你想象的简单。今天的文章就聊聊用python-pptx怎么管好ppt的页面和文档本身，不涉及每一页里头的内容怎么写。

先搞清楚ppt的“骨架”长什么样

在开始写代码之前，得先弄明白python眼里一个ppt文件的结构。

打个比方。一个ppt演示文稿就像一栋楼。楼有地基和框架（主题和母版），每一层是一个页面（幻灯片），每一层的房间布局可能不一样（布局），房间里放着家具和装饰（文本框、图片、表格）。

在python-pptx里，这个层次关系是这样的：

presentation（演示文稿）：整栋楼，最外层的容器
slide（幻灯片）：每一层楼，也就是每一页ppt
slidelayout（幻灯片布局）：每层楼的房间格局模板
slidemaster（幻灯片母版）：整栋楼的统一设计规范
placeholder（占位符）：房间里预留的槽位，比如标题该放哪、正文该放哪

理解了这层结构，后面所有操作就清晰多了。

创建和打开ppt：两种入口

python-pptx有两种方式拿到一个演示文稿对象：新建一个或者打开一个现有的。

新建一个空白ppt：

from pptx import presentation

# 新建一个演示文稿（从内置默认模板创建）
prs = presentation()

# 什么都不做，直接保存
prs.save("新建的ppt.pptx")

这个“默认模板”其实就是一个没有幻灯片的空powerpoint文件，基于白色模板，宽高比是4：3。

打开现有的ppt：

prs = presentation("项目周报.pptx")
prs.save("项目周报_修改版.pptx")

注意一个细节：如果你用同一个文件名打开和保存，python会直接覆盖原文件，没有任何提示。如果你想保留原文件，记得换一个名字保存。

页面的增删改查：最核心的操作

拿到prs对象之后，真正干活的页面管理就开始了。

先说最简单也最常用的功能：判断有多少页、访问特定页面、找到某一页的索引。

from pptx import presentation

prs = presentation("销售汇报.pptx")

# 一共有多少页
print(f"总共有{len(prs.slides)}页")

# 访问第一页（索引从0开始）
first_slide = prs.slides[0]

# 找到某一页的索引位置
target_slide = prs.slides[3]
idx = prs.slides.index(target_slide)
print(f"目标幻灯片在索引{idx}的位置")

# 遍历所有页面，打印每一页的标题
for i, slide in enumerate(prs.slides):
    if slide.shapes.title:
        print(f"第{i+1}页标题: {slide.shapes.title.text}")
    else:
        print(f"第{i+1}页: 无标题")

这里有个小坑。slide.shapes.title不一定能返回标题。只有使用了带标题占位符布局的页面才有shapes.title。如果你新建页时选了“空白”布局（布局索引6），slide.shapes.title会返回none。

添加页面：选对布局最重要

添加一页ppt不是随便加的，你得告诉python：这一页用什么样的布局。

# 查看当前ppt有哪些可用的布局
for i, layout in enumerate(prs.slide_layouts):
    print(f"布局索引 {i}: {layout.name}")

运行这段代码，你会看到类似这样的输出：

布局索引 0: title slide
布局索引 1: title and content
布局索引 2: section header
布局索引 3: two content
...
布局索引 6: blank

不同的模板顺序可能不一样，你可以通过layout.name来确认每个索引对应什么布局。

选好布局之后，添加页面就是一行代码的事：

# 添加一页"标题+内容"布局的幻灯片
slide_layout = prs.slide_layouts[1]  # title and content
slide = prs.slides.add_slide(slide_layout)

# 往标题占位符里写内容
slide.shapes.title.text = "三季度经营分析"

# 往内容占位符里写内容（通常索引1是正文占位符）
slide.placeholders[1].text = "营收同比增长15%\n利润同比增长22%"

placeholders本质上是一个类似字典的集合，它的“键”是占位符的idx值，而不是它在列表里的位置。这几个内置布局的占位符索引规律是：如果存在标题占位符，它的idx永远是0；其他占位符从上到下、从左到右依次排列。

如果想让ppt更通用，不依赖特定索引，可以这样判断：

for shape in slide.placeholders:
    print(f"占位符索引: {shape.placeholder_format.idx}, 名称: {shape.name}")

删除页面：官方不支持的偏方

python-pptx官方目前没有直接提供删除幻灯片的方法。按照官方文档的说法，添加幻灯片是当时唯一支持的操作，删除和移动还在开发计划里。

但社区里有人找到了绕路的方法：直接操作底层的xml结构。

from pptx import presentation

prs = presentation("待清理的ppt.pptx")

# 获取所有幻灯片对象的列表
slides = list(prs.slides._sldidlst)

# 删除索引为2的幻灯片（第三页）
prs.slides._sldidlst.remove(slides[2])

prs.save("删了一页之后.pptx")

prs.slides._sldidlst是整个ppt页面列表的底层数据结构，直接操作它可以绕开官方api的限制。这种做法的优点是简单直接，缺点是不够稳定，文档没有保证这个内部属性会在未来的版本里保持不变。生产环境谨慎使用。

另一种更稳妥但不那么灵活的做法是：新建一个ppt，只把你想要保留的页面复制过去。

old_prs = presentation("原始.pptx")
new_prs = presentation()

# 只复制前3页
for i in range(3):
    old_slide = old_prs.slides[i]
    new_slide = new_prs.slides.add_slide(old_prs.slide_layouts[0])
    # 复制内容的逻辑稍复杂，这里不再展开

new_prs.save("剪辑版.pptx")

复制页面：手把手克隆一个完整的幻灯片

有些人可能已经注意到，python-pptx没有内置的duplicate_slide方法。这是因为复制一个页面比看起来复杂得多——它涉及页面上的所有形状、图表、图片以及与它们关联的关系。

一个可用的复制方案是这样的：

from pptx import presentation
from copy import deepcopy

def duplicate_slide(pres, source_index):
    source = pres.slides[source_index]
    # 使用空白布局作为新页面的容器
    blank_layout = pres.slide_layouts[6]  # 布局6通常是"空白"
    new_slide = pres.slides.add_slide(blank_layout)
    
    # 复制原页面上的所有形状
    for shape in source.shapes:
        new_shape = deepcopy(shape.element)
        new_slide.shapes._sptree.insert_element_before(new_shape, 'p:extlst')
    
    return new_slide

prs = presentation("示例.pptx")
duplicate_slide(prs, 0)  # 复制第一页
prs.save("复制了一页之后.pptx")

这里的关键是用了deepcopy把原页面上的形状复制一份，然后插入到新页面的形状树里。对于简单的文本框，这个方法够用。但如果原页面里有图表或图片，可能需要额外处理它们对应的二进制数据。

重排页面顺序：同样没有官方支持

移动页面的位置和删除页面一样，官方也没有提供直接的方法。最直接的变通思路和删除类似：新建一个ppt，按照你想要的顺序重新添加页面。

old_prs = presentation("顺序错乱的.pptx")
new_prs = presentation()

# 假设想要的新顺序是 [2, 3, 4, 0, 1]
order = [2, 3, 4, 0, 1]

for idx in order:
    old_slide = old_prs.slides[idx]
    new_layout = new_prs.slide_layouts[0]  # 临时占位布局
    new_slide = new_prs.slides.add_slide(new_layout)
    # 复制内容的代码......

如果你打算在生成阶段就对顺序有掌控，更好的做法是直接按想要的顺序往新的ppt里添加页面，而不是先生成再重排。

文档属性：给ppt加“身份证”

每个ppt文件都自带一套元数据，就像文件的身份证——作者是谁、标题是什么、关键词有哪些。这在文件管理和搜索引擎里很有用。

python-pptx通过core_properties提供了对这些属性的读写支持。

prs = presentation()

# 查看已有属性
print(f"作者: {prs.core_properties.author}")
print(f"标题: {prs.core_properties.title}")

# 修改属性
prs.core_properties.title = "2026年q2运营分析报告"
prs.core_properties.author = "老王"
prs.core_properties.subject = "季度经营数据与趋势分析"
prs.core_properties.keywords = "运营,报告,q2"

prs.save("带属性的ppt.pptx")

你可以在windows文件资源管理器里右键点击文件→“属性”→“详细信息”里看到这些信息。

完整的属性列表包括：title（标题）、subject（主题）、author（作者）、keywords（关键词）、category（类别）、comments（备注）、content_status（内容状态）、revision（修订号）、version（版本）、identifier（标识符）、language（语言）、last_modified_by（最后修改者）。不是每个都需要填，但设置title、author和keywords对文件归档会有帮助。

全局设置：页面尺寸

有时候公司统一要求把ppt从标准4：3改成宽屏16：9。手工改几十个ppt显然不现实，用一行代码就能解决：

from pptx.util import inches

prs = presentation()

# 设置页面为宽屏16:9（宽13.33英寸，高7.5英寸）
prs.slide_width = inches(13.333)
prs.slide_height = inches(7.5)

prs.save("宽屏版.pptx")

slide_width和slide_height的单位是emu，但inches和cm这两个工具函数会自动帮你转换。

页眉页脚与幻灯片编号

幻灯片编号、页脚文字、日期这三个东西在ppt里统称为“页脚”，它们的处理方式和普通占位符有些区别。

如果你想在生成的ppt里显示幻灯片编号，不能在代码层面直接“开启”——这属于母版层级的设置。正确做法是：先手工做一个带编号的母版（在powerpoint里打开母版视图，通过“插入→幻灯片编号”菜单在母版上插入编号占位符），保存为模板文件，然后在代码里用这个模板创建新ppt。

简单说，就是“母版手工配，内容代码填”。如果你的项目中不需要编号，这个步骤可以跳过。

信息提取：读取ppt原本的页面清单

有时候你需要分析一个ppt的结构，比如看看它有多少页、每一页用的是什么布局、里面有什么占位符。

from pptx import presentation

prs = presentation("待分析的ppt.pptx")

for idx, slide in enumerate(prs.slides):
    print(f"\n=== 幻灯片 {idx+1} ===")
    print(f"使用的布局: {slide.slide_layout.name}")
    
    # 统计页面上的形状类型
    shape_types = {}
    for shape in slide.shapes:
        shape_type = type(shape).__name__
        shape_types[shape_type] = shape_types.get(shape_type, 0) + 1
    
    print(f"形状统计: {shape_types}")

这个脚本跑完，你能快速了解这份ppt的构成——是图片多还是文字多，有没有表格，结构是否合理。