Java在PDF中替换文字详解及可能遇到的问题_Java

前言

pdf文档中的信息随时间的推移可能会发生变化，比如产品价格、联系方式等。为了确保pdf文档保持最新，我们需要对这些信息进行更新。通过编程方式替换pdf中的相应文字，可以实现批量化处理，大大提高工作效率。这篇博客将探讨几种使用java在pdf中替换文字的不同方式，以及可能出现的问题和解决方案。

使用工具

在pdf中替换文字，可以使用spire.pdf for java库。

spire.pdf for java是一款专门为java开发人员设计的pdf文档处理库。它支持在java应用程序中创建、读取、编辑、转换和打印pdf文档。你可以使用以下代码来从maven仓库安装它:

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupid>e-iceblue</groupid>
        <artifactid>spire.pdf</artifactid>
        <version>10.6.2</version>
    </dependency>
</dependencies>

java在pdf中替换特定文字的所有实例

spire.pdf for java提供了pdftextreplacer.replacealltext()方法，支持替换pdf页面中特定文字的所有实例。具体步骤如下：

创建pdfdocument类的实例。
使用pdfdocument.loadfromfile()方法加载pdf文档。
遍历pdf文档中的页面。
为每个页面创建一个pdftextreplacer实例，并将当前页面对象作为参数传入该类的构造函数。
使用pdftextreplacer.replacealltext()方法将页面上特定文字的所有实例替换为新文字。
使用pdfdocument.savetofile() 方法保存结果文档。

import com.spire.pdf.pdfdocument;
import com.spire.pdf.pdfpagebase;
import com.spire.pdf.texts.pdftextreplacer;

public class replaceallfoundtext {
    public static void main(string[] args) {
        // 创建pdfdocument类的实例
        pdfdocument pdf = new pdfdocument();
        // 加载pdf文件
        pdf.loadfromfile("什么是python.pdf");

        // 遍历pdf文件的页面
        for (pdfpagebase page : (iterable<? extends pdfpagebase>) pdf.getpages()) {
            // 创建pdftextreplacer类的实例，并将当前页面对象作为参数传递至该类的构造函数
            pdftextreplacer textreplacer =  new pdftextreplacer(page);
            // 将当前页面上的特定文本的所有实例替换为新文本
            textreplacer.replacealltext("python", "golang");
        }

        // 将结果文件保存为一个新的pdf
        pdf.savetofile("替换所有实例.pdf");
        pdf.close();
    }
}

java在pdf中替换特定文字的第一个实例

要替换pdf页面中特定文字的第一个实例，可以使用pdftextreplacer.replacetext() 方法。具体步骤如下：

创建pdfdocument类的实例。
使用pdfdocument.loadfromfile()方法加载pdf文档。
遍历pdf文档中的页面。
为每个页面创建一个pdftextreplacer实例，并将当前页面对象作为参数传入该类的构造函数。
使用pdftextreplacer.replacetext() 方法将页面上特定文字的第一个实例替换为新文字。
使用pdfdocument.savetofile() 方法保存结果文档。

import com.spire.pdf.pdfdocument;
import com.spire.pdf.pdfpagebase;
import com.spire.pdf.texts.pdftextreplacer;

public class replacefirstfoundtext {
    public static void main(string[] args) {
        // 创建pdfdocument类的实例
        pdfdocument pdf = new pdfdocument();
        // 加载pdf文件
        pdf.loadfromfile("什么是python.pdf");

        // 遍历pdf文件的页面
        for (pdfpagebase page : (iterable<? extends pdfpagebase>) pdf.getpages()) {
            // 创建pdftextreplacer类的实例，并将当前页面对象作为参数传递至该类的构造函数
            pdftextreplacer textreplacer =  new pdftextreplacer(page);
            // 将当前页面上的特定文本的第一个实例替换为新文本
            textreplacer.replacetext("python", "golang");
        }

        // 将结果文件保存为一个新的pdf
        pdf.savetofile("替换第一个实例.pdf");
        pdf.close();
    }
}

java在pdf中使用正则表达式替换特定文字

spire.pdf for java提供了pdftextreplaceoptions类，用于指定文字替换模式。你可以通过该类的setreplacetype() 方法指定文本替换模式为使用正则表达式替换。然后使用 pdftextreplacer.setoptions() 方法应用该文字替换模式。具体步骤如下：

创建pdfdocument类的实例。
使用pdfdocument.loadfromfile()方法加载pdf文档。
创建pdftextreplaceoptions类的实例，并使用pdftextreplaceoptions.setreplacetype() 方法指定文本替换模式为使用正则表达式替换。
遍历pdf文档中的页面。
为每个页面创建一个pdftextreplacer实例，并将当前页面对象作为参数传入该类的构造函数。
使用 pdftextreplacer.setoptions() 方法应用正则表达式替换模式。
将正则表达式和新文本作为参数传入pdftextreplacer.replacealltext()方法来将页面上正则表达式匹配到的文本替换为新文本。
使用pdfdocument.savetofile() 方法保存结果文档。

import com.spire.pdf.pdfdocument;
import com.spire.pdf.pdfpagebase;
import com.spire.pdf.texts.pdftextreplaceoptions;
import com.spire.pdf.texts.pdftextreplacer;
import com.spire.pdf.texts.replaceactiontype;

import java.util.enumset;

public class replacetextwithregex {
    public static void main(string[] args) {
        // 创建pdfdocument类的实例
        pdfdocument pdf = new pdfdocument();
        // 加载pdf文件
        pdf.loadfromfile("模板.pdf");

        // 创建pdftextreplaceoptions类的实例，并指定文本替换模式为使用正则表达式替换
        pdftextreplaceoptions replaceoptions = new pdftextreplaceoptions();
        replaceoptions.setreplacetype(enumset.of(replaceactiontype.regex));

        // 遍历pdf文件的页面
        for (pdfpagebase page : (iterable<? extends pdfpagebase>) pdf.getpages()) {
            // 创建pdftextreplacer类的实例，并将当前页面对象作为参数传递至该类的构造函数
            pdftextreplacer textreplacer =  new pdftextreplacer(page);
            // 应用正则表达式替换模式
            textreplacer.setoptions(replaceoptions);

            // 设置正则表达式来匹配以 “#” 开头的文本
            string regularexpression = "\\#\\w+\\b";
            // 将页面上正则表达式匹配到的文本替换为新文本
            textreplacer.replacealltext(regularexpression, "显示器");
        }

        // 将结果文件保存为一个新的pdf
        pdf.savetofile("正则表达式替换.pdf");
        pdf.close();
    }
}

其他替换条件设置

spire.pdf for java还支持设置其他替换条件，如不区分大小写和全词匹配。具体代码如下：

import com.spire.pdf.pdfdocument;
import com.spire.pdf.pdfpagebase;
import com.spire.pdf.texts.pdftextreplaceoptions;
import com.spire.pdf.texts.pdftextreplacer;
import com.spire.pdf.texts.replaceactiontype;

import java.util.enumset;

public class otherreplacementsettings {
    public static void main(string[] args) {
        // 创建pdfdocument类的实例
        pdfdocument pdf = new pdfdocument();
        // 加载pdf文件
        pdf.loadfromfile("什么是python.pdf");

        // 创建pdftextreplaceoptions类的实例，并指定文本替换模式为不区分大小写或全词匹配
        pdftextreplaceoptions replaceoptions = new pdftextreplaceoptions();
        replaceoptions.setreplacetype(enumset.of(replaceactiontype.ignorecase));
        replaceoptions.setreplacetype(enumset.of(replaceactiontype.wholeword));

        // 遍历pdf文件的页面
        for (pdfpagebase page : (iterable<? extends pdfpagebase>) pdf.getpages()) {
            // 创建pdftextreplacer类的实例，并将当前页面对象作为参数传递至该类的构造函数
            pdftextreplacer textreplacer =  new pdftextreplacer(page);
            // 应用文本替换模式
            textreplacer.setoptions(replaceoptions);

            // 将页面上特定文本替换为新文本
            textreplacer.replacealltext("python", "golang");
        }

        // 将结果文件保存为一个新的pdf
        pdf.savetofile("其他替换条件.pdf");
        pdf.close();
    }
}

可能出现的问题及解决方案

当使用 pdftextreplacer类的方法进行文本替换时，默认情况下，替换后的新文本会使用pdf文档中原始文本的字体来绘制。如果原始文本所使用的字体不支持新文本所使用的语言，那么新文本就无法正确地显示出来。这种情况通常会出现在需要替换不同语言的文本时。比如，原文是英文，需要替换为中文，但是英文字体可能不支持显示中文字符。为解决这个问题，可以考虑以下2种方法：

文档使用能够兼容原文本和新文本的语言的字体。
采用另一种方法替换文本：通过在原始文本上绘制矩形覆盖它，然后在矩形内绘制新文本，注意这种方式不能保留原始文本的样式，需要自己设置新文本的样式，效果没有使用pdftextreplacer方法好。具体代码如下：

import com.spire.pdf.*;
import com.spire.pdf.graphics.*;
import com.spire.pdf.texts.*;

import java.awt.*;
import java.awt.geom.rectangle2d;
import java.util.list;

public class replacetextbydrawingrectangle {
    public static void main(string[] args) {
        // 创建pdfdocument类的实例
        pdfdocument pdf = new pdfdocument();
        // 加载pdf文件
        pdf.loadfromfile("adobe acrobat.pdf");

        // 定义字体（如果字体已安装在系统中）
        pdftruetypefont font = new pdftruetypefont(new font("宋体", font.plain, 11));
        // 如果字体未安装在系统中，使用以下代码
        // pdftruetypefont font = new pdftruetypefont("字体文件.ttf", 11);

        pdfstringformat format = new pdfstringformat();
        format.setlinelimit(false);

        list<pdftextfragment> results = null;
        // 遍历pdf文件的页面
        for (pdfpagebase page : (iterable<? extends pdfpagebase>) pdf.getpages()) {
            // 创建 pdftextfinder 实例
            pdftextfinder finder = new pdftextfinder(page);
            // 查找特定文本
            results =  finder.find("adobe acrobat");
            // 遍历找到的所有实例
            for (pdftextfragment text : results) {
                // 获取文本所在的矩形区域
                 rectangle2d rect = text.getbounds()[0];
                // 在该区域画一个新的矩形覆盖原来的文本
                page.getcanvas().drawrectangle(pdfbrushes.getwhite(), rect);
                // 在新的矩形中绘制新文本
                page.getcanvas().drawstring("pdf编辑器", font, pdfbrushes.getdarkblue(), rect, format);
            }
        }

        // 将结果文件保存为一个新的pdf
        pdf.savetofile("覆盖文本.pdf");
        pdf.close();
    }
}

以上就是使用java在pdf中替换文字的全部内容。