提取PDF文本
Java 提取PDF 文本内容
在日常工作中,有时可能会需要从庞大的PDF 文档中提取其中所包含的文本内容。通过在网上搜索资料后发现,Free Spire.PDF for Java 正好为我们提供了一种方便快捷的文本提取方法,下面就分享一下解决思路及过程中使用到的Java 代码。
基本思路:
1.下载Free Spire.PDF for Java包并解压缩
2.将lib文件夹下的Spire.Pdf.jar包作为依赖项导入到Java应用程序中,或
者通过Maven仓库安装JAR包(配置pom.xml文件的代码见下文)
3.在Java应用程序中新建一个Java Class(此处我命名为ExtractText), 然
后输入相应的Java代码并运行
配置pom.xml文件:
PDF源文档如下:
Java代码
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class ExtractText {
public static void main(String[] args) {
//创建PdfDocument实例
PdfDocument doc = new PdfDocument();
//加载PDF文件
doc.loadFromFile("test.pdf");
//创建StringBuilder实例
StringBuilder sb = new StringBuilder();
PdfPageBase page;
//遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象
for(int i= 0;i sb.append(page.extractText(true)); } FileWriter writer; try { //将StringBuilder对象中的文本写入到文本文件 writer = new FileWriter("提取文本.txt"); writer.write(sb.toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } doc.close(); } } 提取结果: