利用PDFBox管理PDF文书档案

作者: 操作系统  发布:2019-09-03

使用PDFBox处理PDF文档

1、使用PDFBox处理PDF文档

PDF全称Portable Document Format,是Adobe公司开拓的电子文件格式。这种文件格式与操作系统平台非亲非故,能够在Windows、Unix或Mac OS等操作系统上通用。

PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。假如要抽取个中的公文音信,供给依赖它的文件格式来拓宽剖判。幸好前段时间一度有过多工具能援助大家做这个业务。

2、PDFBox的下载

最广大的一种PDF文本收取工具正是PDFBox了,访谈网站 PDF库,那一个库允许你拜候PDF文件的各样消息。在接下去的例子中,将演示如何利用PDFBox提供的API,从一个PDF文件中领抽出文本音讯。

3、在Eclipse中配置

以下是在Eclipse中开创工程,并创设分析PDF文件的工具类的经过。

(1)在Eclipse的workspace中开创多个数见不鲜的Java工程:ch7。

(2)把下载的PDFBox-0.7.3.zip解压。

(3)进入external目录下,能够看出,这里蕴含了PDFBox全体应用的外表包。复制上面的Jar包到工程ch7的lib目录下(如还未建构lib目录,则先创设两个)。

l bcmail-jdk14-132.jar

l bcprov-jdk14-132.jar

l checkstyle-all-4.2.jar

l FontBox-0.1.0-dev.jar

l lucene-core-2.0.0.jar

下一场再从PDFBox的lib目录下,复制PDFBox-0.7.3.jar到工程的lib目录下。

(4)在工程上单击右键,在弹出的急迅菜单中采取“Build Path->Config Build Path->Add Jars”命令,把工程lib目录上边包车型大巴包都参加工程的Build Path。

4、使用PDFBox解析PDF内容

在刚刚成立的Eclipse工程中,创制四个ch7.pdfbox包,并创办一个PdfboxTest类。该类包涵贰个getText方法,用于从三个PDF中获取文本音信,其代码如下。
import java.io.BufferedWriter;
 import java.io.FileInputStream;
 import java.io.FileWriter;

 import org.pdfbox.pdfparser.PDFParser;
 import org.pdfbox.util.PDFTextStripper;

 public class PdfParser {

    /**
    * @param args
    */
    // TODO 自动生成方法存根

      public  static  void  main(String[]  args)  throws  Exception{
            FileInputStream  fis  =  new  FileInputStream("F:\task\lerman-atem2001.pdf");
            BufferedWriter writer = new BufferedWriter(new FileWriter("F:\task\pdf_change.txt"));
            PDFParser  p  =  new  PDFParser(fis);
            p.parse();       
            PDFTextStripper  ts  =  new  PDFTextStripper();       
            String  s  =  ts.getText(p.getPDDocument());
            writer.write(s);
            System.out.println(s);
            fis.close();
            writer.close();
         
  }
 }

越来越多详细情形见请继续读书下一页的优异内容:

  • 1
  • 2
  • 下一页

1、使用PDFBox管理PDF文书档案PDF全称Portable Document Format,是Adobe集团支付的电子文件格式。这种文件格式与操作系统平台无...

本文由王中王开奖结果发布于操作系统,转载请注明出处:利用PDFBox管理PDF文书档案

关键词:

上一篇:挂载移动硬盘后局地分区不能辨别
下一篇:没有了