使用PDFBox处理PDF文档

1、使用PDFBox处理PDF文档PDF全称Portable Document Format，是Adobe公司开发的电子文件格式。这种文件格式与操作系统平台无关，可以在Windows、Unix或Mac OS等操作系统上通用。PDF文件格式将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。如果要抽取其中的文本信息，需要根据它的文件格式来进行解析。幸好目前已经有不少工具能帮助我们做这些事情。2、PDFBox的下载最常见的一种PDF文本抽取工具就是PDFBox了，访问网址http://sourceforge.net/projects/pdfbox/，进入下载界面。读者可以在该网页下载其最新的版本。本文采用的是PDFBox-0.7.3版本。PDFBox是一个开源的Java PDF库，这个库允许你访问PDF文件的各项信息。在接下来的例子中，将演示如何使用PDFBox提供的API，从一个PDF文件中提取出文本信息。3、在Eclipse中配置以下是在Eclipse中创建工程，并建立解析PDF文件的工具类的过程。（1）在Eclipse的workspace中创建一个普通的Java工程：ch7。（2）把下载的PDFBox-0.7.3.zip解压。（3）进入external目录下，可以看到，这里包括了PDFBox所有用到的外部包。复制下面的Jar包到工程ch7的lib目录下（如还未建立lib目录，则先创建一个）。l bcmail-jdk14-132.jarl bcprov-jdk14-132.jarl checkstyle-all-4.2.jarl FontBox-0.1.0-dev.jarl lucene-core-2.0.0.jar然后再从PDFBox的lib目录下，复制PDFBox-0.7.3.jar到工程的lib目录下。（4）在工程上单击右键，在弹出的快捷菜单中选择“Build Path->Config Build Path->Add Jars”命令，把工程lib目录下面的包都加入工程的Build Path。4、使用PDFBox解析PDF内容在刚刚创建的Eclipse工程中，创建一个ch7.pdfbox包，并创建一个PdfboxTest类。该类包含一个getText方法，用于从一个PDF中获取文本信息，其代码如下。
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileWriter; import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;
public class PdfParser { /**
* @param args
*/
// TODO 自动生成方法存根 public static void main（String[] args） throws Exception{
FileInputStream fis = new FileInputStream（"F:\task\lerman-atem2001.pdf"）;
BufferedWriter writer = new BufferedWriter（new FileWriter（"F:\task\pdf_change.txt"））;
PDFParser p = new PDFParser（fis）;
p.parse（）;
PDFTextStripper ts = new PDFTextStripper（）;
String s = ts.getText（p.getPDDocument（））;
writer.write（s）;
System.out.println（s）;
fis.close（）;
writer.close（）;

}
}更多详情见请继续阅读下一页的精彩内容： http://www.linuxidc.com/Linux/2014-06/103584p2.htm

在Linux桌面上观看2014年巴西世界杯比赛！使用PDFBox解析PDF文件相关资讯 PDFBox PDFBox使用

Apache PDFBox v2.0.2 发布，开源（06月11日）
Apache PDFBox 1.8.11 发布下载，（01月19日）
PDFBox 2.0.0 RC2 发布下载，Java （11/23/2015 09:45:41）

Apache PDFBox XML外部实体注入漏（06月03日）
Apache PDFBox 2.0.0 RC3 发布下载（01月17日）
Apache PDFBox 2.0.0 RC1 发布下载（10/21/2015 17:25:41）

本文评论查看全部评论（0）

表情：姓名：匿名字数

<button class="layui-btn layui-bg-purple" id="dofav">收藏该网址</button>
        </div>
    </div>
</div>
<div class="copyright">
    <div id="footbar">
        版权所有©石家庄振强科技有限公司2024 <a href="https://beian.miit.gov.cn" target="_blank">冀ICP备08103738号-5</a> <a href="/storage/sitemap.xml">网站地图</a>
    </div>
</div>
<script> var _mtj = _mtj || [];
(function () {
    var mtj = document.createElement("script");
    mtj.src = "https://node12.aizhantj.com:21233/tjjs/?k=p2tceukth5c";
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(mtj, s);
})(); </script>
<script src="/static/lib/layui/layui.js"></script>
<script src="/static/lib/jquery/jquery.js"></script>
<script src="/static/lib/ajax.js"></script>
<script>
    layui.use(function () {
        var layer = layui.layer;
        var $ = layui.jquery;
        $("#dofav").click(function () {
            var artid = $(".article").attr("artid");
            var params={
                artid:artid,
                addtype:'escdns_article',
                t:Math.random()
            };
            if(artid>0){
                ajax.request({
                    method: "/index/article/addfavorite", type: "post", callback: function (res) {
                        layer.msg(res.msg);
                    }
                },params);
            }
        })
    })
</script>
</body>
</html>