使用PDFBox解析PDF文件
今天在Nutch源码中准备增加一个PDF处理方面的功能,其中要做的一步是提取出PDF文档中的文本信息。考虑了一下,还是准备使用PDFBox。看了一下,Nutch源码中的parse-tika插件下有一个PDFBox,不过是1.1.0版本,很多PDF文档都处理不了。现在官网上最新的版本已经是1.6.0了,于是准备替换一下。由于自己不喜欢看英文说明,在弄的时候倒是费了一番周折。我一开始只下载了pdfbox-1.6.0.jar,替换了老版本的jar包,程序报错。无...