平时使用扫描件或者pdf查看文档,但是在ipad上当文字比较小的时候不能有效放大,过着每次阅读需要移动屏幕,十分不方便,为此想将pdf或者图片中的文字截取出来,可以有效处理,当然需要ocr技术了,现在我们就来考虑和解决这个问题。
1、技术准备:os为 linux mint 13(基于Ubuntu 12.04的)ocr软件:tesseract,执行文件为tesseract gocrpdf处理软件:pdftoxxx,比如pdftotext等tiff处理如案件:比如tiff2pdf等等
2、安装软件sudo apt-get install gocrsudo apt-get install tesseract-ocrsudo apt-get install libtiff-tools对于tesseract需要设置语言包,可以在观望上下载具体中文语言包,比如简体的就是chi_sim,然后加入到一个环境变量中mv chi_sim.traineddata /usr/local/share/tessdata export TESSDATA_PREFIX=/usr/local/share/
3、tif文件转文字 tif-->text直接使用tesseract即可,如下:tesseract a.tif a.txt -l chi_sim以上支持多页单文件tif
4、pdf文件转文字 pdf-->text如果pdf本来就是文字格式的,那么很简单,直接转换即可pdftotext a.pdf a.txt如果pdf内部内容是图片,则无法通过以上方法去的内容,首相将pdf转换成为ppm,然后从ppm装换为文字:pdf-->多个ppm-->多个txtpdf2ppm a.pdf a产生a1.ppm,a2.ppm.....然后通过tesseract转换tesseract a1.tif a1.txt -l chi_simLinux中find命令使用Linux Mount Windows域用户限制的共享文件夹相关资讯 Ubuntu系统教程
- 联想超极本Ubuntu系统无法开启无线 (04/11/2015 06:36:35)
- Ubuntu 更改文件夹权限 (02/04/2013 21:00:15)
- 去除DVSDK中的Ubuntu版本限制 (01/29/2013 09:04:07)
| - Ubuntu下映射网络驱动器 (07/05/2013 20:10:25)
- Ubuntu创建桌面快捷方式 (02/01/2013 15:53:27)
- Ubuntu 12.04下快捷键截图谷歌插件 (12/28/2012 10:53:36)
|
本文评论 查看全部评论 (1)
评论声明- 尊重网上道德,遵守中华人民共和国的各项有关法律法规
- 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
- 本站管理人员有权保留或删除其管辖留言中的任意内容
-
|