Welcome 微信登录

首页 / 操作系统 / Linux / Ubuntu下安装使用 tesseract-ocr

tesseract-ocr是开源的光学字符识别引擎,有Google的支持,支持很多种语言的识别,下面说一下 我在Ubuntu下安装步骤 其实官方文档上说的很细,下面列出其中的命令,
  1. sudo apt-get install autoconf automake libtool  
  2. sudo apt-get install libpng12-dev  
  3. sudo apt-get install libjpeg62-dev  
  4. sudo apt-get install libtiff4-dev  
  5. sudo apt-get install zlib1g-dev  
注意最后一个zlib1g-dev中的1g是数字1,而不是小写字母l,
  1. sudo apt-get install libleptonica-dev  
下载源文件包解压(目前是3.0),进入目录
  1. ./runautoconf  
  2. ./configure  
  3. make  
  4. sudo make install  
下载语言数据包解压:你可以在这找到更多的语言包
  1. gzip -d eng.traineddata.gz  
移动到数据包安装目录下,默认为 /usr/local/share/tessdata
  1. mv eng.traineddata /usr/local/share/tessdata  
  2.   
  3. export TESSDATA_PREFIX=/usr/local/share/  
安装图片格式转换工具,因为tesseract只识别tif格式的图片。
  1. apt-get install imagemagick  
你可以使用下面的命令转换图片
  1. convert a.jpg a.tif  
好了,测试一下吧
  1. tesseract <image> <outputbasename> [-l lang] [configs]  
  2.   
  3. tesseract a.tif a  
默认为英语,如果你要识别其它语言请使用-l 参数指定,如
  1. tesseract a.tif a -l chi_sim  
  2.   
  3. cat a.txt  
你将会看到识别出的文字,太棒了。好了,下面就可以用程序去调用识别文字了, 对于java你也可以使用tess4j封装的API,对于PHP你可以使用exec调用再对文件进行处理,
如果你遇到 lib **.so 找不到请运行
  1. sudo ldconfig  
Linux下解决sudo输入命令不能自动补全Linux内核移植-移植2.6.35.4内核到s3c2440相关资讯      Ubuntu教程  tesseract-ocr 
  • Ubuntu教程 - 使用Ubuntu拷贝CD和  (12/18/2013 14:38:16)
  • 让Ubuntu 12.10支持RAR和7Z文件解  (11/15/2012 18:51:50)
  • Windows 7硬盘安装Ubuntu 12.10图  (11/03/2012 19:22:47)
  • 完美安装Ubuntu 12.10最新AMD显卡  (11/27/2012 08:17:47)
  • Win 7硬盘安装Ubuntu 12.10  (11/05/2012 13:30:34)
  • 虚拟机上Ubuntu 11.10升级到12.04  (10/12/2012 20:00:38)
本文评论 查看全部评论 (0)
表情: 姓名: 字数