2012年6月20日水曜日

Tesseract OCR 3.01 and Leptonica 1.68 Installation on CentOS 6.2

googleのオープンソース文字認識ソフト Tesseract OCR をインストールする。

ローカル環境(OS: CentOS6.2) 2012年6月20日現在ソフトウェアの最新バージョン
Tesseract OCR 3.01
Leptonica 1.68

ステップ1.Google code(下記アドレス)より必要ファイルをダウンロードしてくる

http://code.google.com/p/tesseract-ocr/downloads/list

日本語と英語の認識用に必要なファイルは3つ (他にも多くの言語があるので必要ならダウンロードする。)
tesseract-3.01.tar.gz        # Tesseract OCR本体
tesseract-ocr-3.01.eng.tar.gz   # 英語データファイル
jpn.traineddata.gz          # 日本語データファイル



ステップ2.Tesseract本体インストールに必要なライブラリをインストールする

# yum install libpng-devel libjpeg-devel libtiff-devel zlib-devel
# yum install autoconf automake libtool



ステップ3.画像処理ライブラリであるLeptonicaをインストールする(なくても動くそうですが、一応入れる)

ソースファイルをダウンロード
http://www.leptonica.com/source/leptonica-1.68.tar.gz


# tar -xvzf leptonica1-68.tar.gz
# cd leptonica-1.68
# ./configure
# make
# make install



ステップ4.最後にTesseractをインストール

# tar -xvzf tesseract-3.01.tar.gz
# cd tesseract-3.01
# ./autogen.sh
# ./configure
# make
# make install


続いて英語と日本語の言語データファイルを解凍する
# tar -xvzf tesseract-ocr-3.01.eng.tar.gz 
# gunzip jpn.traineddata.gz 

解凍してできたファイルをすべて  
/usr/local/share/tessdata/    ← 移動先は自分の環境に合わせて変更すること
ディレクトリの中に移動する。

これでインストール完了



使い方 image.tiff(画像ファイル)を読み込んで、result.txtに結果を出力する場合 
$ tesseract image.tiff result 

日本語など他の言語の場合はオプション -l を使用する

例.日本語の場合  
$ tesseract image.tiff result -l jpn 





感想:
手書きの文字認識精度は今ひとつといった感じでした。 オプションでいろいろ調整できそうなので今後試してみようと思います。

0 件のコメント:

コメントを投稿