Magic Castanets' Blog: Tesseract OCR 3.01 and Leptonica 1.68 Installation on CentOS 6.2

googleのオープンソース文字認識ソフト Tesseract OCR をインストールする。

ローカル環境（OS: CentOS6.2) 2012年6月20日現在ソフトウェアの最新バージョン
Tesseract OCR 3.01
Leptonica 1.68

ステップ１．Google code（下記アドレス）より必要ファイルをダウンロードしてくる

http://code.google.com/p/tesseract-ocr/downloads/list

日本語と英語の認識用に必要なファイルは3つ（他にも多くの言語があるので必要ならダウンロードする。）
tesseract-3.01.tar.gz　　　　　　# Tesseract OCR本体
tesseract-ocr-3.01.eng.tar.gz　　# 英語データファイル
jpn.traineddata.gz　　　　　　　　 #　日本語データファイル

ステップ２．Tesseract本体インストールに必要なライブラリをインストールする

# yum install libpng-devel libjpeg-devel libtiff-devel zlib-devel
# yum install autoconf automake libtool

ステップ３．画像処理ライブラリであるLeptonicaをインストールする（なくても動くそうですが、一応入れる）

ソースファイルをダウンロード
http://www.leptonica.com/source/leptonica-1.68.tar.gz

# tar -xvzf leptonica1-68.tar.gz
# cd leptonica-1.68
# ./configure
# make
# make install

ステップ４．最後にTesseractをインストール


# tar -xvzf tesseract-3.01.tar.gz

# cd tesseract-3.01
# ./autogen.sh
# ./configure
# make
# make install

続いて英語と日本語の言語データファイルを解凍する
# tar -xvzf tesseract-ocr-3.01.eng.tar.gz
# gunzip jpn.traineddata.gz

解凍してできたファイルをすべて
/usr/local/share/tessdata/ 　　 ←　移動先は自分の環境に合わせて変更すること
ディレクトリの中に移動する。

これでインストール完了

使い方 image.tiff(画像ファイル)を読み込んで、result.txtに結果を出力する場合
$ tesseract image.tiff result

日本語など他の言語の場合はオプション -l を使用する

例．日本語の場合
$ tesseract image.tiff result -l jpn

感想：
手書きの文字認識精度は今ひとつといった感じでした。オプションでいろいろ調整できそうなので今後試してみようと思います。

Magic Castanets' Blog

2012年6月20日水曜日

Tesseract OCR 3.01 and Leptonica 1.68 Installation on CentOS 6.2

0 件のコメント:

コメントを投稿