ローカル環境(OS: CentOS6.2) 2012年6月20日現在ソフトウェアの最新バージョン
Tesseract OCR 3.01
Leptonica 1.68
ステップ1.Google code(下記アドレス)より必要ファイルをダウンロードしてくる
http://code.google.com/p/tesseract-ocr/downloads/list
日本語と英語の認識用に必要なファイルは3つ (他にも多くの言語があるので必要ならダウンロードする。)
tesseract-3.01.tar.gz # Tesseract OCR本体
tesseract-ocr-3.01.eng.tar.gz # 英語データファイル
jpn.traineddata.gz # 日本語データファイル
ステップ2.Tesseract本体インストールに必要なライブラリをインストールする# yum install libpng-devel libjpeg-devel libtiff-devel zlib-devel
# yum install autoconf automake libtool
ステップ3.画像処理ライブラリであるLeptonicaをインストールする(なくても動くそうですが、一応入れる)
ソースファイルをダウンロード
http://www.leptonica.com/source/leptonica-1.68.tar.gz
# tar -xvzf leptonica1-68.tar.gz
# cd leptonica-1.68
# ./configure
# make
# make install
ステップ4.最後にTesseractをインストール
# tar -xvzf tesseract-3.01.tar.gz
# cd tesseract-3.01
# ./autogen.sh
# ./configure
# make
# make install
続いて英語と日本語の言語データファイルを解凍する
# tar -xvzf tesseract-ocr-3.01.eng.tar.gz
# gunzip jpn.traineddata.gz
解凍してできたファイルをすべて
/usr/local/share/tessdata/ ← 移動先は自分の環境に合わせて変更すること
ディレクトリの中に移動する。これでインストール完了
使い方 image.tiff(画像ファイル)を読み込んで、result.txtに結果を出力する場合
$ tesseract image.tiff result
日本語など他の言語の場合はオプション -l を使用する例.日本語の場合
$ tesseract image.tiff result -l jpn
感想:手書きの文字認識精度は今ひとつといった感じでした。 オプションでいろいろ調整できそうなので今後試してみようと思います。
0 件のコメント:
コメントを投稿