Tesseract-OCRの導入(その1)インストールから動作確認まで – 株式会社インデペンデンスシステムズ横浜

Tesseract-OCRは元々の開発がHPで現在はGoogleで公開されているオープンソースのOCRエンジンです。このTesseract-OCRを導入して使ってみました。今回はまずはインストールから英数字と簡単な日本語での動作確認です。ここでの動作環境はWindows8.1です。

インストール
2019/07/20 追記です。
この記事を書いてから随分と経過しました。完全に情報が古くなっています。Tesseract-OCRのサイトは以下です。
https://github.com/tesseract-ocr/tesseract/wiki

今現在では、Windows版のインストーラは以下からダウンロード出来ます。Mannheimというのはドイツのマンハイム大学のようです。今現在でVer5.0.0-alphaが公開されています。
Tesseract at UB Mannheim
詳細が必要な場合は、外部のサイトになりますが以下等を参照して下さい。
PythonとTesseract OCRで文字認識
 文字認識：tesseract-ocrをインストールしてみた
 文字認識：tesseract-ocrを使ってみた
2019/07/20 追記はここまでです。

以下のページからここではWindowsのSetup実行形式からインストールします。今現在での最新版のファイル名、tesseract-ocr-setup-3.02.02.exe のリンクからこのファイルのダウンロードページへ移動します。リンク先のページでSetupファイルをダウンロードします。
Tesseract-OCR 現バージョンのダウンロードファイルリスト

ダウンロードしたファイルを実行して指示に従ってインストールをします。インストールが完了したらコマンドラインを使うので念のためWindowsを再起動します。

動作確認
コマンドプロンプトで任意のフォルダ上で、tesseract と入力します。インストールが正常に完了していると以下のように使い方の説明が表示されると思います。

入力ファイルを用意します。まずは簡単なところで以下のような画像を作成しました。単純にWindows標準のペイントで作成しました。

コマンドプロンプトで以下のように実行します。ここで、tess1.png は上の入力ファイルのファイル名です。このディレクトリ直下にあります。result は解析結果のファイル名です。
tesseract tess1.png result

result.txtが出力されたので内容を確認します。確かに、ABC123の文字が出力されました。

日本語の認識
次に日本語を認識してみます。まず上記のダウンロードリストページから、今現在の日本語データをダウンロードします。ファイル名 tesseract-ocr-3.02.jpn.tar.gz です。これを解凍してjpn.traineddata を tesseractインストールディレクトリのtessdata 配下にコピーします。ここでは以下のようになりました。

日本語を含む画像を作成します。ここではやはりWindowsのペイントで以下のような画像を作成しました。これぐらいなら認識出来るだろうということです。

コマンドプロンプトで以下のように実行します。ここで、英数字の場合と同様に、jpn1.png が画像のファイル名で、result は解析結果のファイル名です。あと、-l jpn で日本語を指定します。
tesseract jpn1.png result -l jpn

結果(UTF-8)をメモ帳で確認します。何とか解析出来たようです。

次の段階として機械学習で精度の向上という作業があるかとは思いますが、次回はAPIを使ってみます。