株式会社インデペンデンスシステムズ横浜

システム開発エンジニアの西田五郎が運営しております。新規開発案件のご依頼をお待ちしております。

*

Tesseract-OCRの導入(その1)インストールから動作確認まで

   

Tesseract-OCRは元々の開発がHPで現在はGoogleで公開されているオープンソースのOCRエンジンです。このTesseract-OCRを導入して使ってみました。今回はまずはインストールから英数字と簡単な日本語での動作確認です。ここでの動作環境はWindows8.1です。

インストール
以下のページからここではWindowsのSetup実行形式からインストールします。今現在での最新版のファイル名、tesseract-ocr-setup-3.02.02.exe のリンクからこのファイルのダウンロードページへ移動します。リンク先のページでSetupファイルをダウンロードします。
Tesseract-OCR 現バージョンのダウンロードファイルリスト

ダウンロードしたファイルを実行して指示に従ってインストールをします。インストールが完了したらコマンドラインを使うので念のためWindowsを再起動します。

動作確認
コマンドプロンプトで任意のフォルダ上で、tesseract と入力します。インストールが正常に完了していると以下のように使い方の説明が表示されると思います。
0001

入力ファイルを用意します。まずは簡単なところで以下のような画像を作成しました。単純にWindows標準のペイントで作成しました。
tess1

コマンドプロンプトで以下のように実行します。ここで、tess1.png は上の入力ファイルのファイル名です。このディレクトリ直下にあります。result は解析結果のファイル名です。
tesseract tess1.png result
0010

result.txtが出力されたので内容を確認します。確かに、ABC123の文字が出力されました。
0012

日本語の認識
次に日本語を認識してみます。まず上記のダウンロードリストページから、今現在の日本語 データをダウンロードします。ファイル名 tesseract-ocr-3.02.jpn.tar.gz です。これを解凍してjpn.traineddata を tesseractインストールディレクトリのtessdata 配下にコピーします。ここでは以下のようになりました。
0013

日本語を含む画像を作成します。ここではやはりWindowsのペイントで以下のような画像を作成しました。これぐらいなら認識出来るだろうということです。
jpn1

コマンドプロンプトで以下のように実行します。ここで、英数字の場合と同様に、jpn1.png が画像のファイル名で、result は解析結果のファイル名です。あと、-l jpn で日本語を指定します。
tesseract jpn1.png result -l jpn
0019

結果(UTF-8)をメモ帳で確認します。何とか解析出来たようです。
0022

次の段階として機械学習で精度の向上という作業があるかとは思いますが、次回はAPIを使ってみます。

関連サイト
Tesseract-OCRの学習

関連書籍


 - Tesseract-OCR

AdSense

AdSense

  関連記事

Tesseract-OCRの導入(その2)Visual Studio2013でのAPIの利用

Tesseract-OCRの導入の2回目です。前回はインストールからコマンドプロ …

Tesseract-OCRの導入(その3)OpenCVの出力を認識する

Tesseract-OCRの導入の3回目です。前回はvc++のコンソールアプリか …