株式会社インデペンデンスシステムズ横浜

システム開発エンジニアの西田五郎が運営しております。Raspberry Pi や Arduino その他新規開発案件のご依頼をお待ちしております。

Tesseract-OCR

Tesseract-OCRの導入(その1)インストールから動作確認まで

投稿日:2014年11月24日 更新日:

Tesseract-OCRは元々の開発がHPで現在はGoogleで公開されているオープンソースのOCRエンジンです。このTesseract-OCRを導入して使ってみました。今回はまずはインストールから英数字と簡単な日本語での動作確認です。ここでの動作環境はWindows8.1です。

インストール
2019/07/20 追記です。
この記事を書いてから随分と経過しました。完全に情報が古くなっています。Tesseract-OCRのサイトは以下です。
https://github.com/tesseract-ocr/tesseract/wiki

今現在では、Windows版のインストーラは以下からダウンロード出来ます。Mannheimというのはドイツのマンハイム大学のようです。今現在でVer5.0.0-alphaが公開されています。
Tesseract at UB Mannheim
詳細が必要な場合は、外部のサイトになりますが以下等を参照して下さい。
PythonとTesseract OCRで文字認識
文字認識:tesseract-ocrをインストールしてみた
文字認識:tesseract-ocrを使ってみた
2019/07/20 追記はここまでです。

以下のページからここではWindowsのSetup実行形式からインストールします。今現在での最新版のファイル名、tesseract-ocr-setup-3.02.02.exe のリンクからこのファイルのダウンロードページへ移動します。リンク先のページでSetupファイルをダウンロードします。
Tesseract-OCR 現バージョンのダウンロードファイルリスト

ダウンロードしたファイルを実行して指示に従ってインストールをします。インストールが完了したらコマンドラインを使うので念のためWindowsを再起動します。

動作確認
コマンドプロンプトで任意のフォルダ上で、tesseract と入力します。インストールが正常に完了していると以下のように使い方の説明が表示されると思います。
0001

入力ファイルを用意します。まずは簡単なところで以下のような画像を作成しました。単純にWindows標準のペイントで作成しました。
tess1

コマンドプロンプトで以下のように実行します。ここで、tess1.png は上の入力ファイルのファイル名です。このディレクトリ直下にあります。result は解析結果のファイル名です。
tesseract tess1.png result
0010

result.txtが出力されたので内容を確認します。確かに、ABC123の文字が出力されました。
0012

日本語の認識
次に日本語を認識してみます。まず上記のダウンロードリストページから、今現在の日本語 データをダウンロードします。ファイル名 tesseract-ocr-3.02.jpn.tar.gz です。これを解凍してjpn.traineddata を tesseractインストールディレクトリのtessdata 配下にコピーします。ここでは以下のようになりました。
0013

日本語を含む画像を作成します。ここではやはりWindowsのペイントで以下のような画像を作成しました。これぐらいなら認識出来るだろうということです。
jpn1

コマンドプロンプトで以下のように実行します。ここで、英数字の場合と同様に、jpn1.png が画像のファイル名で、result は解析結果のファイル名です。あと、-l jpn で日本語を指定します。
tesseract jpn1.png result -l jpn
0019

結果(UTF-8)をメモ帳で確認します。何とか解析出来たようです。
0022

次の段階として機械学習で精度の向上という作業があるかとは思いますが、次回はAPIを使ってみます。

関連書籍


AdSense

AdSense

-Tesseract-OCR

執筆者:

関連記事

Tesseract-OCRの導入(その3)OpenCVの出力を認識する

2019/07/20追記 この記事を書いてから随分と経過しました。完全に情報が古くなっています。外部のサイトですが必要な場合は以下等を参照して下さい。 PythonとTesseract OCRで文字認 …

Tesseract-OCRの導入(その2)Visual Studio2013でのAPIの利用

2019/07/20追記 この記事を書いてから随分と経過しました。完全に情報が古くなっています。外部のサイトですが必要な場合は以下等を参照して下さい。 PythonとTesseract OCRで文字認 …