ガンダムコレクション改造日記

ガンコレの改造・塗装・ジオラマ作成の途中経過の写真付き日記

2010年09月04日

ES-D200でOCRを使ったレビュー

レビューというより自分用のメモ書き。

人が書いたOCR術などを読んでしまうと先入観ができてしまうので、自分で実験してから読もうと思う。

ES-D200には3種類のOCRがある(らしい)。

1.ADBE Acrobat

2.読んde!!ココ

3.EPSON Event Manager

3はスキャンとOCRを同時にやるみたいなのでパス。スキャンはスキャン、OCRはOCRと分けて作業したいので。

将来OCRの性能があがるだろうから、原画のJPEGファイルはとっておく予定。

まず、原画の作成・・・スキャン設定をどうするか検証する。

スキャン設定としては

1.解像度・・・300dpi, 600dpi

2.色数・・・グレイスケール、モノクロ

3.画質補正・・・なし、輪郭シャープ

と8通りある。

OCR保存したいのはソースファイルなどがのっているコンピューター雑誌なので、雑誌のとある1ページを使って試す。

まずACROBATを使って600dpiでのOCR結果の比較をしてみる。

日本語はどれもほぼ完ぺきな認識。問題なし。

ソースコード部分は、グレイ補正なしのほうがいい感じ。 グレイ・シャープのほうが誤認識が多い。

モノクロは論外。ソース部分がグレイのバック時黒で文字が書いてあり、まったく認識されていなかった。

次に600dpiと300dpiを比較。モノクロは論外なのでグレイの補正なしで比較。

大見出しは600dpiでは文字として認識されなかった(大きすぎ?)が、300dpiは認識されていいた。

ソースコードの認識は、

600dpi

> CTweetOverlayltem.javal

> public class TweetOverlayItem extends OverlayItem {

> Tweet tweet;

> pub lic TweetOverlayItem(GeoPoint point,

> String title,

> St ring snippet,

> Tweet tweet) {

300dpi

> (TweetOverlayltem.java)

> pUblic class TweetOverlayItem extends OverlayItem {

> Tweet tweet;

> public TweetOverlayItem(GeoPoint point,

> 5t ring ti tle,

> 5t ring snippet,

> Tweet tweet) {

600dpiは左かっこがCになっている箇所がかなりある(ほとんど)。しかし300dpiの「String」を「5tring」と認識しているのはちょっとまずい。

しかし600dpiのほうもほどほどに誤認識があるので誤差と考えると、画像サイズ的に300dpiのほうがいい?

300dpi ・・・ 1.2MB。600dpi ・・・ 3.7MB。

次に読んde!!ココ。

300dpiグレイスケール補正なし

日本語は問題なし。▼や■という記号をちゃんと認識している。タイトル・サブタイトルという大きい文字も認識。

ソースコードは・・・・

> (TweetOverlayltemjava)

> P〕blic ctaSS TweetOvertayItemext即ds Overlay夏teml

> Tweet tweet;

> pubticTweetOverlayItem(GeoPointpoint.

> Stri咽titte.

> String snlPPet,

> Tweet軸eet)‡

> SUPer(POint.titte.Snippet);

> this.tweet=tWeet;

> ナ

> ナ

ボロボロ・・・。補正ありも同じ。モノクロ補正なしは文字として認識はしていたが同じくボロボロ。

次に600dpiグレイスケール補正なし。

日本語は問題なし。

> (1両eetOverlayltemJava)

> publicclassTweetOvertayItemextendsOverlayItemt

> Tweet tweet;

> pubucTweetOverlay工tem(GeoPo土ntpolnt

> String titte,

> String snlPPet

> Tweet tweet)t

> super(POint,titte,Snippet);

> this.tweet=tWeet;

> )

> )

かなり良い。"}"が")"となるのはいまいちだけど、検索には使わないのでOK。大文字・小文字も検索には関係ないのでOK。

グレイスケール補正ありはボロボロ。モノクロは認識すらされなかった。

使い勝手はAcrobatのほうがいい。

Actobatのほうは、600dpiも300dpiも結果はあまり変わらないので小さいほうがいい。

結論

1.色調はグレースケール

2.輪郭補正はなし

3.OCRはAcrobat

4.サイズは300dpiで十分

300dpi グレイスケール補正なし画像はこちら

Ocr300dpigray


書籍・雑誌