レビューというより自分用のメモ書き。
人が書いたOCR術などを読んでしまうと先入観ができてしまうので、自分で実験してから読もうと思う。
ES-D200には3種類のOCRがある(らしい)。
1.ADBE Acrobat
2.読んde!!ココ
3.EPSON Event Manager
3はスキャンとOCRを同時にやるみたいなのでパス。スキャンはスキャン、OCRはOCRと分けて作業したいので。
将来OCRの性能があがるだろうから、原画のJPEGファイルはとっておく予定。
まず、原画の作成・・・スキャン設定をどうするか検証する。
スキャン設定としては
1.解像度・・・300dpi, 600dpi
2.色数・・・グレイスケール、モノクロ
3.画質補正・・・なし、輪郭シャープ
と8通りある。
OCR保存したいのはソースファイルなどがのっているコンピューター雑誌なので、雑誌のとある1ページを使って試す。
まずACROBATを使って600dpiでのOCR結果の比較をしてみる。
日本語はどれもほぼ完ぺきな認識。問題なし。
ソースコード部分は、グレイ補正なしのほうがいい感じ。 グレイ・シャープのほうが誤認識が多い。
モノクロは論外。ソース部分がグレイのバック時黒で文字が書いてあり、まったく認識されていなかった。
次に600dpiと300dpiを比較。モノクロは論外なのでグレイの補正なしで比較。
大見出しは600dpiでは文字として認識されなかった(大きすぎ?)が、300dpiは認識されていいた。
ソースコードの認識は、
600dpi
> CTweetOverlayltem.javal
> public class TweetOverlayItem extends OverlayItem {
> Tweet tweet;
> pub lic TweetOverlayItem(GeoPoint point,
> String title,
> St ring snippet,
> Tweet tweet) {
300dpi
> (TweetOverlayltem.java)
> pUblic class TweetOverlayItem extends OverlayItem {
> Tweet tweet;
> public TweetOverlayItem(GeoPoint point,
> 5t ring ti tle,
> 5t ring snippet,
> Tweet tweet) {
600dpiは左かっこがCになっている箇所がかなりある(ほとんど)。しかし300dpiの「String」を「5tring」と認識しているのはちょっとまずい。
しかし600dpiのほうもほどほどに誤認識があるので誤差と考えると、画像サイズ的に300dpiのほうがいい?
300dpi ・・・ 1.2MB。600dpi ・・・ 3.7MB。
次に読んde!!ココ。
300dpiグレイスケール補正なし
日本語は問題なし。▼や■という記号をちゃんと認識している。タイトル・サブタイトルという大きい文字も認識。
ソースコードは・・・・
> (TweetOverlayltemjava)
> P〕blic ctaSS TweetOvertayItemext即ds Overlay夏teml
> Tweet tweet;
> pubticTweetOverlayItem(GeoPointpoint.
> Stri咽titte.
> String snlPPet,
> Tweet軸eet)‡
> SUPer(POint.titte.Snippet);
> this.tweet=tWeet;
> ナ
> ナ
ボロボロ・・・。補正ありも同じ。モノクロ補正なしは文字として認識はしていたが同じくボロボロ。
次に600dpiグレイスケール補正なし。
日本語は問題なし。
> (1両eetOverlayltemJava)
> publicclassTweetOvertayItemextendsOverlayItemt
> Tweet tweet;
> pubucTweetOverlay工tem(GeoPo土ntpolnt
> String titte,
> String snlPPet
> Tweet tweet)t
> super(POint,titte,Snippet);
> this.tweet=tWeet;
> )
> )
かなり良い。"}"が")"となるのはいまいちだけど、検索には使わないのでOK。大文字・小文字も検索には関係ないのでOK。
グレイスケール補正ありはボロボロ。モノクロは認識すらされなかった。
使い勝手はAcrobatのほうがいい。
Actobatのほうは、600dpiも300dpiも結果はあまり変わらないので小さいほうがいい。
結論
1.色調はグレースケール
2.輪郭補正はなし
3.OCRはAcrobat
4.サイズは300dpiで十分
300dpi グレイスケール補正なし画像はこちら