Kindle で本や雑誌を読むための設定

以前ここで、マニュアルの電子化(PDF 化)に関して ScanSnap の設定を議論(独断?)しましたが、今回は Kindle などの電子端末で雑誌や書籍を読むためのスキャン方法について考えてみました。
当初は、上記設定をそのまま踏襲しようと思っていたのですが、いくつか不具合があったのです。それは、

  • ファイルが大きくなりすぎ、可搬性が悪い
  • 文書を読むだけなら、二値画像で十分ではないか
  • 自動解像度では、小さな文字が読みにくい場合がある

というものです。最後の項については、マニュアル電子化にも適用できそうです。
結論ですが、以下の設定としました。

  • 解像度: スーパーファイン

ScanSnap Manager のヘルプを参照したところでは、自動にすると基本的に(白黒で) 400dpi の設定になるそうです。当初これで十分と考えていたのですが、小さな図表の文字が読みにくくなったり、また、OCR をかける際に不十分なことがあることが分かってきました。そこで、スーパーファイン(600dpi)に変更しました。
OCR ですが、文書全体に OCR をかけないとしても、目次くらいをテキストに変更しておくと検索で有利になると考えています。

  • カラーモード: 白黒

文書のデザインにもよると思うのですが、すぐに読むための文書をグレースケールで取り込んでもあまりメリットがないように思いました。ファイルサイズは非常に大きくなりますし、コントラストが低くなって読みづらくなることも、その理由です。また、ScanSnap での取り込みに非常に時間を要します。写真やグレースケールによる図表の情報が重要でない限り、白黒のスキャンで問題がないように感じています。

  • 「文字をくっきりします」

この辺の設定はマニュアルにもう少し詳しく書いて欲しいところですが、情報不足なので実験するしかありませんでした。白黒で読み取るなら、「文字くっきり」には意味がないかと予想したのですが、そんなことはありませんでした。どうも、画像を二値化する前に、ディザや閾値適用等の非線形処理に差異があるようです。具体的には、最終的に二値になる画像でも、写真などに明確な違いが現れます。また、背景の模様が汚れなどが、「文字くっきり」では現れにくくなります。
結果として、ファイルサイズが小さくなること、また、OCR の適用で汚れを拾うことが少なくなりそうなので、「文字くっきり」を採用しました。

  • その他

その他の設定ですが、白紙の除去はしません。これはマニュアル電子化と同じ理由です。傾きの補正については悩んだのですが、今回はやめました。一つの理由は、AcrobatOCR 時に傾きは補正されるからです。また、雑誌などを断裁機で処理した場合、紙面はきれいな状態にあるので、斜めフィードなどの心配はほとんどありません。
逆に不安要素としては、二値化した画像を(Acrobat で)斜め補正して OCR する場合に、文字の認識精度に悪影響があるかも知れないことです。もし、ScanSnap のほうで、二値化前に画像を回転させているとすると(おそらくそうでしょう)、その影響はないとは言えないと思います。
「原稿の向きを自動的に補正」はオフにします。大量のページがある雑誌や書籍をスキャンした際、自動補正で誤って向きを変えられてしまった文書を修正するのは時間を要する作業です。雑誌や書籍のスキャンで、誤って天地を逆にしてフィーダーに原稿をセットすることは注意すれば避けられることなので、全体の作業量を低減するために、自動補正はオフにしました。
なお、重要な書籍であれば、スキャン後の全ページをなめることになるでしょうが、ScanSnap では紙の重送はほぼ確実に検知されますし、紙面のページ番号を確認すれば、ページの読みこぼしもほぼ確実にチェックできるはずです。

  • おまけ

なお、ちょっと面倒ですが、先頭ページ(表紙)だけでもカラーで取り込んでおくと、ScanSnap Organizer で閲覧するときに便利です。Kindle ではグレースケールでしか表示されませんが、それでも、表紙くらいは情報量を上げておいたほうが嬉しいところです。