ScanSnap で、マニュアルを電子化する

こちらで、スキャンした文書を Kindle などで閲覧することを前提とした検討をしています。そちらもご参考ください。
以下、備忘録です。どうせ見ないような資料を PDF 化するのに比べて、重要なマニュアル類を PDF 化する場合は、けっこう神経を使います。昨日までに試行錯誤した結果をまとめておきます*1

  1. 「画質の選択」は自動を使います。これで特に問題ないようです。小さくて読めなくなる字がある場合は 1200dpi も考えられますが、あとで Acrobat で最適化をしてもファイルサイズが小さくならず、可搬性が悪くなります。(もっと大きな問題は、1200dpi だと「文字をくっきり」させても、Acrobat の最適化で文字が二値化されづらくなることです*2。)
  2. 「カラーモードの選択」はグレーとします*3。自動にすると、ページ単位で二値白黒になったりグレーになったり、見苦しいからです。(後の「文字をくっきり」化や Acrobat の最適化で、文字も見やすい画像に修正されます。)
  3. オプションで「文字をくっきりします*4」と「文字列の傾きを自動的に補正します」を有効にします。前者を有効にしないと、Acrobat で最適化するときに文字が二値化されにくくなります。「文字列の傾き…」は任意ですが、マニュアルを読みやすくするために有効にしてます。
  4. 同じくオプションで、「白紙ページを自動的に削除します」は無効にします。マニュアルには、意図的に白紙が入っている場合も多く、これを削るとページ構成が崩れるからです。Acrobat の最適化でノイズを消せるので、ファイルサイズ的なインパクトは少ないはずです。
  5. 「ファイルサイズ」で圧縮率をもっとも弱くします。ファイルサイズは巨大になりますが、あとで Acrobat で最適化すれば問題ないサイズに小さくできます。(ここの圧縮率の多寡によらず、十分に小さなファイルを作れます。早い段階から圧縮するのは情報量を減らす原因となります。)

それでもって、ここで生成された原ファイルは大事に保管しておきます。マニュアル原版を破棄しない場合は消しても構いませんが。続いて、Acrobat での作業です。

  1. 「スキャンされた PDF を最適化」を実行します。オプションがいろいろ出てきますが、たいていはデフォルトで問題ないようです。ただし、圧縮率に関しては試行錯誤が必要です。私の好みは、デフォルトよりも一段「高品質」側に動かすことです。ややファイルが大きくなりますが、気分的に良いです。二段階動かすと、ファイルサイズが途端に大きくなります。iPhone の GoodReader などで見る場合、大きなファイルだと応答性が悪くなるので、二段階動かさないほうが無難でしょう。

なお、OCR のかけかたです。私の経験では、Acrobat で最適化する前のファイルに ScanSnap Organizer 付属の OCR をかけて問題ないようです。つまり、文字が白黒二値化されてなくても大丈夫のようです。これをまとめると、

  1. スキャン直後のファイルは、念のため保存しておく。(foo_org.pdf)
  2. これに OCR をかける。(foo_ocr.pdf)
  3. 最後に、Acrobat で最適化をかける。(foo_ocr_opt.pdf)

最初のファイルは、大事に保管しましょう。2番目のファイルは消しちゃっても問題ないかも。3つ目のファイルを普段参照しましょう。
以上です。

未解決の課題

「グレー」でスキャンした場合、文字が十分に濃くならない場合があります。技術的には二値化すれば問題ないはずなのですが、Acrobat の「最適化」で、文字がかすれてしまうことがあります。スキャンから最適化の間のどこかで、手動で濃さを調整できれば回避できるのでしょうけど、その方法が分かりません。つーか、Acrobat の「最適化」で、その辺を考慮してくれると嬉しいのですが。技術革新に期待しましょう。

後記 (2011/12/28)

いまごろ気づいたのですが、最適化した PDF ファイルは、iPad2 上の GoodReader での閲覧が遅い(イメージの展開が遅い?)ような気がしてきました。ファイルを読み出す速度と画像伸張の速度のトレードオフを考える必要があるかも知れません。

後記その 2 (2012/3/27)

ScanSnap でカラーで読み込む場合、全て強制カラーで読み込むようにしておかないと、勝手にモノクロ判定をされて、読み込み形式が変わってしまいます。ページ毎に画像フォーマットが異なると違和感があったり、また、二値のスレッシュホールドが適切でないと、読みづらい結果になることがあるようです。

*1:バージョンですが、ScanSnap Manager は 5.0 L12、Acrobat は Standard 9.3.1 です。

*2:紙マニュアルの原版を破棄する場合は、念のため 1200dpi で保存しておいても良いかも知れません。将来、技術革新があるかも知れません。

*3:あ、カラーでないと都合の悪いマニュアルは除きます。

*4:「くっきりさせます」じゃないかと。