自炊した電子書籍(PDF)を iPad でサクサク表示する方法(サンプル動画あり)
以前、このような(↓)自炊(=本を自前で電子化)PDF に関するエントリーを書いてみたのですが...
-電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww -iPadに本を電子化して持ち歩く!PDFのファイルサイズを3分の1にまで小さくする方法 | nanapi[ナナピ]
たしかに PDF のファイルサイズは小さくなって、その分多くの本を iPad で持ち歩けるようにはなりましたが、
なにせ 表示が遅い。遅すぎる(↓)
で、これは「どげんかせんといかん」と思い、あれやこれや試した結果、
という解決策を見つけましたので、報告します。
*1. テキストが多くて、版の大きい本の表示が遅い
表示が遅いといっても、すべての本の表示が遅いのではなく、遅いのは(意外にも)テキストがメインの本。画像がメインの本やマンガなんかは、そんなにストレスなく読むことができます。
また、テキストがメインの本であっても、版のサイズによって事情が少し変わってきます。文庫本のように版が小さい本はそれほどもたつかず、新書サイズは微妙なところ。新書サイズより大きい版からは表示が遅くなってしまいます。
ちなみに、PDF のファイルサイズが大きくてもスムーズに表示できるものもあれば、逆にファイルサイズが小さくても表示がもたつくものもあり、PDF のファイルサイズと iPad での表示速度との間には相関関係は見られませんでした。
*2.「ClearScan」で OCR テキスト認識すると、どのくらい表示が速くなるのか?
前述のとおり、遅い原因がテキストにあることはだいたい掴めていたので、ダメモトで Adobe Acrobat 9 の「ClearScan」機能を使ってみることに。「ClearScan」とは、Acrobat 9 から導入された新技術で、これを使って OCR テキスト認識すると、PDF 上の文字を選択したときのガタツキが減ります。
-紙の書類をスキャナで取り込んでPDFで管理する【2】〜ClearScan〜
(操作画面)
この ClearScan を使ってテキスト認識した PDF を表示させてみたところ...
速っ!
Acrobat 標準(?)の OCR テキスト認識(便宜上「標準テキスト認識」と呼ぶことにします)した PDF と較べて、表示速度がどのくらい速くなるのかというと、同じ本、同じ解像度でもこのくらい(↓)速くなります。
(参考)サンプルとして取り上げた書籍
- 作者: Damian Conway,クイープ
- 出版社/メーカー: オライリー・ジャパン
- 発売日: 2006/08/24
- メディア: 大型本
- 購入: 11人 クリック: 153回
- この商品を含むブログ (155件) を見る
|スキャン時の解像度(ScanSnap S1500)|スーパーファイン(カラー/グレー 300dpi、白黒 600dpi)| |テキスト認識時の「画像ダウンサンプリングのレベル」|最低(600dpi)|
*3. テキスト認識の精度も落ちない
しかし、ウマい話には落とし穴があるのでは?と思い、テキスト認識の精度も調べてみましたが、これも問題なし。精度は標準テキスト認識と変わりませんでした。
(標準テキスト認識) sub pad_str { my ($text , $opts) = @ー; my $gap $opts{cols} -length $texti 脅opts ー>{cols} のはすが.. . my $left $opts{centred}? inヒ($gap!2) Oi 帯opts ー> {centred} のはすが.. . my $right = $gap -$lefti return $SPACE x $left . $text . $SPACE x $righti }
use strict qw{ vars ) はまさにこの違反を捕らえるためのものである(18 章を参照)。そして、通常はそのように使用する。もちろん、偶然にも同じスコープに有効な亀opts ハッシュが存在するなら、話は別である。 参照を保持するための変数に常に_ref サフィックスを添えれば、こうしたミスの可能性を最初から最小限に抑えることができる。もちろん、参照変数をこのように命名すればミスを防げるというわけではないし、ミスを犯したときに自動的に検出されるわけでもない。だが、エラーは一目瞭然となる。 <<
(ClearScan) sub pad_str { my ($text , $opts ) @_ ; my $gap $opts ( cols } - length $text ; 非opt s-> {cols} のはすが. . . my $left $opts ( centred}? int ( $gap/2 ) 0; 非opts-> { centred )のはすが... my $right $gap - $left ; re turn $SPACE x $left . $text . $SPACE x $right ; }
use strict qw( vars )はまさにこの違反を捕らえるためのものである(18章を参照) 。そして、通常はそのように使用する。もちろん、偶然にも同じスコープに有効なもopts ハッシュが存在するなら、話は別である。 参照を保持するための変数に常に_ref サフィックスを添えれば、こうしたミスの可能性を最初から最小限に抑えることができる。もちろん、参照変数をこのように命名すればミスを防げるというわけではないし、ミスを犯したときに自動的に検出されるわけでもない。だが、エラーは一目瞭然となる。 <<
書籍スキャン時の ScanSnap S1500 の設定は、以前のエントリーと同じ。
FUJITSU ScanSnap S1500 FI-S1500
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 104人 クリック: 5,788回
- この商品を含むブログ (240件) を見る
|解像度|スーパーファイン(カラー/グレー 300dpi、白黒 600dpi)| |オプション「文字をくっきりします」|オフ|
-ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実
縦書き文書のテキスト認識も(ほぼ)問題なしです(↓)
(ClearScan) はじめに 世界で初めてのウェブ・サイトが生まれてから、約初年が経ちました。インターネットでつながることによって、距離や時間に関係なく世界中から情報を収集し、コミュニケーションがとれるようになりました。アマゾンで購入した本が当日に届き、楽天で全国の名産品を購入することも当たり前の時代です。 その後もプログやミクシイなどのSNS のように、次々と新しいサービスが生まれていますが、その中の一つで2006年後半に生まれたのがツイッタl(→宅E2)です。 <<
*4. ファイルサイズはさらに小さくなる
さらには、嬉しいことに、ClearScan でテキスト認識したときは、標準テキスト認識したときよりもさらにファイルサイズが小さくなります。
|書籍|版 / ページ数 / その他|テキスト認識前|標準テキスト認識後(非圧縮)|標準テキスト認識後(600dpi圧縮)|「ClearScan」テキスト認識後(600dpi圧縮)| ||B5版 / 513ページ / 表紙以外は全てテキスト|89.2MB|93.6MB|28.1MB|12.2MB| ||B5版 / 258ページ / 画像をふんだんに|130.9MB|133.4MB|99.3MB|78.9MB| ||A5版 / 273ページ / 1ページに1画像くらい|106.9MB|109.8MB|78.2MB|67.9MB| ||新書 / 193ページ / 全てテキスト|22.4MB|23.8MB|8.9MB|7.3MB|
*5. 唯一の欠点は、たまに暴走すること
ただね、ただですね、以前も書きましたが、ClearScan はたまに暴走(?)するんですよ。本当にたまになんですが、テキスト認識の過程で補正しすぎて、逆にナナメに傾け過ぎたりしてしまいます。
しかし、上記のような現象があらわれるのは、経験上では 10数冊に1回あるかないか。それよりも iPad での表示速度のほうが遙かに重要なので、このたび、Acrobat 標準のテキスト認識から ClearScan のテキスト認識へ乗り換えることに決めました。
*おわりに - もう一度強調したい、本の電子化で一番大切なこと
最後に少し脱線します。これまでも(しつこく)書いてきましたが、今回のように ClearScan への乗り換えが可能だったのは、
スキャンしただけで、手を加えていない PDF の「原版」 <<
を保存しておいたからです。
おそらく今後も技術は進歩して、OCR テキスト認識の精度も上がるでしょうし、ClearScan を上回る技術も出ると思います。再び「原版」に対して処理をやり直す、という機会が訪れないとも限りません。ハードディスクがこれだけ安くなっている今日ですから、「原版」は必ずどこかに保存しておきましょう。
それでは素敵な iPad 自炊ライフを。
*おまけ
ちなみに Adobe Acrobat 9 は、スキャナの定番 ScanSnap S1500 に付属しています(正確には Acrobat 9 Standard)。
FUJITSU ScanSnap S1500 FI-S1500
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 104人 クリック: 5,788回
- この商品を含むブログ (240件) を見る
ただそれは Windows モデルの話であって、一方の Mac モデルの ScanSnap S1500M には付属していません。*1
S1500M ユーザは Acrobat 9 のアップグレード版を買うべきか否か。でも結構値が張るからなー。悩むところですね...
FUJITSU ScanSnap S1500M FI-S1500M (Macモデル)
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 14人 クリック: 767回
- この商品を含むブログ (58件) を見る
Adobe Acrobat 9 Pro 日本語版 通常版 Macintosh版
- 出版社/メーカー: アドビシステムズ
- 発売日: 2008/07/11
- メディア: DVD-ROM
- クリック: 14回
- この商品を含むブログ (8件) を見る
Adobe Acrobat 9 Pro 日本語版 アップグレード版 (PRO-PRO) Macintosh版
- 出版社/メーカー: アドビシステムズ
- 発売日: 2008/07/11
- メディア: DVD-ROM
- この商品を含むブログ (2件) を見る
*参考サイト
-紙の書類をスキャナで取り込んでPDFで管理する【2】〜ClearScan〜 -Adobe Acrobat 9 Standard * スキャンした文書内のテキストの認識
-電子化した本に最適!Adobe Acrobat の PDF 圧縮が予想外に便利すぎて鼻血が出たwww -ScanSnap S1500 の「OCR テキスト認識」に関する 15 の真実