2014年11月30日日曜日

BOOKSCANを利用してみて

以前、手持ちのCDを全てAIFFフォーマットでiTunesに入れたという記事を書きました。
そのときに、本の自炊は大変だから業者に頼むと書いたのですが、二ヶ月ほど前からBOOKSCANという電子書籍化サービスの最大手に依頼しています。

最初は、部分的に電子化したい雑誌や薄い本などは自分でスキャンしてやっていたのですが、やはり大変ですね。

こういう作業というのは流れを掴んでルーティンワーク化すれば案外速くできたりもするのですが、量が多いと体が持ちません。
体調が悪くなってしまいますね。
工場での単純労働なんかは、やはり人間を非常に消耗させるものだと思います。

もっとも私が使っているのはプリンターといっしょになっているフラットヘッドスキャナなので、自動的に紙を送るドキュメントスキャナよりも格段に手間がかかるということはあります。
ただ、ドキュメントスキャナーの場合、本を綺麗に裁断するために裁断機が必要になります。
あれが嫌なんですね。
ああいうものを家に置きたくはないのです。
それに、ドキュメントスキャナと裁断機を新たに購入するとなると7~8万はかかってしまいます。
それならば、自炊する量にもよりますが業者に頼んだ方がいいということになります。
ただし、一枚書類を大量にスキャンする必要のある人は、ドキュメントスキャナを購入した方が良いと思います。フラットヘッドスキャナの場合、一枚一枚スキャンを待つというのが非常に疲れるんですね。


そういうわけで、BOOKSCANを利用してみた感想ですが、大変に素晴らしい、とは言えません。

これまで作業が済んだもので、3回ほど、計170冊くらい(費用は送料を含めて26,000円程度)依頼したのですが結構斜めにスキャンされるものがあります。
これは、元の本が斜めの場合が多々あるということで、確かにそうなんでしょうが、スキャンも雑なんじゃないかと思います。
斜めすぎて文字切れがあるものが2冊ほどありましたが、これらは再スキャンしてもらいました。
一方、文字切れの発生していないものは、再スキャンするとレイアウトによってはさらに傾く部分が発生する可能性があるということなのでそのままにしました。
読めないというわけではないですから。

また、もっと困るのはページ抜けが2冊ほどありました。
ただし、2冊とも600ページ以上もある中公バックスの世界の名著シリーズで、一冊は連続して2ページ、つまり一枚分、もう一冊は4ページ、つまり二枚分でした。
まあ、普通の本とはちょっと違うので仕方ないかなとも思います。
しかし、全ページ目視確認を掲げているチェック作業の信頼性という観点からは問題があります
ちなみに、ページ抜けはPDFのページ番号と本に書いてあるページ番号の差が最初と最後で一致するかチェックすれば分かりますので、確かめた方がいいですね。

他には、スキャン時に線が入ってしまったと思われるものが1ページ、ファイル自体が破損していると思われるものが一冊ありました。

これらは全て問題のあるページを再スキャンしてもらって解決しましたが、10日以内に報告しないと本が処分されてしまうので、出来上がると早めにチェックしないといけないのが困ったところです。
なお、変換したファイルの保存期間は一般会員の場合、三ヶ月です。


また、文字が薄くて読みにくいものがいくつかありました。
これは古い本によくあるのですが、元の本の文字印刷も薄めなのです。
したがって、コントラストを調整して濃くしてもらいたいのですが、裏写りや黄ばみが強調されてしまうのを避けるためか薄めの画像処理がされています。
PDFで調整できればいいのですが、Adobe Readerではできません。
したがって、JPEG変換をして画像処理ソフトで調整するしかありません。
Photoshopを使えば細かく調整できるのですが、私の持っているPhotoshop Elementsでは簡易な調整しかできません。
それでもかなり読みやすくはなります。
また、閲覧ソフトのPicasaでも見掛けの調整はできます。

ただ、BOOKSCANの色調整の基準が良く分からないのです。
例えば、先ほどの中公バックスの世界の名著シリーズだと、黄ばみが結構出ているのですが、文字は読みやすいのです。
一方で、中公のハードカバーの世界の歴史シリーズでは黄ばみは出ないのですが文字が薄くて読みにくいのです。
画像の色調整についてのリクエストは受け付けているようでが、基準が明確でないとクレームもつけにくいですね。

いずれにせよ、古い本は問題が発生しやすいようです。
傾きによる文字切れも40年以上前の世界の歴史シリーズでした。


BOOKSCANの特筆すべきサービスとして、チューニングラボというのがあります。
これは、iPadやiPhone、kindleなどの各社の端末にサイズや解像度を合わせた変換をやってくれるというものです。
先ほどのJPEG変換もチューニングラボで行います。
ただし、これはオマケ的なβサービスということで、処理仕様が実験的に変わるようなのです。

一回目のときにいろいろ試してみて、koboglo用の処理とRetinaディスプレイ搭載のipad用の処理が読みやすくて良かったのでそれでいこうと思ったのですが、一月くらい前に仕様が変わってしまい読みにくくなりました。
端末用の処理としてはファイルサイズが小さくなったり余白が除去されたりして改善されたということなのでしょうが、PC閲覧用の処理としては良くないですね。

したがって、今は将来購入予定のRetinaディスプレイ搭載のipad用チューニングとJPEG変換だけにしています。

また、二回目のときにはテキスト変換と音声変換もできました。
テキスト変換ができるとOCR処理をしなくても検索可能になり、こりゃいいなと思ったのですが、三回目のときにはテキスト変換も音声変換もチューニングラボから消えてしまいました。

あれは一体何だったのでしょうか?


なお、私は一般会員ですがプレミアム会員というのもあります。
これは、月一万円で50冊分のスキャンができて、一般では有料となるOCR処理やファイル名を書籍名に変換してくれる処理をします。
さらには現在一ヶ月以上かかる納期が一週間に短縮されたり、チューニングラボも優先的に利用できたりします。
50冊以上(350ページで一冊分となり、それ以上は200ページごとに冊数か加算される。オプション料金も同様)のOCR処理が必要な人は、明らかに得ですので利用した方がいいでしょう。
しかし、そうではない人は一般会員でいいのではないかと思います。
ファイル名は一般会員の場合、日付の入った数字の羅列になってしまいますが、私はフォルダ名に書籍名を入れて管理しています。
端末でPDFファイルを単独で扱う場合、ファイル名で何の本か分からないと困りますが、PCで扱うにはフォルダに書籍名があれば分かります。
チューニングラボの処理も、ブラウザで効率的やれば一般会員の一つずつの処理でも何とかなります。


以上のように、いろいろ問題のあるBOOKSCANですが、本棚一つに収まるくらいに本が減るまで利用していこうと思っています。

このようなサービスについて、「金を払うのだからもっと完璧にちゃんとやれ」と思う人もいるかもしれません。
しかし、私はそのような考えは間違いだと思います。
仕事としてやっていても他人が人のためにがやるのですから、思い通りには出来ないのは当然なのです。
一方で、自分でやればいくらでも完璧を目指してしまう。
ですが、これが良くないのです。
こういう作業で完璧を目指すのは大変な無駄です。
ですから、適当にやるために、完璧を目指さないためにこそ、人にお金を払ってやってもらうのです。

人を雇ったことがないと、こういう感覚は分かりにくいかもしれませんが、これは大事なことだと思います。