記事一覧

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

国会図書館デジタルコレクションの見にくい画像

毎日、なにがしかの国会図書館デジタルコレクション書籍の文字起こしをやっているわけですが。
ブラウザ上では、画像が粗かったり、文字が薄くて判読不能なものがあったりします。

そんな時は、いったんPDFでダウンロードし、そこから画像(jpg)を抽出。
抽出したjpg画像を、グラフィックソフト(うちはFireworks CS6を愛用)で補正。
いったんレベル補正をけっこう上げておき、その後にトーンカーブで修正。
単純に明るさとコントラストの調整でもよいのですが、レベル補正+トーンカーブの方がも少し微妙な補正が可。

で、PDFからの画像抽出はフリーのWebサービスでやってます。

・PDFをJPGに変換。PDFから画像を抽出
http://www.ilovepdf.com/ja/pdf_to_jpg

それにしても、今回復刻している国会図書館デジタルコレクションの本は、そもそもの画像が薄すぎるw
画像補正しても判読不能な文字がいくつか。
ぐぐったり辞書をあたったり、推理、推測、類推、妄想・・・。
「ビンゴ!」となるとめっちゃ楽しいのですが、そうならなくて保留にしてある単語もあるのだw
スポンサーサイト

コメント

コメントの投稿

非公開コメント

ads

プロフィール

howtoepub3

Author:howtoepub3
主にKindle復刻版書籍を出版している「富楼那阿難堂」店主 puru。
このブログではKindleやepub製作のこと、AmazonでのKindle出版のことをつらつら書いています。
・HP「簡単!本格的!電子書籍の作り方
・HP「町の按摩さんドットコム
・「町の按摩さんblog

最新コメント

月別アーカイブ

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。