29 October 2010

百度文庫の日本語書籍を利用する

百度文庫(Baidu-Wenku)で公開されている日本語版電子書籍データは、中国語エンコードで保存されているので、そのまま開いたのでは”中国語フォントセットに収められた美しくない日本語フォント”で表示されてしまう。

電子書籍データのダウンロードから、日本語エンコードへの変換までのメモ。

■ 日本語版 電子書籍の検索方法

百度文庫ホームページの検索ボックスに、『書籍名 日文版』のように”日文”をキーワードに追加して入力する。 また、ダウンロードする書籍データは TXT としたほうが、あとの処理が簡単。

20101029-baidu-001.jpg


■ ダウンロード方法

電子書籍を表示したら、『下載』というリンクを選択すると、ダウンロードできる。 なお、BaiduのユーザIDが必要。

20101029-baidu-002.jpg


保存ファイル名は、Windowsの場合は「日本語のファイル名」に直したほうが無難。 Linuxは全言語に対応できるので、中国語のファイル名のままでもOK。


■ Windowsの場合のエンコード変換方法(中国語 → 日本語)

GNU GPL フリーソフトウエアのnotepad++を用いた例を示す。 (ZIPアーカイブで配布されているUTF-8対応バージョンを利用する)

ファイルを開くと、このようにフォントが文字化けして読めない。(中国語エンコードを無理やり日本語エンコードで開いているため)

20101029-baidu-windows-001.jpg


フォーマット メニュー → Character Set → Chinese の中のエンコードのどちらかで、文書が読める(表示できる)ようになるはず。

20101029-baidu-windows-002.jpg

なお、notepad++の表示フォントは日本語フォントになっていないと、いくら文字コードを正しく設定しても読めなので、設定メニューから予め日本語フォントで表示できるように設定しておく必要がある。


その後、エンコード メニュー → UTF-8に変換を実行してから、ファイルを保存すれば、UTF-8エンコードされたテキストファイルになる。


■ Linuxの場合

geditを使った例を示す。

初めて中国語のテキストファイルを開くときは、エンコードが自動判別できない。中国語のエンコード方式を追加する。

20101029-baidu-linux-002.jpg

20101029-baidu-linux-003.jpg


ファイルが正しく読み込めたら、ファイル メニュー → 別名で保存で、ファイルに保存するときに、UTF-8エンコードを指定すればよい。

20101029-baidu-linux-001.jpg


■ 参考資料

日本のベストセラーも海賊版で読み放題になる恐れ 〜 脅威の電子書籍ビジネスモデルが中国で増殖中(ダイヤモンドオンライン)

■ 感想
つまり、どんどん海外サービスを利用して、日本のガラパゴス電子書籍が日の目を見る前にぶっ潰しましょういうことですね

iPad(カラー雑誌) と Kindle (文庫本) で十分だわ