epwing 辞書の変換を

試みるもうまくいかず。以下ログ。

ebd2html 実験バージョン を試してみるも、
途中で終了しちゃう。エラーメッセージくらいだしてほしい。
問題は、前処理の ebdump かもしれない。


どうしようもないので他の手段を考える、DDWin というアプリケーションでテキストを抽出して、変換を試みる。
抽出の仕方は例えば、http://members.jcom.home.ne.jp/khoo/zaurus/tejyun.htm とか。これは成功。


あとはこのテキストを変換かませばよろしいはず。
しかし、この方法だとテキストのみで図版のデータはとりだせない。
図版までダンプするには、eblib を利用して自分でダンプさせるやつを書かないといけない?
大変そうなので保留。テキストのみを考える。


とりあえず、図版ぬきのテキストだけの処理を考えた。
しかし、epwing が外字をビットマップに各辞書特有のコードを当てているので、
他の形式にするなら、Unicode と外字の対応表が必要。しかし、外字は膨大だったり。
一部の対応表は http://www31.ocn.ne.jp/~h_ishida/EBPocket_iPhone/web_gaiji.html から GAIJI_XML.zip が入手できたので試してみる。
対応表は plist ファイル。つーか Python 標準ライブラリには Mac specific だけど、plistlib とかあるんですね。
でいろいろ遊ぶも、この対応表も完全とは限らないことがわかった。
どのくらい対応してるかは、Mac OS X のコトノコで外字をインポートするとわかりやすいかも。
結局、外字が多すぎで諦めた。epwing はそのまま使う。
というわけでいろいろ徒労に終る。こんなことしてる場合ではないのに。