proglog

主にプログラミングに関する断片的メモ

[windows][soft] pdftohtmlでr5rsをhtmlに変換

R5RS (Revised^5 Report on Algorithmic Language Scheme) 日本語訳にあるR5RSをhtml形式にしたい。
windowsで。


TeX(pLaTeX2e)やらPostscriptをhtmlに変換する方法はよく分からない。
それとも既にどこかにあるだろうか。
それは分からないけど、取り敢えず、PDFになったものを変換することに。


以下の手順でわりといい感じに。

  1. Desktop Linux - PDF を HTML に変換するで紹介されているpdftohtmlを使う。

コマンドラインオプションも書いてある。

  1. PDFTOHTML conversion programから辿ってpdftohtml | Free Development software downloads at SourceForge.netからPDFTOHTMLのwindowsバイナリをダウンロード、展開。
  1. XpdfからXpdfのwindowsバイナリとLanguage Support PackagesのJapaneseをダウンロードする。
  1. PDFTOHTMLを展開したディレクトリにXpdfを展開して出てきたファイル全部を入れる。
  1. そのディレクトリにjapaneseというサブディレクトリを作って、ランゲージパックのxpdf-japanese.tar.gzを展開して出てきたファイルを全部入れる。
  1. PDFTOHTMLとXpdfの全ファイルが入っているディレクトリにxpdfrcという名前のファイルを作り、以下の内容を書き入れる。
#----- begin Japanese support package (2011-sep-02)
cidToUnicode	Adobe-Japan1	japanese/Adobe-Japan1.cidToUnicode
unicodeMap	ISO-2022-JP	japanese/ISO-2022-JP.unicodeMap
unicodeMap	EUC-JP		japanese/EUC-JP.unicodeMap
unicodeMap	Shift-JIS	japanese/Shift-JIS.unicodeMap
cMapDir		Adobe-Japan1	japanese/CMap
toUnicodeDir			japanese/CMap
#fontFileCC	Adobe-Japan1	/usr/..../kochi-mincho.ttf
#----- end Japanese support package
  1. Ghostscript 9.04 and GSview 5.0 J (Official Site)からGhostscriptのwinバイナリをダウンロードしてインストールし、パスを通す。インストーラーのオプション「Use Windows TrueType fonts for Chinese, Japanese and Korean」をチェック。

で、実行。

>pdftohtml -c -enc UTF-8 r5rs-ja.pdf

で二つほどフォントがないよ、と言われるけど、なんとか無事にちゃんと日本語のhtmlファイル群が生成された。

なんかFirefoxでみると、段組みのまん中の幅が狭くて、多少重なった感じに表示される。
でも、IEで見ると、きれいなもの。
この違いはなんだろうか?