[Gauche] html2textモジュール バージョン0.1公開

html2textとは何ですか?

html2textモジュールは、HTMLで書かれたドキュメントを、それっぽいテキスト形式に変換するモジュールです。例えば、以下のようなHTMLを、

<html>
  <body>
    <h1>タイトル1</h1>
    <h2>タイトル2</h2>
    <p>段落</p>
    <ol>
      <li>foo</li>
      <ol>
        <li><a href="baz">bar</a></li>
      </ol>
      <li>baz</li>
    </ol>
  </body>
</html>

以下のようなテキストに変換します。

* タイトル1

** タイトル2

段落

1. foo

  1. [bar][1]

2. baz

[1](bar): http://example.com/baz

動作環境

html2textモジュール バージョン0.1は、Ubuntu Linux 7.10, Gauche 0.8.13で動作を確認しています。

ダウンロード

以下のURLからダウンロードできます。

インストール

ダウンロードしたファイルを展開して、

./configure && make install

してください。

使い方

以下のように、html2text手続きに、HTMLのURLとHTMLを渡します。

(use html2text)

(html2text "http://example.com/" "<html><p>foo</p></html>")