[Gauche] extract-contentモジュール バージョン0.1公開
extract-contentモジュールとは何ですか?
extract-contentモジュールは、id:SumiTomohiko:20080412:1208014526で公開したスクリプトをパッケージにしたものです。さらに、
- Webページの本文抽出 (nakatani @ cybozu labs) (http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html)
で触れられている、Google AdSenseのためのコメントにも対応しました。
動作環境
extract-contentモジュール バージョン0.1は、Ubuntu Linux 7.10, Gauche 0.8.13で動作を確認しています。
インストール
ダウンロードしたファイルを展開して、
./configure && make install
してください。
使い方
以下のように、extract-content手続きにHTMLを渡してください。
(use extract-content) (extract-content "<html>...")