Entries from 2008-04-18 to 1 day
html2textとは何ですか? html2textモジュールは、HTMLで書かれたドキュメントを、それっぽいテキスト形式に変換するモジュールです。例えば、以下のようなHTMLを、 <html> <body> <h1>タイトル1</h1> <h2>タイトル2</h2> <p>段落</p> <ol> <li>foo</li> <ol> <li><a href="baz">bar</a></li> </ol> <li>baz</li> </ol> </body> </html> 以下のようなテキストに変換します。 * タイ…
はじめに html2prnについては、id:SumiTomohiko:20080418:1208534128を参照してください。 変更点 元のページのヘッダを転用するようにしました。これにより、スタイルが保たれます。 ダウンロード 以下のURLからダウンロードできます。 http://nekomimists.…
はじめに 大抵のウェブサイトは、本文の他に目次や広告などで構成されており、紙に印刷して閲覧するのには向いていません。 html2prn この問題を解決するため、ウェブページの本文のみを表示し、印刷に向くように変換するCGIを作成しました。 http://nekomim…
extract-contentモジュールとは何ですか? extract-contentモジュールは、id:SumiTomohiko:20080412:1208014526で公開したスクリプトをパッケージにしたものです。さらに、 Webページの本文抽出 (nakatani @ cybozu labs) (http://labs.cybozu.co.jp/blog/nak…