HTMLTOTEXT

HTMLからテキストとMetainFOを抽出し、可能な限り不正なページに対処します。
今すぐダウンロード

HTMLTOTEXT ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • GPL
  • 価格:
  • FREE
  • 出版社名:
  • Richard Boulton
  • 出版社のWebサイト:
  • http://lemurconsulting.com

HTMLTOTEXT タグ


HTMLTOTEXT 説明

HTMLからテキストとMetainFOを抽出し、可能な限り不正なページに対処します。 HTMLTotextは、検索エンジン用に書かれたPythonパッケージで、HTMLページからテキスト内容とメタデータを抽出することを可能にします。 無効なマークアップと誤って指定された文字セットに対処し、HTMLタグ(タグで単語を適切に分割)しようとします。 また、スクリプトタグとスタイルタグの内容をページの本文からのテキストとしても廃棄し、ページのタイトル、およびメタ記述タグの内容を抽出します。 また、メタロボットタグを解析して、ページが索引付けされるべきかどうかを判断します。このモジュールで使用されているHTMLパーサーは、XAPIAN Search Engineライブラリ(そして具体的にはそのライブラリのOmindex索引付けユーティリティから)抽出されました。 要件: ・Python


HTMLTOTEXT 関連ソフトウェア

MetaF2XML

MetaF2XMLは、METARおよびTAFメッセージを解析してデコードし、それらをXMLとして保存します。 ...

122

ダウンロード