| HTMLTOTEXT HTMLからテキストとMetainFOを抽出し、可能な限り不正なページに対処します。 |
今すぐダウンロード |
HTMLTOTEXT ランキングとまとめ
- 出版社のWebサイト:
- http://lemurconsulting.com
HTMLTOTEXT タグ
HTMLTOTEXT 説明
HTMLからテキストとMetainFOを抽出し、可能な限り不正なページに対処します。 HTMLTotextは、検索エンジン用に書かれたPythonパッケージで、HTMLページからテキスト内容とメタデータを抽出することを可能にします。 無効なマークアップと誤って指定された文字セットに対処し、HTMLタグ(タグで単語を適切に分割)しようとします。 また、スクリプトタグとスタイルタグの内容をページの本文からのテキストとしても廃棄し、ページのタイトル、およびメタ記述タグの内容を抽出します。 また、メタロボットタグを解析して、ページが索引付けされるべきかどうかを判断します。このモジュールで使用されているHTMLパーサーは、XAPIAN Search Engineライブラリ(そして具体的にはそのライブラリのOmindex索引付けユーティリティから)抽出されました。 要件: ・Python
HTMLTOTEXT 関連ソフトウェア