| wevermer. フリーとオープンソースWebクローラとHTMLレイアウトアナライザ |
今すぐダウンロード |
wevermer. ランキングとまとめ
- 出版社のWebサイト:
- http://www.unixuser.org/euske/
wevermer. タグ
wevermer. 説明
無料でオープンソースWebクローラとHTMLレイアウトアナライザ Webstermmerは、バナー、広告、および/またはナビゲーションリンクを混在させずにニュースサイトのメインテキストを自動的に抽出するWebクローラと、Webサイトからのテキスト内容を抽出する(特にニュースサイト)の抽出がたくさんあります。 不要なもの:広告とバナー。 あなたは望ましい部品のみを拾うためにいくつかの正規表現パターンを作ることができましたが、そのようなパターンを構築することはしばしばトリッキーで時間のかかる仕事です。 さらに、いくつかのパターンは周囲のコンテキストを認識する必要があります。 いくつかのニュースサイトでさえいくつかの異なるレイアウトがあります.Webstemmerは、特定のWebサイト内の各ページのレイアウトを分析し、メインテキストがある場所にある数字を分析します。 分析は、人間の介入が少ない完全に自動的に行うことができます。 あなたはトップページのURLを与えるだけです。 要件: ・Python このリリースの新機能: ・Setup.pyが追加されました
wevermer. 関連ソフトウェア