Jericho HTMLパーサー

Mac用の無料およびオープンソースHTMLパーサー
今すぐダウンロード

Jericho HTMLパーサー ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • GPL
  • 価格:
  • FREE
  • 出版社名:
  • M Jericho
  • 出版社のWebサイト:
  • http://jericho.htmlparser.net/doc/index.html
  • オペレーティングシステム:
  • Mac OS X
  • ファイルサイズ:
  • 1.7 MB

Jericho HTMLパーサー タグ


Jericho HTMLパーサー 説明

お使いのMac用のフリーでオープンソースのHTMLパーサ 無効なまたは認識されないHTMLをそのまま再生しながらエリコHTMLパーサーは、解析およびサーバサイドのタグを含むHTML文書の一部の操作を許可するオープンソースのJavaライブラリです。エリコHTMLパーサは、高レベルのHTMLフォームの操作機能を提供します。これが「Jericho HTML Parser」の主な機能です。 ひどくフォーマットされたHTMLの存在は、他のパーサをチョーク「現実世界」HTMLで使用するためのライブラリーに最適ですこれ、文書の残りの部分の解析を妨げることはありません。 ・・PHP、JSP、ASP、PSPとメイソンサーバタグは、明示的にパーサによって認識されています。通常のHTMLがまだ動的要素の属性を設定する場合、たとえば一般的である、サーバーのタグがそれらの内側にある場合でも適切に解析されていることをこれが意味。 それはイベントでも、ツリーベースのパーサーでもないのではなく、単純なテキスト検索、効率的なタグの認識とタグの位置キャッシュの組み合わせを使用しています。全ソースドキュメントのテキストは、第1のメモリにロードされ、その後、唯一の関連セグメントが各検索操作の関連文字を探索しました。 ・・DOMなどのツリーベースのパーサーと比較すると、メモリとリソース要件は、解析または変更する文書の必要性のほんのセクションあれば、はるかに良いことができます。正しくないか、ひどくフォーマットされたHTMLは簡単に上から下へ、文書内のすべてのノードを特定する必要があり、ツリーベースのパーサーとは異なり、無視することができます。 このようなSAXなどのイベントベースのパーサーと比較すると、インタフェースは非常に高いレベルにあり、より直感的、及び必要に応じて文書要素の階層のツリー表現を容易に作成されます。 すべての解析されたセグメントのソース文書における開始位置と終了位置は、ツリーから文書全体を再構築することなく、文書の唯一の選択されたセグメントの変更を可能に、アクセス可能です。 ソース文書の各位置の行と列の数を容易にアクセス可能です。 初期値の抽出と人口を含め、HTMLフォームコントロールの分析および操作のためのシンプルでありながら、包括的なインタフェースを提供し、そして変換は読み取り専用またはデータ表示モードします。フォームコントロールの分析はまた、フォームから受信されたデータを格納し、適切な方法で提示することを可能にする。 ・・カスタムタグの種類を簡単にパーサによって定義されたとの認識のために登録することができます。 ・・内蔵機能などのApache Luceneのテキスト検索エンジンへの供給に適したHTMLのマークアップからすべてのテキストを抽出します。 ・・内蔵機能単純なテキストの書式をHTMLマークアップをレンダリングします。 内蔵形式のHTMLソースコードに機能インデント要素が文書要素の階層内の深さに応じています。 ・・内蔵コンパクトHTMLソースコードへの機能のすべての不要な空白を削除することによって。


Jericho HTMLパーサー 関連ソフトウェア