| Pykhtml. PYKHTMLは、Webサイトのスクレーパー/クモを書くためのPythonモジュールです。 |
今すぐダウンロード |
Pykhtml. ランキングとまとめ
- 出版社のWebサイト:
- http://paul.giannaros.org/pykhtml/
Pykhtml. タグ
Pykhtml. 説明
Pykhtmlは、ウェブサイトのスクレーパー/クモを書くためのPythonモジュールです。 Pykhtmlは、ウェブサイトのスクレーパー/クモを書くためのPythonモジュールです。伝統的な方法は、HTML / Forms自体を解析するためのコードの書き方に焦点を当てています。 )。ボーナスとして、このモジュールはJavaScriptとCookieを透過的に処理します.pykhtmlにはPykde 3が必要です(したがってPYQT 3 + kde libs)。 XディスプレイなしでPYKHTMLを実行したい場合は、XVFBが必要です。幸いなことに、これらの要件はほとんどの最新のLinuxディストリビューションにバンドルされるべきです、そして、Windows / Macのサポートは今後数ヶ月に表示されるべきです。このページからタイトルとナビゲーションを削除する例(バンドルに含まれている多くの例の1つ)は、Pykhtmlを使ったプログラミングのような設定を与えるための過度のコメントで:import pykhtmlpykhtmlurl = "http:// Paul。 Giannaros.org/pykhtml"def ExtractBitsFrompage(ブラウザ):#getElementsBytagnameジェネレータを返して、#をリストに変換して最初の要素タイトル=リスト(browser.document.getElementsBytagname( "title"))印刷 " title: "、tite.text#ナビゲーションアイテムのテキストを取得します。ナビゲーション= []#最初にリスト項目のコンテナを入手します... NavigationElement = Browser.Document.GetElementByID(「ナビゲーション」)...とループLINEMENTEMEREMENTEMENTEMENTEMENTEMENAME( "LI"):#の内側にあるListeM。 .text)印刷 "ナビゲーション:"、 "|" | ".join(ナビゲーション)#ここで停止して、pykhtml.stopeven tloop()def main():ブラウザ= pykhtml.browser()#ブラウザはrefledBitsFrompage#のパラメータとして渡されます(ページがロードされたとき)ブラウザ(PykhtmlURL、ExtractBitsFrompage)#pykhtmlからオフのものを蹴る.starteventloop()main()
Pykhtml. 関連ソフトウェア