OpenCuporpa-Tools.

OpenCorpora.org Pythonインターフェース
今すぐダウンロード

OpenCuporpa-Tools. ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • MIT/X Consortium Lic...
  • 価格:
  • FREE
  • 出版社名:
  • Mikhail Korobov
  • 出版社のWebサイト:
  • http://bitbucket.org/kmike/

OpenCuporpa-Tools. タグ


OpenCuporpa-Tools. 説明

OpenCorpora-Toolsは、Pythonインターフェイスをhttp://opencorpora.org/installationpipに提供するモジュールです.python <27 argparseおよびordereddictパッケージが必要ですpip install argparsepip install ordereddictusageobtaining corporaopenceupapting corporaopenceupa-toolsがhttpからxmlで動作します。 :opencorporaorgyouは、xmlを手動でダウンロードして解凍することも、提供されているコマンドラインutil:opencorpora downloadrun opencorpora download--helpを使ってください。輸入opencorpora/>>> Corpus = OpenCorpor.Corpora( 'annot.opcorpora.xml')文書のリストを入手:>>> catalog = corpus.catalog()>>> doc_id、doc_title = catalog >>>印刷doc_id1610 >>> doc_title24105ГерманГрефсоветуетроссиянамнесуетитьсясвалютойWork文書で:>>> DOC =コーパス >>>印刷doc.title()24105ГерманГрефсоветуетроссиянамнесуетитьсясвалютой>> > doc.words()を印刷するСбербанка>>> doc.sents() <クラス 'opencorporasen tenceの」>:ГерманГрефсоветуетроссиянамнесуетитьсясвалютой>>>印刷doc.paras()ГерманГрефсоветуетроссиянамнесуетитьсясвалютойПре・идентСбербанкауверен、чтовближайшеевремянавалютныхрынкахсохранится ВысокаяволатильностьиХарашанье.corpora、document、段落、文のクラスは以下の方法をサポートしています(それが意味があるときなど、文章には段落がありません。 - ドキュメントインスタンスのリストを返します(これはメモリホッグ!); - tagged_words() - (str、str)のリストを返します。 - tagged_sents() - (str、str)のリスト)のリストを返します。 - tagged_paras() - (リストのリスト(str、str))のリストを返します。文章、段落、書類。また、コーパス、文書、段落、文章を繰り返すこともできます(これは文書、段落、文章、および単語)、例えば:>>> sent = doc.sents() >>>送信された:...印刷言葉...Германгрежсоветуетроссиянамнесуетитьсясвальтойtheapiは、NLTKのCorpusReader APIの後にモデル化されています。それはまったく同じではありませんが、非常に似ています。例えば。 OpenCorpora-ToolsのSents()は、NLTK内のセンテンスインスタンスとSents()のリストを返します。コーパスAPIは、NLTK CorpusReader APIのスーパーセットとして見られます。製品製品のホームページ


OpenCuporpa-Tools. 関連ソフトウェア