テキスト:: DEDUPER.

重複検出モジュール近傍
今すぐダウンロード

テキスト:: DEDUPER. ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • Perl Artistic License
  • 価格:
  • FREE
  • 出版社名:
  • Jan Pomikalek
  • 出版社のWebサイト:
  • http://search.cpan.org/janpom/

テキスト:: DEDUPER. タグ


テキスト:: DEDUPER. 説明

重複検出モジュール近く TEXT :: DEDUPERは、Andrei Z. Broderが提案されているAL(http://www.ra.ethz.ch/cdstore/www6/technical/paper205/paper205.html)で提案されている類似メジャーを使用して似たようなメジャーです。 (複製近く)文書に基づく文書注意の注意:アルファベット文字シーケンスを検出することで、テキストを単語にトークン化できる言語でのみ正しく機能します。 したがって、それはe.に非常に良い結果を提供しないかもしれません。 中国語。 $ DEDUPER =新テキスト:: DEDUPER(); $ DEDUPER-> add_doc( "doc1"、$ doc1text); $ DEDUPER-> add_doc( "doc2"、$ doc2text); @similar_docs = $ deduper-> find_simaril($ doc3text); ...#テキストの配列から重複する近くの削除$ DEDUPER =新テキスト:: DEDUPER(); $ text(@texts){$ deduper-> find_similar($ text)の場合 $ DEDUPER-> ADD_DOC($ I ++、$ TEXT); @no_near_duplicates、$ textを押す。 } 要件: ・Perl


テキスト:: DEDUPER. 関連ソフトウェア