テキスト::ブルーム

Text :: Bloomは、一連の用語のブルームシグネチャを評価できます。
今すぐダウンロード

テキスト::ブルーム ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • Perl Artistic License
  • 価格:
  • FREE
  • 出版社名:
  • Andrea Spinelli and Walter Vannini
  • 出版社のWebサイト:
  • http://search.cpan.org/aspinelli/Text-Document-1.07/Bloom.pod

テキスト::ブルーム タグ


テキスト::ブルーム 説明

TEXT :: Bloomは、一連の用語のブルームシグネチャを評価できます。 TEXT :: Bloomは、一連の用語のブルームシグネチャを評価できます。 $ b->計算(QW(Foo Bar Baz));私の$ sig = $ b-> writeToString(); $ b-> writetofile( 'afile.sig');私の$ b2 = text :: bloom :: newfromfile( 'afile.sig'); My $ B3 =テキスト:: bloom-> new(); $ B3-> Compute(QW(Foo Barbaz));私の$ sim = $ b->類似性($ b2); My $ B4 =テキスト:: Bloom :: NewFromString($ SIG); TEXT :: Bloomはブルームフィルタリング手法を申請書の統計分析に適用します。文書内の用語は、基本36基準表現を使用して量子化されています。したがって、各項は0.p-1の範囲内の整数に対応します。ここで、pは現在、2 ^ 32未満の最大の素数に設定されているプライムです。ここで、SIZEは、HASHV関数によって計算されたハッシュ関数のファミリを使用して、現在2 ^ 17以内の整数です。文書内に存在する用語に対応するビットは1に設定されています。他のすべてのビットは0.OFコースに設定され、衝突は同じビットを2回、異なる用語で2回設定される可能性があります。その結果、文書がn個の異なる用語を含む場合、結果として得られるビットベクトルは最大のN * Dビットが1に設定されているため、結果として得られるビット列は、文書内の用語の有無を非常にコンパクトな表現であり、したがって、署名として特徴付けられます。さらに、それは用語の事前設定された辞書には依存しない。署名が使用されてもよい。ファイルから書いて読み取る。 TEXT :: Bloomがヘッダーをビットストリームに適切に追加します。さらに、パッケージのCompress :: ZLIBが利用可能であるときはいつでも、ビットベクトルが圧縮され、特に小さな文書のためにディスク容量の要求が大幅に減少する。ハッシュ関数は明らかにフィルタの重要な構成要素である。参照実装は文字列の基数表現を使用します。したがって、各項は正規表現/ +/.に一致する必要があります。 ・Perl


テキスト::ブルーム 関連ソフトウェア