TEXT ::レコード:: Deduper.

独立した完全な、部分的および近接されたテキストレコード
今すぐダウンロード

TEXT ::レコード:: Deduper. ランキングとまとめ

広告

  • Rating:
  • ライセンス:
  • Perl Artistic License
  • 価格:
  • FREE
  • 出版社名:
  • Kim Ryan
  • 出版社のWebサイト:
  • http://search.cpan.org/kimryan/Locale-SubCountry-1.37/lib/Locale/SubCountry.pm

TEXT ::レコード:: Deduper. タグ


TEXT ::レコード:: Deduper. 説明

完全な完全な、部分的、近くのテキストレコードを分離します TEXT :: RECORD :: Deduperは、別々の完全な、部分的、および近接されたテキストレコードを持つPerlモジュールです.Synopsisを使用します。 My $ DEDUPER =新テキスト::レコード:: DEDUPER; #$ DEDUPER-> DEDUPE_FILE( "orig.txt")の重複した行全体を見つけて削除します。 #dedupeカンマ区切りレコード、複数のフィールドで定義された重複$ DEDUPER-> field_separator( '、'); $ DEDUPER-> ADD_KEY(field_number => 1、ignore_case => 1); $ DEDUPER-> ADD_KEY(FIELD_NUMBER => 2、IGNORE_WHITESPACE => 1)。 #ユニークレコードはファイルnames_uniqs.csv、names_dupes.csv $ deduper-> depupe_file( 'names.csv')へのdupesに移動します。 #特定の名前のエイリアスを許可することで#DUPESを見つけることで、My%Nick_Names =(Bob => 'Robert'、Rob => 'Robert'); My $ kear_deduper =新しいText :: Record :: Deduper(); $ ine_deduper-> add_key(field_number => 2、alias => %nick_names)またはDie。 $ kear_deduper-> dedupe_file( 'names.txt'); #テキストレポートを作成し、names_report.txtすべての重複$ ane_deduper-> report_file( 'names.txt'、all_records => 1)を識別する。 #レコードの配列で「近く」DUPESを見つけて、参照番号を一意で重複した配列My($ UNIQS、$ DUPES)= $ ine_deduper-> dedupe_array(@ some_records);このモジュールを使用すると、テキストファイルを取得できます。レコードとそれを一意のファイルに分割し、重複したレコードのファイルに分割されます.Recordsのセットとして定義されます。フィールドは、スペース、コンマ、タブ、またはその他の区切り文字で区切ることができます。レコードは新しい行によって区切られています。オプションは指定されていません。レコードごとに複数回発生しません。大文字と小文字の感度を無視するためのオプションもあります。これは、BOB => Robert.This Moduleなどのエイリアスを作成することによって行われます。このモジュールは、複数のデータ入力によって作成された重複、または同様のレコードのマージを見つけるのに役立ちます。要件: ・Perl


TEXT ::レコード:: Deduper. 関連ソフトウェア