データクレンジングとは
データスクラビングとも呼ばれるデータクレンジングは、一連のデータが正確かつ正確であることを保証するプロセスです。 このプロセス中に、レコードの正確性と一貫性がチェックされ、必要に応じて修正または削除されます。 これは、単一のレコードセット内、またはマージする必要がある、または連携して動作する複数のデータセット間で発生する可能性があります。
簡単なプロセス
最も単純な形式では、データクレンジングには、1人または複数の人が一連の記録を読み、その正確性を検証することが含まれます。 入力ミスやスペルミスが修正され、誤ってラベル付けされたデータが適切にラベル付けされて提出され、不完全または欠落したエントリが完成します。 これらの操作は、スペースを占有して非効率的な操作を引き起こさないように、古いレコードまたは回復不能なレコードを削除することがよくあります。
複雑なプロセス
より複雑な操作では、データクレンジングはコンピュータープログラムによって実行できます。 これらのプログラムは、ユーザーが決定したさまざまなルールと手順でデータをチェックできます。 プログラムは、過去5年以内に更新されなかったすべてのレコードを削除し、スペルミスのある単語を修正し、重複したコピーを削除するように設定できます。 より複雑なプログラムでは、正しい郵便番号に基づいて不足している都市を埋めたり、データベース内のすべてのアイテムの価格を別のタイプの通貨に変更したりできます。
利点
データクレンジングは、データに依存するビジネスの効率にとって非常に重要です。 たとえば、データベース内の一部のクライアントに正確な電話番号がない場合、従業員は簡単に連絡できません。 別の例として、クライアントの電子メールアドレスの形式が正しくない場合、自動化された電子メールシステムは最新のクーポンや特別な取引を送信できません。 データクレンジングの仕事は、システムがデータを使用できるように、システム内のデータが正しいことを保証することです。 不正確または不完全な記録は、誰にとってもあまり役に立ちません。
2つのデータシステムを連携させる必要がある場合は常に、データクレンジングがさらに重要です。 企業に同じ顧客の多くと連携する2つの支店がある場合、各支店のデータを完全かつ正確にする必要があるだけでなく、2つの支店にも一致するデータが必要です。 顧客が1つの支店で電話番号を更新する場合、最高の効率を確保するには、他の支店のデータを同じ情報で更新する必要があります。 データクレンジングは、データが正確であることを確認するだけでなく、異なるレコード間で一貫性があることを確認するためにも機能します。
大量のデータが保存されているときはいつでも、システムにエラーが忍び込むことになります。 データクレンジングの目的は、これらのエラーを最小限に抑え、データを可能な限り有用かつ有意義なものにすることです。 このプロセスを定期的に行わないと、ミスやエラーが増え、作業の効率が低下し、合併症が増えます。