Data Re-Identification とは

データの再識別は、データが属する個人を発見するために、公開されている情報または補助データと匿名データ(非識別データとも呼ばれます)を照合するプラクティスです。これは、プライバシーポリシー、医療提供者、金融機関を持つ企業が、データが脱識別プロセスを経て収集したデータを公開する可能性があるため、懸念事項です。脱識別プロセスは、直接識別子と間接識別子の両方をマスキング、一般化または削除することを含む。しかし、このプロセスの定義は普遍的ではありません。一見匿名化されていると思われるパブリックドメインの情報は、他の利用可能なデータや基本的なコンピュータ科学技術と組み合わせて再識別される可能性があります。米国保健福祉省を含む複数の米国連邦機関と部門のコレクションであるCommon Rule Agenciesは、「大きなデータ」のために再識別が徐々に容易になっていると推測しています。技術の進化とアルゴリズムの進歩。しかし、他の人は、脱識別が安全で効果的なデータ解放ツールであり、再識別を心配するものではないと主張している。
2000年の調査によると、米国の人口の87%が性別、生年月日、郵便番号の組み合わせで識別されることが判明しました。他人は再識別が深刻な脅威であるとは考えておらず、それを「神話」と呼んでいる。彼らは、郵便番号、生年月日、性別の組み合わせは、日付のない年月の誕生日や特定の郵便番号の代わりの郡名など、まれであるか部分的に完了していると主張しており、多くの場合、識別が減少する。