GDPRや改正個人情報保護法により、個人データの取扱いに関する規制が厳格化され、違反時の罰則も強化されました。企業はデータ活用にあたり、これまで以上に個人のプライバシー保護に配慮する必要があります。
データ活用に際して、個人を識別できる個人データの加工や処理後のデータの保持のプロセスにおいて、データを使用目的に合わせてどの粒度で、どのように加工処理を行うか?という点は、個人のプライバシー保護の観点からも非常に重要なポイントです。
個人を識別できないレベルにデータを加工し、かつ個人の再識別のリスクを可能な限り低減する方式で匿名化されたデータセットを生成し、使用目的に応じて適切に使用することにより、GDPRの適用を受けずにデータを活用することができます。
アクセス解析の世界でいえば、Cookieや共通IDの情報、IPアドレスやUser Agentなど、個人や接続地域、個人が所属する組織などを特定できる情報をデータセットから削除し、データを高度に一般化することで、どのページに何人が訪問し、何クリックあったのか、という統計的な解析結果に加工することができます。
この解析結果には、個人データに該当する情報は含まれていません。いわゆるCookieレスのデータセット、とも言い換えられるでしょう。この記事では、データの匿名化がなぜ重要なのか、匿名化を行うにあたり、どのような注意点があるのかを見ていきます。
GDPRにおける個人データの匿名化
GDPR(一般データ保護規則)では、個人データの取扱いに厳格な規制を設けています。個人データの収集・利用において、個人のプライバシーを保護する有効な方法のひとつとして、データの匿名化があげられます。匿名化を正しく理解し、適切に活用することで、GDPRに対応する工数の削減にも繋がります。
匿名化とは
「匿名化」とは、個人データから個人を特定できる全ての情報を取り除くことを指します。このプロセスでは、匿名化したデータと元のデータを結びつけることができないように加工することが求められます。
匿名化されたデータは個人を識別したり、特定したりすることができないため、個人データとしては扱われません。そのため、GDPRの規制を受けず、収集・加工したデータを分析や統計目的で柔軟に使用することができます。
仮名化とは
匿名化に類似した概念に「仮名化」があります。仮名化は、個人データから名前などの情報を除去し、それをコードや番号に置き換える仕組みです。仮名化されたデータは、それだけでは個人を特定できないため、データの安全性の向上を見込めます。
ただし、仮名化されたデータは特定の情報と紐付けることで元のデータを復元、推測できる可能性があります。仮名化されただけのデータは、GDPRの規制対象とみなされるため注意が必要です。
GDPRにおける個人データの匿名化と仮名化は、データの安全性を高めるだけでなく、規制を遵守する上で効果的な手段のひとつと言えます。これらを適切に実施することで、企業はユーザのプライバシーを守りながら、データの有効活用を実現することができます。
匿名化するべきデータにはどのようなものがあるか
匿名化されたデータセットは、個人データを含まないため、GDPRの規制を受けません。それでは、具体的にはどのようなデータを匿名化の対象とすればよいのでしょうか?
個人データとは
GDPRでは「識別された、または識別され得る個人(「データ主体」)に関するあらゆる情報」を個人データとして定めており、EU圏居住者の個人データは、GDPRの規制対象となります。
GDPR 第4条 個人データ
(1) 「個人データ」とは、識別された自然人又は識別可能な自然人(「データ主体」)に関する情報を意味する。識別可能な自然人とは、特に、氏名、識別番号、位置データ、オンライン識別子のような識別子を参照することによって、又は、当該自然人の身体的、生理的、遺伝的、精神的、経済的、文化的又は社会的な同一性を示す一つ又は複数の要素を参照することによって、直接的又は間接的に、識別されうる者をいう。
個人データに該当する情報
Webサイトで収集するデータで個人データに該当する情報としては、主に下記があげられます。
・氏名
・ログインIDや端末を識別するIDなどの識別番号
・GPSなどの位置情報
・メールアドレス
・IPアドレスやクッキー情報
これらのデータを適切に匿名化することで、GDPRの適用対象外のデータセットにすることができます。個人データの収集・蓄積に際して、GDPRに準拠しながら有効にデータを活用する手段として、データを匿名化処理してから保存・保管することは、検討すべき選択肢のひとつです。
データの匿名化を実施する際の注意点
匿名化は、個人にまつわるデータを個人と紐付かない状態にまで加工することがポイントになります。ただ、どの程度の加工が必要なのか、今実施している加工は匿名化と言えるのか、など判断しづらいケースもあります。ここでは、データの匿名化を行う上での注意点を紹介します。
【参考】:スペイン データ保護当局 匿名化に関する10の誤解
暗号化と匿名化
暗号化されたデータは、そのままでは意味を理解できませんし、鍵がないとそもそも読むことができません。そのため、氏名や住所のデータを暗号化することで匿名化が完了したと考えてしまうかもしれませんが、これは誤りです。暗号化と対になる仕組みに復号化があります。復号化によってデータが復元できるため、暗号化は「匿名化」ではなく「仮名化」に近いと言えます。
ハッシュ化と匿名化
匿名化に近いデータにハッシュ化があります。メールアドレスや会員番号などをハッシュ化して保管する、などのデータ加工処理は業務内で日常的に行われています。ハッシュによって計算されるデータは不可逆であり、暗号化と違って復号化ができません。では、ハッシュ化されたデータは匿名化されたデータと言えるのでしょうか?
実は、ハッシュ化は匿名化ではありません。ハッシュ化で得られるハッシュ値は所定のアルゴリズムで計算して求められています。元のデータが同じであれば、ハッシュ化後のデータは同じ文字列になります。そのため、元のデータを情報漏洩や不正な手段等で入手することによって、データを再識別することが可能です。
匿名化の自動化
データの匿名化ツールは多く存在しており、適切なデータセットを用いて使用することで、匿名化処理を自動化できます。ただ、ツールによる匿名化処理を行ったからといって、データの再識別のリスクが完全に0になったわけではなく、また処理したデータが将来にわたり、未来永劫、匿名化され続けていることは誰も保証することができません。
匿名化した結果、データの使用目的に合わないデータセットになってしまっては本末転倒ですし、データのどの項目やカラム、文字列に対し、どのように匿名化処理を行うのかについては、ツールによる匿名化の自動化を実装する前に十分な検討が必要です。
匿名化データの安全性
適切に匿名化されたデータは個人とは紐付かず、安全であると見なされています。しかし、将来的な並列分散処理技術のさらなる発展や量子コンピュータの高速化や一般化、データセットに追加され続ける更新情報によって、データの再識別の可能性が高まり、匿名化されたデータの安全性が脅かされるリスクがあることは、常に考慮しておく必要があります。
一度、匿名化処理をしたからと言って安心せず、データの保管期間中は、定期的にデータのリスクアセスメントを行うなど、リスク管理の適切な実行が重要です。匿名化はGDPRに準拠する上で重要な技術要素ですが、ただ匿名化を実施しただけでは、必ずしも期待したとおりの結果が持続できない可能性があることに十分留意が必要です。
IT部門に定期的な評価や支援を依頼したり、場合によっては専門事業者のサポートを受けるなどを検討してもよいでしょう。
企業のGDPR対応をサポートするツールを以下の記事で詳解しています。合わせてご参考下さい。
【関連記事】:企業のGDPR対応をサポートするツール、その用途と種類を解説!
適切な匿名化処理でGDPR準拠とデータの有効活用の両立を
GDPRにおける個人データは幅広い定義がなされており、収集したデータの多くは個人データに分類されます。
個人データはその取扱いに際して、ユーザの同意取得や撤回・訂正要求への対応などが必須となります。収集したデータを使用する前に、含まれている情報は使用目的に合っているか、データセット内の情報はそのまま分析に使用しても問題はないか、データを使用する側として責任をもった管理と判断を求められていると言えるでしょう。
データの匿名化は、ユーザのプライバシーを保護する上で有効な加工処理ですが、適切な匿名化によりGDPRの規制を受けないデータセットとすることで、企業がより柔軟で有効なデータ活用を実現できる側面もあります。
RTmetricsは、GDPRに準拠したアクセス解析を実現できるツールです。収集したデータのハッシュ化や匿名化の設定を標準機能で行えるほか、Cookieに依存しないCookieレスの設定も製品の管理画面で簡単に選択できます。データの使用目的に応じて、加工処理のポリシーの異なる複数のデータセットを同一のツール内でグループを分けて保存・管理し、使用することもできます。
複雑になりがちなGDPR対応をシンプルに実現したい方は、RTmetricsを一度、ご検討ください。