使用 Delta Lake 实现 GDPR 和 CCPA 符合性

本文介绍如何使用 Azure Databricks 上的 Delta Lake 管理数据湖的《一般数据保护条例》(GDPR) 和《加州消费者隐私法》(CCPA) 合规性。 合规性通常要求点删除,或删除大型数据集合中的个别记录。 Delta Lake 通过 ACID 事务加速大型数据湖中的点删除,使你能够定位和删除个人身份信息 (PII) 以响应所有者 GDPR 或 CCPA 请求。

规划数据模型以确保合规性

为确保合规性而对数据建模是处理 PII 的重要步骤。 根据数据使用者的需求,有许多可行的方法。

一种经常应用的方法是假名化,或将个人信息元素(标识符)可逆地标记化为无法从外部标识的密钥(假名)。 通过假名化来确保合规性需要仔细规划,其中包括:

  • 以链接到假名而非标识符的方式存储信息。
  • 维护严格的策略,以访问和使用组合标识符和假名的数据。
  • 用于删除原始数据的管道或存储策略。
  • 用于定位和删除假名和标识符之间的链接的逻辑。

Delta Lake 如何简化点删除

Delta Lake 内置了许多数据跳过优化。 为了加速点删除,Databricks 建议对你在 DELETE 操作期间使用的字段使用 Z 排序。

Delta Lake 会保留表历史记录,并使其可用于时间点查询和回滚。 VACUUM 函数可删除不再由 Delta 表引用且早于指定保留期阈值的数据文件,从而永久删除数据。 若要详细了解默认值和建议,请参阅使用 Delta Lake 表历史记录