数据和 AI 治理的最佳做法
本文介绍数据和 AI 治理最佳做法,内容按照以下部分中列出的体系结构原则进行组织。
1.统一数据和 AI 管理
建立数据和 AI 治理流程
数据和 AI 治理是指管理组织的数据和 AI 资产的适用性、可用性、完整性和安全性。 通过加强数据和 AI 治理,组织可以确保对准确分析和决策至关重要的资产的质量,帮助发现新机会,提高客户满意度,并最终增加收入。 它有助于组织遵守数据和 AI 隐私法规并改进安全措施,降低数据外泄和遭受处罚的风险。 有效的数据治理还可以消除冗余、简化数据管理,从而节省成本并提高运营效率。
组织可能希望选择最适合他们的治理模式:
- 在集中式治理模型中,治理管理员是元存储的所有者,可以获取任何对象的所有权,并授予和撤销权限。
- 在分布式治理模型中,目录或一组目录是数据域。 目录的所有者可以创建并拥有所有资产,并管理数据域中的治理。 任何给定域的所有者都可以独立于其他域的所有者进行操作。
数据和 AI 治理解决方案 Unity Catalog 已集成到 Databricks Data Intelligence 平台中。 它支持两种治理模型,并有助于无缝管理任何云或平台上的结构化和非结构化数据、ML 模型、笔记本、仪表板和文件。 Unity Catalog 最佳做法有助于实现数据和 AI 治理。
在一个位置管理所有数据和 AI 资产的元数据
在一个位置管理所有资产的元数据的好处与维护所有数据的单一事实来源类似。 这些好处包括减少数据冗余、提高数据完整性,以及消除由于不同定义或分类法而造成的误解。 通过单一源实施全局策略、标准和规则也更加容易。
作为最佳做法,请使用 Unity Catalog 在单个帐户中运行湖屋。 Unity Catalog 可以管理数据和卷(任意文件),以及特征和 AI 模型等 AI 资产。 Unity Catalog 中对象的顶级容器是元存储。 它存储数据资产(例如表和视图),以及用于管理对数据资产的访问的权限。 为每个云区域使用单个元存储,不要跨区域访问元存储以避免延迟问题。
元存储提供三级命名空间来构建数据、卷和 AI 资产:
Databricks 建议使用目录在组织的整个信息体系结构中提供隔离。 这通常意味着目录可以对应于软件开发环境范围、团队或业务部门。
跟踪数据和 AI 世系以提高数据可见性
数据世系是一个强大的工具,可以帮助数据领导者更好地洞察和理解其组织中的数据。 数据世系描述源中数据到见解的转换和具体化。 它包括在其整个生命周期内捕获的所有相关元数据以及与数据关联的事件,例如数据集的源、用于创建该数据集的其他数据集、其创建者和创建时间、执行的转换、使用它的其他数据集,以及其他许多事件和属性。
此外,基于 Unity Catalog 的表训练模型时,可以跟踪模型的世系,一直跟踪到训练和评估该模型所使用的上游数据集。
世系可用于许多与数据相关的用例:
- 合规性和审核就绪性:数据世系可帮助组织跟踪表和字段的源。 这对于满足许多法规条例要求非常重要,例如一般数据保护条例 (GDPR)、加州消费者隐私法案 (CCPA)、医疗保险可携性和责任法案 (HIPAA)、巴塞尔银行监管委员会 (BCBS) 239、和萨班斯-奥克斯利法案 (SOX)。
- 影响分析/变更管理:数据从源到最终的业务就绪表会经历多次转换。 从风险管理的角度看,了解数据更改对下游用户的潜在影响非常重要。 使用 Unity Catalog 捕获的数据世系可以轻松确定这种影响。
- 数据质量保证:了解数据集的来源以及应用了哪些转换可为数据科学家和分析师提供更好的背景信息,使他们能够获得更好、更准确的见解。
- 调试和诊断:如果出现意外结果,数据世系可帮助数据团队通过追溯错误源头来执行根本原因分析。 这可以大大减少故障排除时间。
Unity Catalog 会捕获在 Azure Databricks 上运行的查询的运行时数据世系以及模型世系。 所有语言都支持世系,世系捕获级别低至列。 世系数据包括与查询相关的笔记本、作业和仪表板。 可以在目录资源管理器中准实时地可视化世系,并使用 Databricks 的 数据世系 REST API 访问世系。
为元数据添加一致的说明
说明将为数据提供必不可少的上下文。 它们可帮助用户了解数据表和列的用途和内容。 这种明确性使用户能够更轻松地发现、识别和筛选所需的数据,这对于有效的数据分析和决策至关重要。 说明可以包括数据敏感性与合规性信息。 这有助于组织满足数据隐私和安全的法律和监管要求。 说明还应包括有关数据源、准确性和相关性的信息。 这有助于确保数据完整性并促进团队间的更好协作。
Unity Catalog 中的两个主要功能支持描述表和列。 Unity Catalog 允许
- 以注释形式为表和列添加注释。
- 为 Unity Catalog 中的任何安全对象添加标记。 标记是包含键和可选值的属性,可应用于 Unity Catalog 中的不同安全对象。 标记可用于在元存储中组织和分类不同的安全对象。 使用标记还可以更轻松地搜索和发现数据资产。
让数据使用者轻松发现数据
利用简单的数据发现功能,数据科学家、数据分析师和数据工程师可以快速发现和引用相关数据,并缩短实现价值的时间。
Databricks 目录资源管理器提供了一个用户界面,可用于浏览和管理数据、架构(数据库)、表和权限、数据所有者、外部位置和凭据。 此外,可以使用目录资源管理器中的“见解”选项卡查看在 Unity Catalog 中注册的任何表的最近最活跃查询和用户。
将 AI 资产与数据一起治理
数据治理与人工智能 (AI) 之间的关系是成功的关键所在。 组织管理、保护和使用数据的方式会直接影响 AI 实现的结果和考量:没有高质量数据就没有 AI,没有数据治理就没有高质量数据。
将数据和 AI 一起治理可确保无缝访问高质量、最新的数据,提高 AI 的性能,从而提高准确性和做出更好的决策。 打破孤岛可以通过改善协作和简化工作流来提高效率,从而提高生产力并降低成本。
另一个好处是提高数据安全性,因为统一的治理方法建立了一致的数据处理做法,减少了漏洞并提高了组织保护敏感信息的能力。 将数据和 AI 治理集成后,可以更容易地遵守数据隐私法规,因为数据处理和 AI 流程符合监管要求。
总体而言,统一的治理方法通过为数据和 AI 制定明确的策略和过程,促进利益干系人之间的信任,并确保 AI 决策过程的透明度。
在 Databricks Data Intelligence 平台中,Unity Catalog 是治理数据和 AI 资产的核心组件:
-
在启用了 Unity Catalog 的工作区中,数据科学家可以在 Unity Catalog 中创建特征表。 这些特征表是由 Unity Catalog 管理的 Delta 表或增量实时表。
-
Unity Catalog 中的模型将 Unity Catalog 的优势扩展到 ML 模型,包括跨工作区的集中访问控制、审核、世系和模型发现。 Unity Catalog 中模型的主要特征包括模型治理、按时间顺序排列的模型世系、模型版本控制以及通过别名进行的模型部署。
2.统一数据和 AI 安全性
对所有数据和 AI 资产进行集中式访问控制
对所有数据资产进行集中式访问控制非常重要,因为这样可以提供一个中心位置来管理和审核对这些资产的访问,从而简化数据和 AI 资产的安全控制和治理。 此方法有助于更有效地管理数据和 AI 对象访问,确保实施有关职责分离的操作要求,这对于法规合规和避免风险至关重要。
Databricks Data Intelligence 平台提供数据访问控制方法,用于描述哪些组或个人可以访问哪些数据。 这些策略声明可以非常细致和具体,具体到有关每个人有权访问每条记录的定义。 或者,它们可以非常有代表性和统括性,例如所有财务用户可以查看所有财务数据。
Unity Catalog 集中了所有受支持安全对象(例如表、文件、模型等)的访问控制。 Unity Catalog 中的每个安全对象都有一个所有者。 对象的所有者拥有该对象的所有特权,并且能够向其他主体授予对安全对象的特权。 Unity Catalog 允许使用 SQL DDL 语句管理特权和配置访问控制。
Unity Catalog 使用行筛选器和列掩码实现精细访问控制。 行筛选器让你可以向表应用筛选器,以便后续查询仅返回筛选器谓词的计算结果为 true 的行。 列掩码允许你将掩码函数应用于表列。 掩码函数在查询运行时计算,将目标列的每个引用替换为掩码函数的结果。
有关更多信息,请参阅安全性、合规性和隐私 - 使用最低特权管理标识和访问。
配置审核日志记录
审核日志非常重要,因为它提供可能影响系统完整性的系统活动(用户操作、设置更改等)的详细说明。 标准系统日志旨在帮助开发人员解决问题,而审核日志则提供活动的历史记录,以满足合规性和其他业务策略实施目的。 维护可靠的审核日志有助于识别威胁、违规、欺诈和其他系统问题并确保做好准备。
Databricks 允许访问 Databricks 用户所执行活动的审核日志,使组织能够监视详细的 Databricks 使用模式。 有两种类型的日志:包含工作区级事件的工作区级审核日志,以及包含帐户级事件的帐户级审核日志。
还可以启用详细审核日志,作为在工作区中运行查询或命令时记录的附加审核日志。
审核数据平台事件
审核日志记录非常重要,因为它提供系统活动的详细说明。 Data Intelligence 平台提供有关元数据访问(因此也是数据访问)和数据共享的审核日志:
- Unity Catalog 捕获对元存储执行的操作的审核日志。 这使管理员能够访问有关谁访问过给定数据集以及他们执行了哪些操作的细节。
3.建立数据质量标准
Databricks Data Intelligence 平台提供可靠的数据质量管理,其中内置了质量控制、测试、监视和实施,以确保下游 BI、分析和机器学习工作负载获得准确和有用的数据。
可以在可靠性 - 管理数据质量中查看实施细节。
定义明确的数据质量标准
定义清晰且可操作的数据质量标准至关重要,因为这有助于确保用于分析、报告和决策的数据可靠且可信。 阐述这些标准有助于确保持续遵守这些标准。 数据质量标准应基于业务的具体需求,并应解决数据质量的各个方面,例如准确性、完整性、一致性、及时性和可靠性:
- 准确性:确保数据准确反映真实价值。
- 完整性:应捕获所有所需的数据,不应缺少任何关键数据。
- 一致性:所有系统的数据应该一致,并且不与其他数据相矛盾。
- 及时性:应及时更新并提供数据。
- 可靠性:应以确保可靠的方式获取和处理数据。
使用数据质量工具来分析、清理、验证和监视数据
利用数据质量工具来分析、清理、验证和监视数据。 这些工具有助于自动检测和纠正数据质量问题,这对于在数据湖中的典型大型数据集中缩放数据质量计划至关重要
对于使用 DLT 的团队,可以使用期望来对数据集内容定义数据质量约束。 期望使你能够保证进入表中的数据满足数据质量要求,并为每项管道更新提供数据质量的见解。
实施标准化数据格式和定义
标准化的数据格式和定义有助于实现所有系统中数据的一致表示,从而促进数据集成和分析、降低成本,并通过加强跨团队和部门的沟通和协作来改善决策。 它还有助于提供创建和保持数据质量的结构。
制定并实施标准数据字典,其中包括整个组织使用的所有数据元素的定义、格式和可接受的值。
在所有数据库和应用程序中使用一致的命名约定、日期格式和度量单位,以防止出现差异和混淆。