构建单一数据源意味着什么?
Databricks 湖屋支持在单个系统中统一数据访问和存储,并将 Lakehouse 作为单一真实数据源 (SSOT),不再需要跨多个系统创建和同步数据副本。 复制数据通常会导致形成数据孤岛,即组织中的不同团队可能在使用同一数据的不同版本,这些版本的质量和时效性都不同。
Lakehouse 如何控制事务和数据访问?
Delta Lake 事务使用与数据文件一起存储的日志文件,来提供表级别的 ACID 保证。 由于支持 Delta Lake 表的数据和日志文件同时位于云对象存储中,因此可以同时读取和写入数据,而不会出现由于查询过多导致性能下降或业务关键工作负载死锁的风险。 也就是说,整个企业环境中的用户和应用程序都可以连接到相同的数据单一副本,以驱动不同的工作负载,且保证所有查看者都可以在查询执行时接收最新版本的数据。
管理生产数据的访问权限
Unity Catalog 提供集中式数据治理解决方案,使数据专员能够对用户、组和服务主体进行精细的访问控制。 Unity Catalog 使用访问控制列表 (ACL) 管理权限,通过这些列表可以灵活且具体地配置资源。 一些可配置的权限包括:
- 针对少数表的只读访问权限。
- 创建和修改数据库表的权限。
- 可以读取或修改特定云存储位置中的数据。
- 通过 Unity Catalog 管理的存储凭据访问大量云资源。
有关详细信息,请参阅什么是 Unity Catalog?。
利用 Lakehouse 中的视图
Azure Databricks 上的视图表示针对存储在表(位于 Lakehouse 某处)中的数据的已保存查询。 视图会在每次针对视图的查询运行时执行定义逻辑,而生成表的查询是在写入时执行的。 这意味着视图可以提供对各种源中数据的最新访问,且计算仅用于在需要时更新结果。
可以使用 Unity Catalog 来保护和共享视图以及其他数据对象,从而允许个人和团队共享推动整个组织的关键业务决策的逻辑。
有关详细信息,请参阅什么是视图?。
与协作者共享数据
虽然 Unity Catalog 中的 ACL 涵盖了在企业组织内共享数据的广泛用例,但 Delta Sharing 通过管理数据集(可随时随地与协作者共享)的只读访问权限,进一步扩展了这一点。 Unity Catalog 支持的用例包括:
- 为跨国公司的独立区域提供实时访问区域分析的权限。
- 共享同一企业名下的各个独立业务之间的数据集。
- 为第三方使用者提供针对客户特选数据集的安全访问权限。
在 Azure Databricks 上,Delta Sharing 内置于 Unity Catalog 中,但其也是开源 Delta Lake 的一部分。 有关详细信息,请参阅什么是 Delta Sharing?。