Compartir a través de

什么是 Lakehouse Federation?

Lakehouse Federation 是 Databricks 的查询联合平台。 术语“查询联合”是指一系列功能,它们使用户和系统能够针对多个数据源运行查询,而无需将所有数据迁移到一个统一的系统。

有两种类型的联合身份验证:查询联合身份验证和目录联合身份验证。 本页介绍类型之间的差异。

查询联合与目录联合的比较

下表总结了查询联合身份验证和目录联合身份验证之间的主要差异:

特征 查询联合 目录联合
查询路径 Unity 目录查询使用 JDBC 向下推送到外部数据库。 查询同时在 Databricks 中和通过远程计算运行。 Unity Catalog 查询直接访问对象存储中的外部表。 目录联合可用于支持直接访问其目录和存储服务的平台。 查询仅在 Databricks 计算上运行,这意味着目录联合比查询联合更具成本效益和性能优化。
用例
  • 需要对存储在外部数据库中的操作数据进行即席报告或概念验证访问权限。
  • 你希望最大程度地减少数据移动和维护对外部系统的实时访问。

如果您的源同时支持 Lakehouse 联合和 Lakeflow Connect,那么如果优先考虑在更高数据量和更低延迟条件下的性能,Databricks 建议使用 Lakeflow Connect。
  • 正在迁移到 Unity 目录,但需要逐步从外部目录分阶段引入管理的数据。
  • 你需要一个长期混合模型,其中某些数据保留在外部目录中,某些数据由 Unity 目录管理。
步骤概述
  • 使用访问凭据和 JDBC URL 在 Unity 目录中创建连接。
  • 使用连接创建外部目录。
  • 向外部目录中的表的用户授予权限。
  • 运行查询。 这些内容将向下推送到外部数据库。
  • 在 Unity 目录中创建用于访问外部目录的连接。
  • 为表路径创建存储凭据和外部位置。
  • 使用连接和外部存储位置创建一个外部目录。
  • 向外部目录中的表的用户授予权限。
  • 运行查询。 这些操作直接在对象存储上运行。

支持的数据源

使用查询联合连接到以下源:

使用目录融合连接以下数据源:

其他资源