读取使用 Databricks 到 Databricks Delta Sharing（适用于接收方）共享的数据

本页介绍如何使用 Databricks 到 Databricks Delta 共享协议读取与你共享的数据，其中 Databricks 管理数据共享的安全连接。与 Delta Sharing 开放共享协议不同，Databricks 到 Databricks 协议不需要凭据文件（基于令牌的安全性）。

Databricks 到 Databricks 共享要求你（作为接收者）满足以下两个要求：

有权访问启用了 Unity Catalog 的 Databricks 工作区。
提供者使用 Databricks 到 Databricks Delta Sharing 协议，而不是开放共享协议，后者为你提供凭据文件。

如果不满足任一要求，请参阅使用 Delta Sharing 开放共享和持有者令牌读取共享的数据（针对接收者）。

如何向团队提供共享的数据？

若要读取使用 Databricks 到 Databricks 协议与你共享的数据和笔记本，你必须是启用了 Unity Catalog 的 Databricks 工作区的用户。团队成员为数据提供程序提供 Unity 目录元存储的唯一标识符，数据提供程序使用该标识符创建与组织的安全共享连接。然后，共享数据可在工作区中读取。数据提供程序对共享表、视图、卷和分区的更新会几乎同步地反映在您的工作区中。

注意

列更改（例如添加、重命名或删除）可能不会在目录资源管理器中显示长达一分钟。同样，新共享和共享更新（包括添加新表）在可供查看和查询之前缓存一分钟。

若要读取与你共享的数据：

你的团队中的某个用户查找共享（与你共享的表、视图、卷和笔记本的容器），并使用该共享创建一个目录（Databricks Unity Catalog 中所有数据的顶级容器）。
团队中的用户向团队成员授予或拒绝访问目录和目录内的对象（架构、表、视图和卷）。
可以像读取 Databricks 中你对其拥有只读（SELECT 或 READ VOLUME）访问权限的任何其他数据资产一样，读取你有权访问的表、视图和卷中的数据。
只要你对目录具有 USE CATALOG 特权，就可以预览和克隆共享中的笔记本。

所需的权限

若要列出和查看有关所有提供者和提供者共享的详细信息，你必须是元存储管理员或拥有 USE PROVIDER 特权。其他用户只能访问他们拥有的提供方和共享。

若要从提供者共享创建目录，你必须是元存储管理员、对 Unity Catalog 元存储同时拥有 CREATE CATALOG 和 USE PROVIDER 特权的用户，或者是拥有 CREATE CATALOG 特权并对提供者对象拥有所有权的用户。

授予对通过共享创建的目录中的架构（数据库）、表、视图和卷的只读访问权限的能力遵循典型的 Unity Catalog 特权层次结构。若要查看基于共享创建的目录中笔记本，需要对该目录拥有 USE CATALOG 特权。请参阅管理 Delta Sharing 目录中架构、表和卷的权限。

查看提供方和共享

若要开始读取数据提供程序与你共享的数据，需要知道提供程序与你共享数据后，存储在 Unity Catalog 元存储中的提供程序和共享对象的名称。

提供程序对象表示与你共享数据的组织的 Unity Catalog 元存储、云平台和区域。

共享对象表示提供者与你共享的表、卷和视图。

查看与你共享了数据的所有提供程序

若要查看可用的数据提供者列表，可以使用目录资源管理器、Databricks Unity Catalog CLI，或者 Azure Databricks 笔记本或 Databricks SQL 查询编辑器中的 SHOW PROVIDERS SQL 命令。

所需的权限：必须是元存储管理员或拥有特权。其他用户只能访问他们拥有的提供者及其共享资源。

有关详细信息，请参阅提供商列表。

查看提供方详细信息

若要查看有关提供者的详细信息，可以使用目录资源管理器、Databricks Unity Catalog CLI，或者 Azure Databricks 笔记本或 Databricks SQL 查询编辑器中的 DESCRIBE PROVIDER SQL 命令。

所需的权限：必须是元存储管理员、拥有特权，或拥有提供者对象。

有关详细信息，请参阅查看提供程序详细信息。

查看共享

若要查看提供者与你共享的共享，可以使用目录资源管理器、Databricks Unity Catalog CLI，或者 Azure Databricks 笔记本或 Databricks SQL 查询编辑器中的 SHOW SHARES IN PROVIDER SQL 命令。

所需的权限：必须是元存储管理员、拥有特权，或拥有提供者对象。

有关详细信息，请参阅查看提供者与你共享的内容。

在共享表或卷中访问数据

若要读取共享表或卷中的数据：

特权用户必须从包含表或卷的共享创建目录。此用户可以是元存储管理员、对 Unity Catalog 元存储同时拥有 CREATE CATALOG 和 USE PROVIDER 特权的用户，或者是拥有 CREATE CATALOG 特权并对提供者对象拥有所有权的用户。
该用户或拥有相同特权的用户必须向你授予对该共享表或卷的访问权限。
可以像访问 Unity Catalog 元存储中注册的任何其他数据资产一样访问表或卷。

从共享中创建目录

若要使共享中的数据可供团队访问，必须从共享创建目录或将共享装载到现有共享目录。若要从共享创建目录，可以使用目录资源管理器、Databricks Unity Catalog CLI，或者 Azure Databricks 笔记本或 Databricks SQL 查询编辑器中的 SQL 命令。若要将共享装载到现有共享目录，可以使用目录资源管理器。

创建目录所需的权限：元存储管理员、在 Unity 目录元存储中拥有 CREATE CATALOG 和 USE PROVIDER 权限的用户，或者拥有 CREATE CATALOG 权限以及提供程序对象所有权的用户。

将共享挂载到现有目录所需的权限：用户必须拥有 USE PROVIDER 权限或是提供程序对象的所有者，并且还需要拥有现有共享目录的所有权，或者同时拥有现有共享目录的 MANAGE 和 USE CATALOG 权限。

注意

如果共享包含视图，则必须使用与包含提供程序元存储中视图的目录名称不同的目录名称。

目录资源管理器

在 Azure Databricks 工作区中，单击以打开目录资源管理器。
在目录窗格顶部，单击并选择“增量共享”。

或者，在“快速访问”页中，单击“Delta Sharing”按钮>。
在“与我共享的内容”选项卡上，查找并选择提供方。
找到所需的共享，然后单击共享行上的装载到目录。
选择“ 创建新目录 ”或 “装载到现有目录 ”，将数据资产添加到现有目录。
输入新目录的名称，或选择要将共享项添加到的现有目录。
单击“ 创建 ”或 “装载”。

或者，打开目录资源管理器时，可以在右上角单击 “+ > 创建目录 ”以创建共享目录。请参阅创建目录。

SQL

在笔记本或 Databricks SQL 查询编辑器中运行以下命令。

CREATE CATALOG [IF NOT EXISTS] <catalog-name>
USING SHARE <provider-name>.<share-name>;

CLI

databricks catalogs create <catalog-name> /
--provider-name <provider-name> /
--share-name <share-name>

从共享创建的目录的目录类型为“Delta Sharing”。可以在目录资源管理器中的目录详细信息页上查看类型，或者在笔记本或 Databricks SQL 查询中运行 DESCRIBE CATALOG SQL 命令来查看类型。所有共享目录都列在 Catalog Explorer 左窗格中的“目录 > 共享”下。

Delta Sharing 目录的管理方式与 Unity Catalog 元存储中的常规目录的管理方式相同。可以使用目录资源管理器、Databricks CLI 以及 SHOW CATALOGS、DESCRIBE CATALOG、ALTER CATALOG 和 DROP CATALOG SQL 命令查看、更新和删除 Delta Sharing 目录。

通过共享创建的 Delta Sharing 目录下的 3 级命名空间结构与 Unity Catalog 上的常规目录下的命名空间结构相同：catalog.schema.table 或 catalog.schema.volume。

共享目录下的表和卷数据是只读的，这意味着你可以执行以下读取操作：

DESCRIBE、SHOW、SELECT（针对表）。
DESCRIBE VOLUME、LIST <volume-path>、SELECT * FROM <format>.'<volume_path>'、和 COPY INTO（用于卷）。

对目录拥有 USE CATALOG 权限的任何用户都可以预览和克隆共享该目录中的笔记本。

具有以下权限的任何用户可以读取和加载共享目录中的模型，以便进行推理：EXECUTE 已注册模型的权限，以及包含模型的架构和目录的 USE SCHEMA 和 USE CATALOG 权限。

对 Delta Sharing 目录中的架构、表和卷进行权限管理

默认情况下，目录创建者是 Delta Sharing 目录下所有数据对象的所有者，可以管理其中任何对象的权限。

特权将向下继承，不过，某些工作区可能仍位于不提供继承的旧式安全模型中。请参阅继承模型。对目录拥有 SELECT 特权的任何用户将对该目录中的所有架构和表拥有 SELECT 特权，除非撤销了该特权。同样，对目录拥有 READ VOLUME 特权的任何用户将对该目录中的所有卷拥有 READ VOLUME 特权，除非撤销了该特权。不能授予可对 Delta Sharing 目录或 Delta Sharing 目录中对象进行写入或更新访问的特权。

目录所有者可将数据对象的所有权委托给其他用户或组，从而为这些用户授予管理对象权限和生命周期的能力。

有关使用 Unity Catalog 管理数据对象特权的详细信息，请参阅在 Unity Catalog 中管理特权。

读取共享表中的数据

可以用 Azure Databricks 用户的身份使用任何可用工具读取共享表中的数据：目录资源管理器、笔记本、SQL 查询、Databricks CLI 和 Databricks REST API。必须对表拥有 SELECT 特权。

读取共享外部表或外部模式中的数据

重要

此功能在 Beta 版中。工作区管理员可以从预览页控制对此功能的访问。请参阅管理 Azure Databricks 预览版。

可以使用作为 Azure Databricks 用户可用的任何工具读取共享的外部表或外部架构中的数据：目录资源管理器、笔记本、SQL 查询、Databricks CLI 和 Databricks REST API。必须具有 SELECT 共享的外部表或外部模式的权限。

访问共享外部表或外部架构时，会产生额外的费用。有关如何计算共享费用的信息，请参阅如何确定和检查Delta Sharing成本？。

读取共享卷中的数据

可以用 Azure Databricks 用户的身份使用任何可用工具读取共享卷中的数据：Catalog Explorer、笔记本、SQL 查询、Databricks CLI 和 Databricks REST API。必须对卷拥有 READ VOLUME 特权。

加载共享模型进行推理

有关加载共享模型并将其用于批量推理的详细信息，请参阅按别名加载推理工作负载的模型版本。

查询表的历史记录数据

如果历史记录与表一起共享，可以查询某个版本或时间戳之前的表数据。需要 Databricks Runtime 12.2 LTS 或更高版本。

例如：

SELECT * FROM vaccine.vaccine_us.vaccine_us_distribution VERSION AS OF 3;
SELECT * FROM vaccine.vaccine_us.vaccine_us_distribution TIMESTAMP AS OF "2023-01-01 00:00:00";

此外，如果表启用了更改数据馈送 (CDF)，则你可以查询 CDF。支持版本和时间戳：

SELECT * FROM table_changes('vaccine.vaccine_us.vaccine_us_distribution', 0, 3);
SELECT * FROM table_changes('vaccine.vaccine_us.vaccine_us_distribution', "2023-01-01 00:00:00", "2022-02-01 00:00:00");

有关更改数据馈送的详细信息，请参阅在 Azure Databricks 上使用 Delta Lake 更改数据馈送。

使用 Apache Spark 结构化流处理来查询表格

如果表与历史记录一起共享，你可以将该表用作 Spark 结构化流式处理的源。需要 Databricks Runtime 12.2 LTS 或更高版本。

支持的选项：

ignoreDeletes：忽略删除数据的事务。
ignoreChanges：如果由于数据更改操作（例如 UPDATE、MERGE INTO、DELETE（分区内）或 OVERWRITE）而在源表中重写了文件，则重新处理更新。仍可以发出未更改的行。因此，下游使用者应该能够处理重复项。删除不会传播到下游。 ignoreChanges 包括 ignoreDeletes。因此，如果使用 ignoreChanges，则流不会因源表的删除或更新而中断。
startingVersion：要从其开始的共享表版本。从此版本（含）开始的所有表更改都将由流式处理源读取。
startingTimestamp：起始时间戳。在该时间戳（含）或之后提交的所有表更改都将由流式处理源读取。示例： "2023-01-01 00:00:00.0"
maxFilesPerTrigger：在每个微批处理中考虑的新文件数。
maxBytesPerTrigger：在每个微批中处理的数据量。此选项设置一个“柔性最大值”，这意味着批处理大约处理此数量的数据，并且可能会超过此限制，以便在最小输入单元大于此限制的情况下，继续处理流式查询。
readChangeFeed：流式读取共享表的变更数据馈送。

不支持的选项：

Trigger.availableNow

结构化流式处理查询示例

编程语言Scala

spark.readStream.format("deltaSharing")
.option("startingVersion", 0)
.option("ignoreChanges", true)
.option("maxFilesPerTrigger", 10)
.table("vaccine.vaccine_us.vaccine_us_distribution")

Python

spark.readStream.format("deltaSharing")\
.option("startingVersion", 0)\
.option("ignoreDeletes", true)\
.option("maxBytesPerTrigger", 10000)\
.table("vaccine.vaccine_us.vaccine_us_distribution")

如果表启用了更改数据源 (CDF)，则可以流式读取 CDF。

spark.readStream.format("deltaSharing")
.option("readChangeFeed", "true")
.table("vaccine.vaccine_us.vaccine_us_distribution")

应用行筛选器和列掩码

若要对数据供应商共享的表和外部表应用行筛选器和列掩码，请参阅手动应用行筛选器和列掩码。列掩码不能应用于流式处理表或物化视图。

读取已启用删除向量或列映射的表

重要

此功能目前以公共预览版提供。可以在预览页面上确认加入状态。请参阅管理 Azure Databricks 预览版。

删除向量是提供商可以在共享 Delta 表上启用的一项存储优化功能。请参阅 Databricks 中的删除向量。

Azure Databricks 还支持 Delta 表的列映射。请参阅使用 Delta Lake 列映射重命名和删除列。

如果你的提供商共享了启用了删除矢量或列映射的表，则可使用 SQL 仓库或运行 Databricks Runtime 14.1 或更高版本的群集来对该表执行批量读取。 CDF 和流式处理查询需要 Databricks Runtime 14.2 或更高版本。

可以按原样执行批处理查询，因为它们可以根据共享表的表功能自动解析 responseFormat。

若要读取变更数据馈送 (CDF) 或对启用了删除向量或列映射的共享表执行流式处理查询，必须设置附加选项 responseFormat=delta。

以下示例显示了批处理、CDF 和流式处理查询：

import org.apache.spark.sql.SparkSession

// Batch query
spark.read.format("deltaSharing").table(<tableName>)

// CDF query
spark.read.format("deltaSharing")
  .option("readChangeFeed", "true")
  .option("responseFormat", "delta")
  .option("startingVersion", 1)
  .table(<tableName>)

// Streaming query
spark.readStream.format("deltaSharing").option("responseFormat", "delta").table(<tableName>)

读取共享托管的 Iceberg 表

重要

此功能目前以公共预览版提供。可以在预览页面上确认加入状态。请参阅管理 Azure Databricks 预览版。

读取共享托管 Iceberg 表与读取共享表相同，但有以下例外：

支持开放共享：

本文中的说明重点介绍如何使用 Azure Databricks 用户界面（特别是 Unity Catalog 语法和界面）读取共享数据。由于对 Delta 共享连接器的高级 Delta 功能支持存在限制，因此不支持使用 Python、Tableau 和 Power BI 查询共享托管 Iceberg 表。

更改数据馈送：

托管 Iceberg 表不支持更改数据馈送。

Azure Databricks Iceberg 限制：

Iceberg 表和托管 Iceberg 表限制适用。请参阅 Iceberg 表限制。

查看共享视图

读取共享视图与读取共享表相同，但以下情况除外：

共享视图限制：

共享视图仅支持 Databricks 中的内置函数和运算符子集。请参阅 Databricks 到 Databricks 共享视图中支持的函数。
在 Databricks 到 Databricks 共享的查询中，接收方不能查询超过 20 个共享视图。共享视图不能来自超过五个不同的提供者分享。
如果提供程序来自同一帐户，或者在不同的帐户中使用无服务器计算，则无法在单个查询中从同一提供程序查询多个依赖视图。例如，如果view1依赖于view2提供程序端，并且这两个视图都与你共享，则不能在同一查询中引用这两个view1view2视图。

命名要求：

用于包含视图的共享目录的目录名称不能与包含视图引用的表的任何提供方目录相同。例如，如果共享视图包含在 test 目录中，并且该视图中引用的提供程序表之一包含在提供程序的 test 目录中，则查询将导致命名空间冲突错误。请参阅从共享创建目录。

查询结果超时：

如果没有直接访问基础数据，Azure Databricks 在查询视图时执行即时具体化。当这种物化操作耗时超过 5 分钟时，查询将超时。切换到无服务器计算环境以避免此限制。

历史和流媒体：

不能查询历史记录或使用视图作为流式处理源。

查看开放共享中的支持：

本文中的说明重点介绍如何使用 Azure Databricks 用户界面（特别是 Unity Catalog 语法和界面）读取共享数据。还可以使用 Apache Spark、Python 和 BI 工具（如 Tableau 和 Power BI）查询共享视图。

成本：

有关如何计算共享费用的信息，请参阅如何确定和检查Delta Sharing成本？。

读取共享流表和物化视图

读取共享流式处理表和物化视图与读取共享表相同，但有以下例外：

支持开放共享：

本文中的说明重点介绍如何使用 Azure Databricks 用户界面（特别是 Unity Catalog 语法和界面）读取共享数据。还可以使用 Apache Spark、Python 和 BI 工具（如 Tableau 和 Power BI）查询共享流式处理表和具体化视图。

SQL 限制：

不支持 current_recipient 函数。
不支持该 DESCRIBE EXTENDED 命令。

列映射：

如果在从其他 Azure Databricks 帐户接收共享时使用经典计算，则必须在使用列映射查询具体化视图或流式处理表时指定 responseFormat 如下所示。

spark.read.option("responseFormat", "delta").table("catalog_name.schema_name.mv_name")

如果在任何方案中在同一 Azure Databricks 帐户或无服务器计算中共享时使用经典计算，则可以不受限制地查询。

成本：

有关如何计算共享费用的信息，请参阅如何确定和检查Delta Sharing成本？。

具体化视图特定异常

History:

无法查询历史记录。

Refresh:

无法访问具体化视图的刷新状态和刷新计划。

视图和流式表的创建：

不能在共享具体化视图上创建流表。

流式处理表特定异常

History:

以下 Databricks 到 Databricks 共享情况提供查询历史记录：

与不同的 Azure Databricks 帐户共享时，将使用无服务器计算。
在同一 Azure Databricks 帐户中共享时，将使用无服务器或经典计算。

有关不同计算的详细信息，请参阅 “计算”。

Refresh:

无法访问流媒体表的刷新状态和刷新计划。

读取共享 Python UDF

读取共享 Python UDF 与读取共享表相同。为共享创建新目录或将共享装载到现有目录后，可以访问和使用 Python UDF。

读取共享 `FeatureSpecs`

读取共享 FeatureSpecs 与读取共享表相同。创建共享的新目录或将共享装载到现有目录后，您可以将 FeatureSpec 部署到您所需的服务终结点。若要了解如何创建终结点，请参阅 “创建终结点”。

如果提供程序使用 FeatureSpec 新的依赖项进行更新，但不与你共享依赖项，则模型会失败。请联系您的数据供应商以检查新的依赖项。

在提供服务 FeatureSpec之前，必须创建在线商店并在工作区中发布依赖表。

读取共享笔记本

若要预览和克隆共享笔记本文件，可以使用目录资源管理器。

存储限制： 如果存储使用专用终结点，则无法读取共享笔记本。

所需的权限：目录所有者，或者对基于共享创建的目录拥有特权的用户USE CATALOG。

在 Azure Databricks 工作区中，单击目录。
在左侧窗格中展开“目录”菜单，找到并选择基于共享创建的目录。
在“其他资产”选项卡上，你会看到所有共享笔记本文件。
单击某个共享笔记本文件的名称以预览该文件。
（可选）单击“克隆”按钮以将共享笔记本文件导入工作区。
1. 在“克隆到”对话框中，根据需要输入新名称，然后选择要将笔记本文件克隆到的工作区文件夹。
2. 单击“克隆”。
3. 克隆笔记本后，会弹出一个对话框，指出已成功克隆该笔记本。单击该对话框中的“在笔记本编辑器中显示”以在笔记本编辑器中查看它。
请参阅 Databricks 笔记本。

解除共享以从共享目录中删除数据资产。

所需的权限：在共享目录上具有USE CATALOGMANAGE特权的用户。

在 Azure Databricks 工作区中，单击以打开目录资源管理器。
在目录窗格顶部，单击并选择“增量共享”。

或者，在“快速访问”页中，单击“Delta Sharing”按钮>。
在“与我共享的内容”选项卡上，查找并选择提供方。
单击共享行上的
单击“ 卸载共享”。
单击“ 卸载”。

Last updated on 2026-01-26

通过