将 Unity Catalog 与结构化流式处理结合使用

将结构化流式处理与 Unity Catalog 结合使用,以管理 Azure Databricks 上的增量和流式工作负载的数据治理。 本文档概述了支持的功能,并对结合使用 Unity Catalog 和结构化流式处理提出了最佳做法建议。

Unity Catalog 支持哪些结构化流式处理功能?

Unity Catalog 不会针对 Azure Databricks 上可用的结构化流式处理源和接收器添加任何显式限制。 Unity Catalog 数据治理模型允许从 Unity Catalog 中的托管表和外部表中流式传输数据。 还可以使用 Unity Catalog 管理的外部位置与使用对象存储 URI 的数据进行交互。 可以使用表名或文件路径写入到外部表。 在 Unity Catalog 上,你只能使用表名与托管表进行交互。

指定结构化流式处理检查点的路径时,请使用由 Unity Catalog 管理的外部位置。 若要详细了解如何使用 Unity Catalog 安全地连接存储,请参阅使用 Unity Catalog 连接到云对象存储

结构化流功能支持的不同取决于运行的 Databricks Runtime 版本以及使用的是分配还是共享集群访问模式。 有关详细信息,请参阅 Unity Catalog 的流式处理限制

有关在 Unity Catalog 上使用结构化流式处理的端到端演示,请参阅教程:运行端到端湖屋分析管道

Unity Catalog 上不支持哪些结构化流式处理功能?

有关 Unity Catalog 不支持的结构化流式处理功能的列表,请参阅 Unity Catalog 的流式处理限制