다음을 통해 공유

Lakeflow Spark 声明性管道发行说明 2026

2026 年发布了以下 Lakeflow Spark 声明性管道功能、功能改进和漏洞修复。

注释

由于 Lakeflow Spark 声明性管道通道版本遵循滚动升级过程,因此通道升级在不同时间部署到不同的区域。 你的版本(包括 Databricks Runtime 版本)可能在初始发布日期的一周或更长时间后才会更新。 若要查找某个管道的 Databricks Runtime 版本,请参阅运行时信息

2026 年 2 月

这些功能和对 Lakeflow Spark 声明性管道的改进于 2026 年 1 月 14 日至 2026 年 2 月 25 日发布。

此版本使用的 Databricks Runtime 版本

渠道:

  • CURRENT (默认值):Databricks Runtime 16.4
  • 预览版:Databricks Runtime 17.3

新功能和改进

  • 管道现在支持 Delta 表的类型扩展,允许安全扩大列的数据类型(例如,从 INT 扩展到 LONG,从 FLOATDOUBLE),而无需完全重置管道。 这可实现以前需要手动干预的架构演变工作流。

  • 现在,可以使用 SCD 类型 1 具体化, AUTO CDC从而提供更简单的 CDC 模式来更新最新值,而无需保留完整的更改历史记录。 这减少了不需要完整历史记录的用例的存储开销。

  • 管道现在在重试失败的更新时重复使用现有群集,通过消除冗余群集启动时间来降低重试延迟和降低计算成本。

  • 管道现在在执行开始前,在干运行阶段一起验证多个流,捕获流中的配置冲突和依赖关系问题。

  • 在数据引入管道更新过程中,现在可以保留可变元数据,从而在流式引入表上启用对“ALTER”命令的完全支持。

  • 管道中的 Python 错误现在包含 SQL 状态代码,从而改进了错误诊断,帮助在下游工具中实现更好的程序化错误处理。

  • 管道现在支持经典计算的 ARM 实例。

故障修复

  • 在首次更新运行时,追加模式流表中的标识列值现在得以正确生成。

2026 年 1 月

这些功能和对 Lakeflow Spark 声明性管道的改进于 2025 年 11 月 14 日至 2026 年 1 月 13 日发布。

此版本使用的 Databricks Runtime 版本

渠道:

  • CURRENT (默认值):Databricks Runtime 16.4
  • 预览版:Databricks Runtime 17.3

新功能和改进

  • 现在可以直接在 Unity 目录表中存储和管理数据质量预期,使用数据治理框架集中数据质量规则。 这样就可以跨多个管道共享版本控制的可审核质量规则。

  • 这些运行时间超过 7 天的连续管道现在会从容重启,停机时间最小,并且出现显式的更新原因(INFRASTRUCTURE_MAINTENANCE),而不是在需要刷新基础计算环境时突然重启。

  • 管道现在支持排队执行模式,其中多个更新请求会自动排队并按顺序执行,而不是因冲突而失败。 这简化了频繁更新触发的管道的操作,并且无需手动协调重试。

  • 现在可以从单个更改数据源具体化多个 SCD 类型 2 视图,从而在创建相同数据的多个历史视图时提高效率。 这样就无需重新处理每个 SCD 类型 2 输出的源数据。

  • 管道计划和配置现在可以从 Unity 目录表属性中存储和读取,从而通过数据管理实现集中设置管理。 这样,就可以与数据定义一起管理管道行为。

  • MANAGE 权限现在会自动传播到 Unity Catalog 中的物化视图和流表,从而简化管道输出的权限管理。 这可确保在未经手动权限授予的情况下进行一致的访问控制。

  • SCD 类型 2 操作现在会自动合并具有相同自然键的重复记录,确保数据一致性,并防止慢速变化维度表中的重复历史记录。

  • 管道现在可以选择自动删除不再属于管道定义的非活动表。 这有助于维护干净的数据仓库,并降低过时表的存储成本。 请参阅 将 Unity Catalog 与管道结合使用

  • 管道定义、修补操作和以某身份运行的标识更改现在包含在审核日志中,为合规性和安全性监控提供配置更改的全面跟踪。 请参阅 管道事件日志

故障修复

此版本期间未包含重大 bug 修复。 所有更改都是新功能和改进。