Databricks Runtime 的维护更新（存档）

此存档页列出了为不再受支持的 Databricks Runtime 版本发布的维护更新。要向现有群集添加维护更新，请重新启动群集。

重要

本文档已过时，将来可能不会更新。本内容中提及的产品、服务或技术已终止支持。请参阅 Databricks Runtime 发行说明版本和兼容性。

注意

本文包含对术语 whitelist 的引用，该术语Azure Databricks不使用。在从软件中删除该术语后，我们会将其从本文中删除。

Databricks Runtime 版本

维护更新（按版本）：

Databricks Runtime 17.2
Databricks Runtime 17.1
Databricks Runtime 17.0
Databricks Runtime 16.3
Databricks Runtime 16.2
Databricks Runtime 16.1
Databricks Runtime 16.0
Databricks Runtime 15.3
Databricks Runtime 15.2
Databricks Runtime 15.1
Databricks Runtime 15.0
Databricks Runtime 14.2
Databricks Runtime 14.1
Databricks Runtime 14.0
Databricks Runtime 13.1
Databricks Runtime 12.2 LTS
Databricks Runtime 11.3 LTS
Databricks Runtime 10.4 LTS
Databricks Runtime 9.1 LTS
Databricks Runtime 13.0
Databricks Runtime 12.1
Databricks Runtime 12.0
Databricks Runtime 11.2
Databricks Runtime 11.1
Databricks Runtime 11.0
Databricks Runtime 10.5
Databricks Runtime 10.3
Databricks Runtime 10.2
Databricks Runtime 10.1
Databricks Runtime 10.0
Databricks Runtime 9.0
Databricks Runtime 8.4
Databricks Runtime 8.3
Databricks Runtime 8.2
Databricks Runtime 8.1
Databricks Runtime 8.0
Databricks Runtime 7.6
Databricks Runtime 7.5
Databricks Runtime 7.3 LTS
Databricks Runtime 6.4 扩展支持
Databricks Runtime 5.5 LTS
Databricks Light 2.4 外延支持
Databricks Runtime 7.4
Databricks Runtime 7.2
Databricks Runtime 7.1
Databricks Runtime 7.0
Databricks Runtime 6.6
Databricks Runtime 6.5
Databricks Runtime 6.3
Databricks Runtime 6.2
Databricks Runtime 6.1
Databricks Runtime 6.0
Databricks Runtime 5.4 ML
Databricks Runtime 5.4
Databricks Runtime 5.3
Databricks Runtime 5.2
Databricks Runtime 5.1
Databricks Runtime 5.0
Databricks Runtime 4.3
Databricks Runtime 4.2
Databricks Runtime 4.1 ML
Databricks Runtime 4.1
Databricks Runtime 4.0
Databricks Runtime 3.5 LTS
Databricks Runtime 3.4

有关支持的 Databricks Runtime 版本的维护更新，请参阅 Databricks Runtime 维护更新。

Databricks Runtime 17.2

请参阅 Databricks Runtime 17.2 （EoS）。

2026 年 3 月 10 日
- [SPARK-55701]ES-1694761[SS] 修复 CompactibleFileStreamLog.allFiles 中的竞态条件
- [SPARK-55493] [ SS] 不要在 StateDataSource 中的流检查点状态目录中使用 mkdirs
- 操作系统安全更新。
2026 年 2 月 26 日
- 操作系统安全更新。
2026 年 2 月 19 日
- 在推断Excel文件的架构时，字符串单元格现在被推断为 Spark StringType。这遵循Excel中设置的单元格类型。以前，具有数值的字符串被自动强制转换为更窄的类型，例如 Long 或 Decimal。
- [SPARK-55243][CONNECT] 允许通过 Scala Connect 客户端中的 -bin 后缀设置二进制标头
- [SCALA][SPARK-54887]]（https://issues.apache.org/jira/browse/SPARK-54887)[CONNECT] 始终在 spark connect 客户端中设置 sql 状态
- [SPARK-54887][CONNECT] 将可选的 sqlstate 添加到 sparkthrowables
- [SPARK-55282][PYTHON][CONNECT] 避免在驱动程序端使用worker_util
- 操作系统安全更新。
2026 年 1 月 27 日
- [SPARK-55015][SS][SQL] 修复 PrefixKeyScanStateEncoder 中的 decodeRemainingKey 字段数量计算
- [SPARK-54768][SS]Python 如果返回的数据与配置的架构不匹配，流数据源应对错误进行分类
- 操作系统安全更新。
2026 年 1 月 9 日
- [SPARK-54711][PYTHON] 为创建的工作程序连接添加超时
- 操作系统安全更新。
2025 年 12 月 9 日
- 分区的 Delta 表将在数据 parquet 文件中具体化分区列。这可以更好地配合 Iceberg 和 UniForm 表的处理方式，并增强与外部非 Delta 读取器的兼容性。
- [SPARK-54427][SQL] 允许 ColumnarRow 使用变体类型进行调用copy
- [SPARK-54180][SQL] 重写 BinaryFileFormat 的 toString
- [SPARK-50906][SQL] 修复重排后的结构字段的 Avro 空值属性检查
- 操作系统安全更新。
2025 年 11 月 18 日
- [SPARK-54078][SS] 新测试用于 StateStoreSuite SPARK-40492: maintenance before unload 并删除旧测试中的测试基础设施
- [SPARK-54047][PYTHON] 在空闲超时终止时使用差异错误
- [SPARK-54099][SQL] XML 变体解析器在处理十进制解析错误时应使用字符串作为后备方案。
- [SPARK-54015][PYTHON] 放宽 Py4J 要求至py4j>=0.10.9.7,<0.10.9.10
- [SPARK-52515]使用 Apache DataSketches Approx_top_k
- 操作系统安全更新。
2025 年 11 月 4 日
- [SPARK-53973][Avro] 对 AvroOptions 布尔转换失败的错误进行分类
- [SPARK-53972][SS] 修复经典 pyspark 中流式查询 recentProgress 的回归问题
- [SPARK-53908][CONNECT] 修复使用计划缓存的 Spark Connect 上的观测
- 操作系统安全更新。
2025 年 10 月 21 日
- 操作系统安全更新。
2025 年 10 月 8 日
- [SPARK-53555] 修复：SparkML 连接无法加载 SparkML（旧模式）保存的模型
- [SPARK-53598][SQL] 在读取大型表属性之前检查 numParts 是否存在
- [SPARK-53625][SS] 通过投影传播元数据列，以解决 ApplyCharTypePadding 不兼容问题
- [SPARK-53568][CONNECT][PYTHON] 修复 Spark Connect Python客户端错误处理逻辑中的几个小 bug
- [SPARK-53574] 修复嵌套计划解析期间 AnalysisContext 被丢失的问题
- [SPARK-53623][SQL] 改进读取大型表属性...
- [SPARK-53729][PYTHON][CONNECT] 修复序列化 pyspark.sql.connect.window.WindowSpec
- [SPARK-53549][SS] 完成列表状态请求过程时始终关闭箭头分配器
- 操作系统安全更新。
2025 年 9 月 10 日
- 修复了可能导致自动加载程序无限期挂起的问题。
- [SPARK-53362] [ML] [CONNECT] 修复 IDFModel 本地加载器的 bug
- [SPARK-53382][SQL] 修复格式不正确的递归 rCTE bug
- 适用于 [SPARK-53345] 的后移植浮点测试修复
- [SPARK-49872][CORE] 删除杰克逊 JSON 字符串长度限制
- [SPARK-53423] [SQL] 将所有单次解析器相关标签移动到 ResolverTag
- [SPARK-53431][PYTHON] 修复了 DataFrame API 中具有命名表参数的 UDTF Python
- [SPARK-53336] [ML] [CONNECT] 调用时MLCache.totalMLCacheSizeBytes重置MLCache.clear()
- [SPARK-53394][CORE] UninterruptibleLock.isInterruptible 应避免重复的中断
- [SPARK-53470][SQL] ExtractValue 表达式应始终执行类型检查
- 在 ANSI 下精选 Spark 上的 Pandas API 改进 [SPARK-53389]
- 操作系统安全更新。

Databricks Runtime 17.1

请参阅 Databricks Runtime 17.1 （EoS）。

2026 年 1 月 27 日
- [SPARK-55015][SS][SQL] 修复 PrefixKeyScanStateEncoder 中的 decodeRemainingKey 字段数量计算
- [SPARK-54768][SS]Python 如果返回的数据与配置的架构不匹配，流数据源应对错误进行分类
- 操作系统安全更新。
2026 年 1 月 9 日
- [SPARK-54711][PYTHON] 为创建的工作程序连接添加超时
- 操作系统安全更新。
2025 年 12 月 9 日
- 分区的 Delta 表将在数据 parquet 文件中具体化分区列。这可以更好地配合 Iceberg 和 UniForm 表的处理方式，并增强与外部非 Delta 读取器的兼容性。
- [SPARK-54180][SQL] 重写 BinaryFileFormat 的 toString
- [SPARK-50906][SQL] 修复重排后的结构字段的 Avro 空值属性检查
- [SPARK-54427][SQL] 允许 ColumnarRow 使用变体类型进行调用copy
- 操作系统安全更新。
2025 年 11 月 18 日
- [SPARK-54015][PYTHON] 放宽 Py4J 要求至py4j>=0.10.9.7,<0.10.9.10
- [SPARK-52515]使用 Apache DataSketches Approx_top_k
- [SPARK-54047][PYTHON] 在空闲超时终止时使用差异错误
- [SPARK-54078][SS] 新测试用于 StateStoreSuite SPARK-40492: maintenance before unload 并删除旧测试中的测试基础设施
- [SPARK-54099][SQL] XML 变体解析器在处理十进制解析错误时应使用字符串作为后备方案。
- 操作系统安全更新。
2025 年 11 月 4 日
- [SPARK-53972][SS] 修复经典 pyspark 中流式查询 recentProgress 的回归问题
- [SPARK-53908][CONNECT] 修复使用计划缓存的 Spark Connect 上的观测
- [SPARK-53973][Avro] 对 AvroOptions 布尔转换失败的错误进行分类
- 操作系统安全更新。
2025 年 10 月 21 日
- 操作系统安全更新。
2025 年 10 月 7 日
- [SPARK-53574] 修复嵌套计划解析期间 AnalysisContext 被丢失的问题
- [SPARK-53549][SS] 完成列表状态请求过程时始终关闭箭头分配器
- [SPARK-53568][CONNECT][PYTHON] 修复 Spark Connect Python客户端错误处理逻辑中的几个小 bug
- [SPARK-53625][SS] 通过投影传播元数据列，以解决 ApplyCharTypePadding 不兼容问题
- [SPARK-53598][SQL] 在读取大型表属性之前检查 numParts 是否存在
- [SPARK-53623][SQL] 改进读取大型表属性...
- [SPARK-53555] 修复：SparkML 连接无法加载 SparkML（旧模式）保存的模型
- [SPARK-53729][PYTHON][CONNECT] 修复序列化 pyspark.sql.connect.window.WindowSpec
- 操作系统安全更新。
2025 年 9 月 16 日
- 操作系统安全更新。
2025 年 9 月 9 日
- 修复了可能导致自动加载程序无限期挂起的问题。
- [SPARK-53362] [ML] [CONNECT] 修复 IDFModel 本地加载器的 bug
- [SPARK-53394][CORE] UninterruptibleLock.isInterruptible 应避免重复的中断
- [SPARK-53382][SQL] 修复格式不正确的递归 rCTE bug
- [SPARK-53431][PYTHON] 修复了 DataFrame API 中具有命名表参数的 UDTF Python
- [SPARK-53336] [ML] [CONNECT] 调用时MLCache.totalMLCacheSizeBytes重置MLCache.clear()
- [SPARK-49872][CORE] 删除杰克逊 JSON 字符串长度限制
- 操作系统安全更新。
2025 年 8 月 25 日
- 更新了Java库：
  - io.delta.delta-sharing-client_2.13 从 1.3.3 到 1.3.5
- [SPARK-52482][SQL][CORE] 改进了读取某些损坏的 zstd 文件的异常处理
- [SPARK-53192][CONNECT] 始终在 Spark Connect 计划缓存中缓存数据源
- 操作系统安全更新。
2025 年 8 月 14 日
- [SPARK-52833][SQL] 修复 VariantBuilder.appendFloat
- [SPARK-52961][PYTHON] 修复横向联接上具有 0-arg eval 的箭头优化Python UDTF
- [SPARK-51505][SQL] 始终在 AQEShuffleReadExec 中显示空分区号指标
- [SPARK-52753][SQL] 使 parseDataType 二进制文件与以前的版本兼容
- [SPARK-52842][SQL] 单遍分析器的新功能和缺陷修复
- [SPARK-52960][SQL] 在 LogicalQueryStage toString 中显示子树字符串
- [SPARK-53054][CONNECT] 修复连接。DataFrameReader 默认格式行为
- 操作系统安全更新。

Databricks Runtime 17.0

请参阅 Databricks Runtime 17.0 （EoS）。

2025 年 12 月 9 日
- 分区的 Delta 表将在数据 parquet 文件中具体化分区列。这可以更好地配合 Iceberg 和 UniForm 表的处理方式，并增强与外部非 Delta 读取器的兼容性。
- 对于 Snowflake 连接器和 Snowflake Lakehouse Federation，TIMESTAMP_NTZ（无时区的时间戳）文本不再向下推送到 Snowflake。此更改可防止因不兼容的时间戳处理导致的查询失败，并提高受影响查询的可靠性。
- [SPARK-54427][SQL] 允许 ColumnarRow 使用变体类型进行调用copy
- [SPARK-54180][SQL] 重写 BinaryFileFormat 的 toString
- 操作系统安全更新。
2025 年 11 月 18 日
- [SPARK-54099][SQL] XML 变体解析器在处理十进制解析错误时应使用字符串作为后备方案。
- [SPARK-54015][PYTHON] 放宽 Py4J 要求至py4j>=0.10.9.7,<0.10.9.10
- [SPARK-54078][SS] 新测试用于 StateStoreSuite SPARK-40492: maintenance before unload 并删除旧测试中的测试基础设施
- [SPARK-54047][PYTHON] 在空闲超时终止时使用差异错误
- 操作系统安全更新。
2025 年 11 月 4 日
- [SPARK-53908][CONNECT] 修复使用计划缓存的 Spark Connect 上的观测
- [SPARK-53972][SS] 修复经典 pyspark 中流式查询 recentProgress 的回归问题
- 操作系统安全更新。
2025 年 10 月 21 日
- 操作系统安全更新。
2025 年 10 月 7 日
- [SPARK-53598][SQL] 在读取大型表属性之前检查 numParts 是否存在
- [SPARK-53568][CONNECT][PYTHON] 修复 Spark Connect Python客户端错误处理逻辑中的几个小 bug
- [SPARK-53574] 修复嵌套计划解析期间 AnalysisContext 被丢失的问题
- [SPARK-53549][SS] 完成列表状态请求过程时始终关闭箭头分配器
- [SPARK-53623][SQL] 改进读取大型表属性...
- [SPARK-53729][PYTHON][CONNECT] 修复序列化 pyspark.sql.connect.window.WindowSpec
- 操作系统安全更新。
2025 年 9 月 16 日
- 操作系统安全更新。
2025 年 9 月 9 日
- 修复了可能导致自动加载程序无限期挂起的问题。
- [SPARK-53394][CORE] UninterruptibleLock.isInterruptible 应避免重复的中断
- [SPARK-53336] [ML] [CONNECT] 调用时MLCache.totalMLCacheSizeBytes重置MLCache.clear()
- [SPARK-49872][CORE] 删除杰克逊 JSON 字符串长度限制
- [SPARK-53431][PYTHON] 修复了 DataFrame API 中具有命名表参数的 UDTF Python
- [SPARK-53382][SQL] 修复格式不正确的递归 rCTE bug
- 操作系统安全更新。
2025 年 8 月 26 日
- 更新了Java库：
  - io.delta.delta-sharing-client_2.13 从 1.3.3 到 1.3.5
- [SPARK-52482][SQL][CORE] 改进了读取某些损坏的 zstd 文件的异常处理
- [SPARK-53192][CONNECT] 始终在 Spark Connect 计划缓存中缓存数据源
- 操作系统安全更新。
2025 年 8 月 14 日
- [SPARK-51505][SQL] 始终在 AQEShuffleReadExec 中显示空分区号指标
- [SPARK-53054][CONNECT] 修复连接。DataFrameReader 默认格式行为
- [SPARK-52961][PYTHON] 修复横向联接上具有 0-arg eval 的箭头优化Python UDTF
- [SPARK-52833][SQL] 修复 VariantBuilder.appendFloat
- 操作系统安全更新。
2025 年 7 月 29 日
- [SPARK-51889][PYTHON][SS] 修复了 Python TWS 中 MapState clear（）的 bug
- [SPARK-52753][SQL] 使 parseDataType 二进制文件与以前的版本兼容
- [SPARK-49428][SQL] 将 Scala 客户端从连接器移动到 SQL
- 操作系统安全更新。
2025 年 7 月 15 日
- 修复了使用 Spark 结构化流式处理从 Pulsar 流式传输数据时出现的非确定性的数据丢失问题。
- [SPARK-52430][SQL] 解决 rCTE 中 Union 可为 Null 性的 bug
- [SPARK-52503][SQL][CONNECT] 修复 drop 输入列不存在的情况
- [SPARK-52579][PYTHON] 为Python辅助角色设置定期跟踪转储
- [SPARK-52450] 提高架构深层复制的性能
- [SPARK-52599][PYTHON] 支持驱动程序端工作器中的定期回溯转储
- [SPARK-52553][SS] 修复读取 v1 更改日志时的 NumberFormatException
- 操作系统安全更新。
2025 年 5 月 28 日
- 更新了Python库：
  - google-auth 从版本 2.40.0 更新到 2.40.1
  - mlflow-skinny 已从 2.22.0 升级到 3.0.0
  - opentelemetry-api 从 1.32.1 到 1.33.0
  - opentelemetry-sdk 从 1.32.1 到 1.33.0
  - opentelemetry-semantic-conventions 已从 0.53b1 升级到 0.54b0
- 更新了Java库：
  - io.delta.delta-sharing-client_2.13，从 1.3.0 到 1.3.3
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- 修复了 cloud_files_state TVF 函数不能用于跨管道读取流表的文件级状态的限制。
- 修复了针对临时视图的查询的 Unity 目录授权问题。
- 在 17.0.1 版本中翻转了标志，为 17.0.0 的所有工作区部署了 SAFE 标志。
- Delta Sharing 支持使用 Spark Parquet I/O 缓存进行预签名 URL 查询（从版本 17.0.1 开始提供）。
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- 默认情况下，Teradata 连接器会将 TMODE=ANSI 传递到驱动程序。这意味着所有通过 Lakehouse Federation 进行的字符串比较都将区分大小写。
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型（以毫秒为单位）
- [SPARK-52259][ML][CONNECT] 修复 Param 类二进制兼容性
- [SPARK-52195][PYTHON][SS] 修复了Python TWS 的初始状态列删除问题
- [SPARK-52057] [ML] [CONNECT] 收集树大小限制警告消息并发送到客户端
- [SPARK-52051] [ML] [CONNECT] 启用内存控制时启用模型摘要
- [SPARK-51606][CONNECT] 停止 Spark Connect 服务器时添加SPARK_IDENT_STRING
- [15.4-16.4][spark-52521]]（https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement 不应动态访问 SQLConf
- [SPARK-52232][SQL] 修复非确定性查询，以便在每个步骤中生成不同的结果
- [SPARK-52013] [CONNECT] [ML] 删除 SparkConnectClient.ml_caches
- [SPARK-52353][SQL] 修复了在 UnionLoop 中引用以前迭代的 LogicalRDDs 中存在错误约束的 bug
- [SPARK-52130] [ML] [CONNECT] 优化错误消息并隐藏内部 Spark 配置
- [SPARK-52470][ML][CONNECT] 支持模型摘要卸载功能
- [SPARK-51935][SQL] 修复解释的 df.collect（）中的迭代器的延迟行为
- [SPARK-52482][SQL][CORE] 对文件数据源读取器的 ZStandard 支持
- [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
- [SPARK-52010] 不要为内部类生成 API 文档
- [SPARK-52049] 修复了 XML 属性无法解析为 Variant 的 bug
- [SPARK-52312][SQL] 缓存数据帧时忽略 V2WriteCommand
- [SPARK-52229][ML][CONNECT] 改进模型大小估计
- [SPARK-50815][PYTHON] 修复变量本地数据到箭头的转换
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
- [SPARK-51981][SS] 将 JobTags 添加到 queryStartedEvent
- [修复还原][spark-52100]]（https://issues.apache.org/jira/browse/SPARK-52100)[SQL] 启用重写语法中的递归级别限制
- [SPARK-52101][SQL] 禁用 rCTE 的内联强制
- [SPARK-52099][SQL] 通过添加 LIMIT 运算符来启用覆盖递归行限制
- 操作系统安全更新。

Databricks Runtime 16.3

请参阅 Databricks Runtime 16.3 （EoS）。

2025 年 9 月 16 日
- Snowflake 连接器现在使用 INFORMATION_SCHEMA 表而不是 SHOW SCHEMAS 命令列出架构。此更改消除了上一种方法的 10,000 架构限制，并改进了对具有大量架构的数据库的支持。
- 操作系统安全更新。
2025 年 9 月 9 日
- 修复了可能导致自动加载程序无限期挂起的问题。
- 修复了自动加载程序中可能导致作业失败的暂时性错误。
- [SPARK-51821][CORE] 调用中断（）而不持有不间断的Lock 以避免可能的死锁
- [SPARK-49872][CORE] 删除杰克逊 JSON 字符串长度限制
- 操作系统安全更新。
2025 年 8 月 26 日
- [SPARK-52482][SQL][CORE] 改进了读取某些损坏的 zstd 文件的异常处理
- [SPARK-53192][CONNECT] 始终在 Spark Connect 计划缓存中缓存数据源
- 操作系统安全更新。
2025 年 8 月 14 日
- [SPARK-51011][CORE] 为任务在终止时是否中断添加日志记录
- 操作系统安全更新。
2025 年 7 月 29 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 修复了使用 Spark 结构化流式处理从 Pulsar 流式传输数据时出现的非确定性的数据丢失问题。
- [SPARK-52553][SS] 修复读取 v1 更改日志时的 NumberFormatException
- 操作系统安全更新。
2025 年 7 月 1 日
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- [SPARK-52482][SQL][CORE] 对文件数据源读取器的 ZStandard 支持
- [SPARK-52312][SQL] 缓存数据帧时忽略 V2WriteCommand
- [15.4-16.4][spark-52521]]（https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement 不应动态访问 SQLConf
- 操作系统安全更新。
2025 年 6 月 17 日
- 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
  - packaging 已从 24.0、24.1 升级到 24.1
  - platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
  - pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
  - 添加了 autocommand 2.2.2
  - 添加了 backports.tarfile 1.2.0
  - 添加了 importlib_resources 6.4.0
  - 添加了 Inflect 7.3.1
  - 添加了 jaraco.context 5.3.0
  - 添加了 jaraco.functools 4.0.1
  - 添加了 jaraco.text 3.12.1
  - 添加了 more-itertools 10.3.0
  - 添加了 pip 24.2
  - 添加了 setuptools 74.0.0
  - 添加了 tomli 2.0.1
  - 添加了 typeguard 4.3.0
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.43.0
  - 已删除发行版 1.9.0
  - 已删除 distro-info 1.7+build1
  - 已删除 python-apt 2.7.7+ubuntu4
- [SPARK-52195][PYTHON][SS] 修复了Python TWS 的初始状态列删除问题
- [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
- 操作系统安全更新。
2025 年 5 月 20 日
- 更新了Java库：
  - io.delta.delta-sharing-client_2.12 从 1.2.6 到 1.2.7
  - org.apache.avro.avro 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
- 在共享群集/无服务器环境中，流式处理克隆会话将在 foreachBatch 用户函数内部被使用。这与经典（分配的群集）中的行为保持一致。
- 在共享群集/无服务器环境中，流式处理克隆会话将在 foreachBatch 用户函数内部被使用。这与经典（分配的群集）中的行为保持一致。
- 在此更改之前，禁用 Photon 时，variant_get 表达式中路径的前导空格和制表符将被忽略。例如， select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。但是，用户现在将能够提取此类密钥。
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型（以毫秒为单位）
- [SPARK-51935][SQL] 修复解释的 df.collect（）中的迭代器的延迟行为
- 操作系统安全更新。
2025 年 4 月 22 日
- Delta 架构跟踪将显示架构演变错误 DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_POST_SCHEMA_EVOLUTION，而不是 DELTA_STREAMING_CANNOT_CONTINUE_PROCESSING_TYPE_WIDENING，从而与其他非累加性架构变更异常保持一致。
- [SPARK-51589][SQL] 修复了未能检查聚合函数的小错误 |> 选择
- [SPARK-51645][SQL] 修复 CREATE OR REPLACE TABLE ... 使用默认的排序规则 ... 的查询
- 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
- [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
2025 年 3 月 26 日
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
- [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
- [SPARK-47895][SQL]“按别名分组”应是幂等的
- 操作系统安全更新。

Databricks Runtime 16.2

请参阅 Databricks Runtime 16.2 （EoS）。

2025 年 8 月 14 日
- [SPARK-51011][CORE] 为任务在终止时是否中断添加日志记录
- 操作系统安全更新。
2025 年 7 月 29 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 修复了使用 Spark 结构化流式处理从 Pulsar 流式传输数据时出现的非确定性的数据丢失问题。
- [SPARK-52553][SS] 修复读取 v1 更改日志时的 NumberFormatException
- 操作系统安全更新。
2025 年 7 月 1 日
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- [15.4-16.4][spark-52521]]（https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement 不应动态访问 SQLConf
- [SPARK-52312][SQL] 缓存数据帧时忽略 V2WriteCommand
- [SPARK-52482][SQL][CORE] 对文件数据源读取器的 ZStandard 支持
- 操作系统安全更新。
2025 年 6 月 17 日
- 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
  - packaging 已从 24.0、24.1 升级到 24.1
  - platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
  - pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
  - 添加了 autocommand 2.2.2
  - 添加了 backports.tarfile 1.2.0
  - 添加了 importlib_resources 6.4.0
  - 添加了 Inflect 7.3.1
  - 添加了 jaraco.context 5.3.0
  - 添加了 jaraco.functools 4.0.1
  - 添加了 jaraco.text 3.12.1
  - 添加了 more-itertools 10.3.0
  - 添加了 pip 24.2
  - 添加了 setuptools 74.0.0
  - 添加了 tomli 2.0.1
  - 添加了 typeguard 4.3.0
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.43.0
  - 已删除发行版 1.9.0
  - 已删除 distro-info 1.7+build1
  - 已删除 python-apt 2.7.7+ubuntu4
- [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
- [SPARK-52195][PYTHON][SS] 修复了Python TWS 的初始状态列删除问题
- 操作系统安全更新。
2025 年 5 月 20 日
- 更新了Java库：
  - io.delta.delta-sharing-client_2.12 从 1.2.6 到 1.2.7
  - org.apache.avro.avro 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
- 在共享群集/无服务器环境中，流式处理克隆会话将在 foreachBatch 用户函数内部被使用。这与经典（分配的群集）中的行为保持一致。
- 在共享群集/无服务器环境中，流式处理克隆会话将在 foreachBatch 用户函数内部被使用。这与经典（分配的群集）中的行为保持一致。
- 在此更改之前，禁用 Photon 时，variant_get 表达式中路径的前导空格和制表符将被忽略。例如， select variant_get(parse_json('{"key": "value"}'), '$[' key']') 在提取值 "key"时不会有效。但是，用户现在将能够提取此类密钥。
- [SPARK-51935][SQL] 修复解释的 df.collect（）中的迭代器的延迟行为
- [SPARK-51921][SS][PYTHON] 在 transformWithState 中使用 TTL 持续时间长类型（以毫秒为单位）
- 操作系统安全更新。
2025 年 4 月 22 日
- [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
- 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
- 操作系统安全更新。
2025 年 4 月 9 日
- 更新了Java库：
  - 删除了 io.starburst.openjson.openjson 1.8-e.12
  - 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
  - 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL]“按别名分组”应是幂等的
- [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
- [SPARK-51589][SQL] 修复了未能检查聚合函数的小错误 |> 选择
- 操作系统安全更新。
2025 年 3 月 11 日
- Databricks Runtime 14.3 LTS 及以上版本解决了一个导致与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码之间二进制不兼容的问题。合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。此次合并包含一项更改，即向 SparkListenerApplicationEnd 构造函数添加了默认参数。若要还原二进制兼容性，此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
- 还原“[SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的重写延迟”
- [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类，而不是断言，并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
- [SPARK-51065][SQL] 当 Avro 编码用于 TransformWithState 时，不允许使用不可为 null 的架构
- [SPARK-51237][SS] 根据需要为新的 transformWithState 帮助程序 API 添加 API 详细信息
- [SPARK-51222][SQL] 优化 ReplaceCurrentLike
- [SPARK-51351][SS] 请勿在 TWS 的Python辅助角色中具体化输出
- [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
- [SPARK-51249][SS] 修复 NoPrefixKeyStateEncoder 和 Avro 编码以使用正确的版本字节数
- 操作系统安全更新。
2025 年 2 月 5 日
- 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。受影响的数据类型是日期、非 NTZ 时间戳和小数，当启用 prefersDecimal 时。若要了解有关已获救数据列的详细信息，请参阅什么是已获救数据列？
- [SPARK-50770][SS] 删除 transformWithState 运算符 API 的包范围
- 操作系统安全更新。

Databricks Runtime 16.1

请参阅 Databricks Runtime 16.1 （EoS）。

2025 年 8 月 12 日
- 操作系统安全更新。
2025 年 7 月 29 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 操作系统安全更新。
2025 年 7 月 1 日
- 对文件数据源读取器（json、csv、xml 和 text）的 ZStandard 解压缩支持。
- [SPARK-52482][SQL][CORE] 对文件数据源读取器的 ZStandard 支持
- [15.4-16.4][spark-52521]]（https://issues.apache.org/jira/browse/SPARK-52521)[SQL] Right#replacement 不应动态访问 SQLConf
- [SPARK-52312][SQL] 缓存数据帧时忽略 V2WriteCommand
- 操作系统安全更新。
2025 年 6 月 17 日
- 修复了 cloud_files_state 表值函数 (TVF) 不能用于跨管道读取流表的文件级状态的限制。
- [SPARK-52040][PYTHON][SQL][CONNECT] ResolveLateralColumnAliasReference 应保留该计划 ID
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - 加密从 41.0.7、41.0.7、42.0.5 到 42.0.5
  - packaging 已从 24.0、24.1 升级到 24.1
  - platformdirs 已从 3.10.0、4.2.2 升级到 3.10.0
  - pyparsing 已从 3.0.9、3.1.1 升级到 3.0.9
  - 添加了 autocommand 2.2.2
  - 添加了 backports.tarfile 1.2.0
  - 添加了 importlib_resources 6.4.0
  - 添加了 Inflect 7.3.1
  - 添加了 jaraco.context 5.3.0
  - 添加了 jaraco.functools 4.0.1
  - 添加了 jaraco.text 3.12.1
  - 添加了 more-itertools 10.3.0
  - 添加了 pip 24.2
  - 添加了 setuptools 74.0.0
  - 添加了 tomli 2.0.1
  - 添加了 typeguard 4.3.0
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.43.0
  - 已删除发行版 1.9.0
  - 已删除 distro-info 1.7+build1
  - 已删除 python-apt 2.7.7+ubuntu4
- 更新了Java库：
  - com.github.fommil.netlib.native_ref-java 从 1.1、1.1-natives 更新到 1.1、1.1
  - com.github.fommil.netlib.native_system-java 从 1.1、1.1-natives 更新到 1.1、1.1
  - com.github.fommil.netlib.netlib-native_ref-linux-x86_64 从 1.1-natives 更新到 1.1
  - com.github.fommil.netlib.netlib-native_system-linux-x86_64 从 1.1-natives 更新到 1.1
  - io.netty.netty-tcnative-boringssl-static from 2.0.61.Final-db-r16， 2.0.61.Final-db-r16-linux-aarch_64， 2.0.61.Final-db-r16-linux-x86_64， 2.0.61.Final-db-r16-osx-aarch_64、2.0.61.Final-db-r16-osx-x86_64、2.0.61.Final-db-r16-windows-x86_64 到 2.0.61.Final-db-r16， 2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16、2.0.61.Final-db-r16
  - io.netty.netty-transport-native-epoll，从 4.1.108.Final、4.1.108.Final-linux-aarch_64， 4.1.108.Final-linux-riscv64、4.1.108.Final-linux-x86_64 到 4.1.108.Final、4.1.108.Final、4.1.108.Final、4.1.108.Final、4.1.108.Final
  - io.netty.netty-transport-native-kqueue 从 4.1.108.Final-osx-aarch_64、4.1.108.Final-osx-x86_64 到 4.1.108.Final、4.1.1.108.Final
  - org.apache.orc.orc-core 已从 1.9.2-shaded-protobuf 升级到 1.9.2
  - org.apache.orc.orc-mapreduce 已从 1.9.2-shaded-protobuf 升级到 1.9.2
  - software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 2.4.1-linux-x86_64 到 2.4.1
- [SPARK-52159][SQL] 正确处理 jdbc 方言的表存在检查
- 操作系统安全更新。
2025 年 5 月 20 日
- 更新了Java库：
  - io.delta.delta-sharing-client_2.12 从 1.2.5 到 1.2.7
  - org.apache.avro.avro 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-ipc 从 1.11.3 到 1.11.4
  - org.apache.avro.avro-mapred 已从 1.11.3 升级到 1.11.4
- 在共享群集/无服务器环境中，流式处理克隆会话将在 foreachBatch 用户函数内部被使用。这与经典（分配的群集）中的行为保持一致。
- 在此更改之前，禁用 Photon 时，variant_get 表达式中路径的前导空格和制表符将被忽略。例如， select variant_get(parse_json('{"key": "value"}'), '$['key']') 在提取值 "key"时不会有效。但是，用户现在将能够提取此类密钥。
- [SPARK-51935][SQL] 修复解释的 df.collect（）中的迭代器的延迟行为
- 操作系统安全更新。
2025 年 4 月 22 日
- 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
- [SPARK-50682][SQL] 内部别名应规范化
- [SPARK-51717][SS][RocksDB] 修复了为新查询创建的第二个快照可能发生的 SST 不匹配损坏
- 操作系统安全更新。
2025 年 4 月 9 日
- 更新了Java库：
  - 删除了 io.starburst.openjson.openjson 1.8-e.12
  - 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
  - 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-51505][SQL] 记录 AQE 联合中的空分区号指标
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
- [SPARK-47895][SQL]“按别名分组”应是幂等的
- 操作系统安全更新。
2025 年 3 月 11 日
- Databricks Runtime 14.3 LTS 及以上版本解决了一个导致与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码之间二进制不兼容的问题。合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。此次合并包含一项更改，即向 SparkListenerApplicationEnd 构造函数添加了默认参数。若要还原二进制兼容性，此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
- [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
- 还原 [SPARK-48273][SQL] 修复 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-51222][SQL] 优化 ReplaceCurrentLike
- [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类，而不是断言，并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
- [SPARK-50791][SQL] 修复状态存储错误处理中的 NPE
- 操作系统安全更新。
2025 年 2 月 11 日
- 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。受影响的数据类型是日期、非 NTZ 时间戳和小数，当启用 prefersDecimal 时。若要了解有关已获救数据列的详细信息，请参阅什么是已获救数据列？
- [SPARK-50492][SS] 修复在 dropDuplicatesWithinWatermark 操作后删除事件时间列时出现的 java.util.NoSuchElementException 错误
- 操作系统安全更新。
2024 年 11 月 27 日
- 此版本中修复了可能导致 Delta 表上的主键在与后台自动压缩相关的某些边缘情况下被删除的问题。
- 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。受影响的数据类型是日期、非 NTZ 时间戳和小数，当启用 prefersDecimal 时。若要了解有关已获救数据列的详细信息，请参阅什么是已获救数据列？
- 在此版本中，Databricks 计算节点中 SSD 使用的缓存大小动态扩展到 SSD 的初始大小，并在必要时缩小到 spark.databricks.io.cache.maxDiskUsage 限制。请参阅使用 Azure Databricks 上的缓存来优化性能。
- [SPARK-50338][CORE] 使 LazyTry 异常信息变得简洁
- 操作系统安全更新。

Databricks Runtime 16.0

请参阅 Databricks Runtime 16.0 （EoS）。

2025 年 4 月 22 日
- 在 15.4、16.0、16.1、16.2 和 16.3 中还原“[SPARK-47895][SQL] 按别名分组应是幂等的”
- 操作系统安全更新。
2025 年 4 月 9 日
- 更新了Java库：
  - 删除了 io.starburst.openjson.openjson 1.8-e.12
  - 删除了 io.starburst.openx.data.json-serde 1.3.9-e.12
  - 删除了 io.starburst.openx.data.json-serde-generic-shim 1.3.9-e.12
- [SPARK-47895][SQL]“按别名分组”应是幂等的
- [SPARK-51624][SQL] 在 CreateNamedStruct.dataType 中传播 GetStructField 元数据
- 操作系统安全更新。
2025 年 3 月 11 日
- Databricks Runtime 14.3 及更高版本包含一个修补程序，可解决导致二进制与实例化 SparkListenerApplicationEnd 类并针对 Apache Spark 编译的代码不兼容的问题。合并 SPARK-46399 到 Apache Spark 引起了这种不兼容。此次合并包含一项更改，即向 SparkListenerApplicationEnd 构造函数添加了默认参数。若要还原二进制兼容性，此修补程序会将单个参数构造函数添加到 SparkListenerApplicationEnd 类。
- [SPARK-51084][SQL] 为 negativeScaleNotAllowedError 分配适当的错误类
- [SPARK-51222][SQL] 优化 ReplaceCurrentLike
- [SPARK-50985][SS] 对 Kafka 时间戳偏移量不匹配错误进行分类，而不是断言，并针对 KafkaTokenProvider 中缺少服务器的情况引发错误
- [SPARK-50791][SQL] 修复状态存储错误处理中的 NPE
- 操作系统安全更新。
2025 年 2 月 11 日
- 此版本包括修复了序列化已获救 XML 数据列时影响某些数据类型转换的问题。受影响的数据类型是日期、非 NTZ 时间戳和小数，当启用 prefersDecimal 时。若要了解有关已获救数据列的详细信息，请参阅什么是已获救数据列？
- [SPARK-50705][SQL] 使 QueryPlan 无锁
- [SPARK-50492][SS] 修复在 dropDuplicatesWithinWatermark 操作后删除事件时间列时出现的 java.util.NoSuchElementException 错误
- 操作系统安全更新。
2024 年 12 月 4 日
- USE CATALOG 语句现在支持 IDENTIFIER 子句。借助此支持，可以根据字符串变量或参数标记参数化当前目录。
- 此版本中修复了可能导致 Delta 表上的主键在与后台自动压缩相关的某些边缘情况下被删除的问题。
- 在此版本中，Databricks 计算节点中 SSD 使用的缓存大小动态扩展到 SSD 的初始大小，并在必要时缩小到 spark.databricks.io.cache.maxDiskUsage 限制。请参阅使用 Azure Databricks 上的缓存来优化性能。
- [SPARK-50322][SQL] 修复子查询中的参数化标识符
- [SPARK-50034][CORE] 修复 SparkUncaughtExceptionHandler 中将“致命错误”误报为“未捕获的异常”的问题
- [SPARK-47435][SQL] 修复 MySQL UNSIGNED TINYINT 的溢出问题
- [SPARK-49757][SQL] 在 SET CATALOG 语句中支持 IDENTIFIER 表达式
- [SPARK-50426][PYTHON] 使用内置数据源或Java数据源时避免静态Python数据源查找
- [SPARK-50338][CORE] 使 LazyTry 异常信息变得简洁
- 操作系统安全更新。
2024 年 12 月 10 日
- （重大变更）在 Databricks Runtime 15.4 及更高版本中，Photon 中的正则表达式处理已更新，以确保与 Apache Spark 正则表达式处理的一致性。以前，Photon 运行的正则表达式函数（如 split() 和 regexp_extract()）接受 Spark 分析器拒绝的某些正则表达式。为了保持 Apache Spark 的一致性，对于 Spark 认为无效的正则表达式，Photon 查询现在将失败。由于此更改，如果 Spark 代码包含无效正则表达式，则可能会看到错误。例如，表达式 split(str_col, '{') 中包含不匹配的大括号，以前 Photon 会接受，现在提示失败。若要修复此表达式，可以转义大括号字符：split(str_col, '\\{')。对于非 ASCII 字符的一些正则表达式匹配，Photon 和 Spark 行为也有所不同。这也是为了让 Photon 的行为与 Apache Spark 一致而进行的更新。
- 在此版本中，现在可以使用vector_search进行文本输入，或使用query_text进行嵌入输入来查询query_vector函数。
- 现在可以使用 Spark 配置属性 spark.databricks.execution.timeout 为 Spark Connect 查询设置超时。对于在无服务器计算上运行的笔记本，默认值为 9000（秒）。在无服务器计算和具有标准访问模式的计算上运行的作业没有超时，除非设置了此配置属性。持续时间超过指定超时时间的执行会导致 QUERY_EXECUTION_TIMEOUT_EXCEEDED 错误。
- [SPARK-49843][SQL] 修复 char/varchar 列的更改注释
- [SPARK-49924][SQL] 替换 containsNull 后保留 ArrayCompact
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-48780][SQL] 使 NamedParametersSupport 中的错误通用，以处理函数和程序
- [SPARK-49876][CONNECT] 从 Spark Connect 服务中删除全局锁
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-49615] 修复：使 ML 列架构验证符合 spark 配置 spark.sql.caseSensitive
- [SPARK-48782][SQL] 在目录中添加对执行过程的支持
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- 还原“[SPARK-49002][SQL] 始终处理 WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY 中的无效位置”
- [SPARK-50028][CONNECT] 将 Spark Connect 服务器侦听器中的全局锁替换为细粒度锁
- [SPARK-49615] [ML] 使所有 ML 功能转换器的数据集架构验证都符合“spark.sql.caseSensitive”配置。
- [SPARK-50124][SQL] LIMIT/OFFSET 应保留数据排序
- 操作系统安全更新。

Databricks Runtime 15.3

请参阅 Databricks Runtime 15.3 (EoS)。

2024 年 11 月 26 日
- 在此版本中，现在可以使用vector_search进行文本输入，或使用query_text进行嵌入输入来查询query_vector函数。
- 操作系统安全更新。
2024 年 11 月 5 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时索引超出边界时改进错误消息
- [SPARK-48843][15.3,15.2] 阻止使用 BindParameters 的无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
2024 年 10 月 22 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时索引超出边界时改进错误消息
- [SPARK-48843][15.3,15.2] 阻止使用 BindParameters 的无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
2024 年 10 月 10 日
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT] [SPARK-49474][SS] 对 FlatMapGroupsWithState 用户函数错误进行错误类别的分类
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- [SPARK-49628][SQL]在计算之前，ConstantFolding 应复制有状态表达式
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- [SPARK-48719][SQL] 修复第一个参数为 null 时 RegrSlope 和 RegrIntercept 的计算 bug
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT][15.3.5] 支持 ArtifactManager 中的Windows样式路径
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- 操作系统安全更新。
2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端：一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用 _proto_to_string
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48706][PYTHON] Python UDF 不应引发内部错误
- [SPARK-48954] try_mod() 替换 try_remainder()
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
2024 年 8 月 1 日
- [中断性变更]在 Databricks Runtime 15.3 及更高版本中，调用任何Python用户定义函数（UDF）、用户定义的聚合函数（UDAF）或用户定义的表函数（UDTF），该函数使用 VARIANT 类型作为参数或返回值引发异常。进行此更改是为了防止由于其中一个函数返回的值无效而可能出现的问题。若要了解有关 VARIANT 类型的详细信息，请参阅使用 VARIANT 存储半结构化数据。
- 在笔记本和作业的无服务器计算中，默认情况下会启用 ANSI SQL 模式。请参阅支持的 Spark 配置参数。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- 在配置了共享访问模式的计算中，Kafka 批量读取和写入现在具有与结构化流相同的限制。请参阅流式处理限制。
- [SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48713][SQL] 当 baseObject 为字节数组时，为 UnsafeRow.pointTo 添加索引范围检查
- [SPARK-48834][SQL] 在查询编译期间禁用 Python 标量 UDF、UDTF、UDAF 的变体输入/输出
- [SPARK-48934][SS] Python datetime 类型因在 applyInPandasWithState 中设置超时而转换不正确
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-49054][SQL] 列默认值应支持 current_* 函数
- [SPARK-48653][PYTHON] 修复了数据源错误类引用无效Python
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- [SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性，在会话已被服务器关闭的情况下不会失败
- [SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
- 操作系统安全更新。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 要在读取数据、基于文件的数据源（如 Parquet、ORC、CSV 或 JSON）时忽略无效的分区，可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。例如：spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。但数据源选项优先于 SQL 配置。默认情况下，此设置为 false。
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时，Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- 还原“[SPARK-47406][SQL] 处理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME”
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48503][14.3-15.3][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48273][master][SQL] 修复 PlanWithUnresolvedIdentifier 的延迟重写
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48556][SQL] 修复了指向 UNSUPPORTED_GROUPING_EXPRESSION 的错误消息不正确的问题
- 操作系统安全更新。

Databricks Runtime 15.2

请参阅 Databricks Runtime 15.2 (EoS)。

2024 年 11 月 26 日
- 操作系统安全更新。
2024 年 11 月 5 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-48843][15.3,15.2] 阻止使用 BindParameters 的无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
2024 年 10 月 22 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-48843][15.3,15.2] 阻止使用 BindParameters 的无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
2024 年 10 月 10 日
- [BACKPORT] [SPARK-49474][SS] 对 FlatMapGroupsWithState 用户函数错误进行错误类别的分类
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的 RegrSlope 和 RegrIntercept 计算 bug
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- [SPARK-49628][SQL]在计算之前，ConstantFolding 应复制有状态表达式
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT] 支持 ArtifactManager 中的Windows样式路径
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- 操作系统安全更新。
2024 年 8 月 29 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用 _proto_to_string
- [SPARK-49263][CONNECT] Spark Connect python 客户端：一致处理布尔 DataFrame 读取器选项
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48706][PYTHON] Python UDF 不应引发内部错误
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
2024 年 8 月 1 日
- 在笔记本和作业的无服务器计算中，默认情况下会启用 ANSI SQL 模式。请参阅支持的 Spark 配置参数。
- 在配置了共享访问模式的计算中，Kafka 批量读取和写入现在具有与结构化流相同的限制。请参阅流式处理限制。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- 在配置了共享访问模式的计算中，Kafka 批量读取和写入现在具有与结构化流相同的限制。请参阅流式处理限制。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-48047][SQL] 减少空 TreeNode 标记的内存压力
- [SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性，在会话已被服务器关闭的情况下不会失败
- [SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
- [SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-48713][SQL] 当 baseObject 为字节数组时，为 UnsafeRow.pointTo 添加索引范围检查
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
- [SPARK-48934][SS] Python datetime 类型因在 applyInPandasWithState 中设置超时而转换不正确
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 在无服务器笔记本和作业上，默认情况下将启用 ANSI SQL 模式，并支持短名称
- 要在读取数据、基于文件的数据源（如 Parquet、ORC、CSV 或 JSON）时忽略无效的分区，可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。例如：spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。但数据源选项优先于 SQL 配置。默认情况下，此设置为 false。
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时，Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写
- [SPARK-48556][SQL] 修复了指向 UNSUPPORTED_GROUPING_EXPRESSION 的错误消息不正确的问题
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- 操作系统安全更新。
2024 年 6 月 17 日
- applyInPandasWithState() 在共享群集上可用。
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- 修复了 try_divide() 函数中的 bug，其中包含小数的输入导致意外异常。
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-48276][PYTHON][CONNECT] 为 __repr__ 添加缺少的 SQLExpression 方法
- [SPARK-48014][SQL] 将 EvaluatePython 中的 makeFromJava 错误更改为面向用户的错误
- [SPARK-48016][SQL] 修复了使用十进制时 try_divide 函数中的 bug
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48056][CONNECT][PYTHON] 如果引发 SESSION_NOT_FOUND 错误，并且未收到部分响应，则重新执行计划
- [SPARK-48172][SQL] 修复了向后移植到 15.2 的 JDBCDialect 中的转义问题
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48288] 为连接器强制转换表达式添加源数据类型
- [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- 还原“[SPARK-47406][SQL] 处理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME”
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理随机依赖项
- [SPARK-47921][CONNECT] 修复 ExecuteHolder 中创建 ExecuteJobTag 的问题
- [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
- [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
- [SPARK-48180][SQL] 改进了使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY exprs 周围的括号时的错误
- 操作系统安全更新。

Databricks Runtime 15.1

请参阅 Databricks Runtime 15.1 (EoS)。

2024 年 10 月 22 日
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化（正确性修复）
- 操作系统安全更新。
2024 年 10 月 10 日
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT] [SPARK-49474][SS] 对 FlatMapGroupsWithState 用户函数错误进行错误类别的分类
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-49628][SQL]在计算之前，ConstantFolding 应复制有状态表达式
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的 RegrSlope 和 RegrIntercept 计算 bug
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT] 支持 ArtifactManager 中的Windows样式路径
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端：一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用 _proto_to_string
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48706][PYTHON] Python UDF 不应引发内部错误
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
2024 年 8 月 1 日
- 在笔记本和作业的无服务器计算中，默认情况下会启用 ANSI SQL 模式。请参阅支持的 Spark 配置参数。
- 在配置了共享访问模式的计算中，Kafka 批量读取和写入现在具有与结构化流相同的限制。请参阅流式处理限制。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- 在配置了共享访问模式的计算中，Kafka 批量读取和写入现在具有与结构化流相同的限制。请参阅流式处理限制。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- [SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
- [SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- [SPARK-48713][SQL] 当 baseObject 为字节数组时，为 UnsafeRow.pointTo 添加索引范围检查
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性，在会话已被服务器关闭的情况下不会失败
- [SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
- [SPARK-48934][SS] Python datetime 类型因在 applyInPandasWithState 中设置超时而转换不正确
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-48047][SQL] 减少空 TreeNode 标记的内存压力
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 在笔记本和作业的无服务器计算中，默认情况下会启用 ANSI SQL 模式。请参阅支持的 Spark 配置参数。
- 要在读取数据、基于文件的数据源（如 Parquet、ORC、CSV 或 JSON）时忽略无效的分区，可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。例如：spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。但数据源选项优先于 SQL 配置。默认情况下，此设置为 false。
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时，Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-47309][SQL] XML：为值标记添加架构推理测试
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- 操作系统安全更新。
2024 年 6 月 17 日
- applyInPandasWithState() 在共享群集上可用。
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
- [SPARK-48276][PYTHON][CONNECT] 为 __repr__ 添加缺少的 SQLExpression 方法
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理随机依赖项
- 操作系统安全更新。
2024 年 5 月 21 日
- 修复了 try_divide() 函数中的 bug，其中包含小数的输入导致意外异常。
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48016][SQL] 修复了使用十进制时 try_divide 函数中的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-48180][SQL] 改进了使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY exprs 周围的括号时的错误
- [SPARK-48014][SQL] 将 EvaluatePython 中的 makeFromJava 错误更改为面向用户的错误
- [SPARK-48056][CONNECT][PYTHON] 如果引发 SESSION_NOT_FOUND 错误，并且未收到部分响应，则重新执行计划
- [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-47543][CONNECT][PYTHON] 从 Pandas DataFrame 将 dict 推断为 MapType 以允许创建 DataFrame
- [SPARK-47739][SQL] 注册逻辑 avro 类型
- [SPARK-48044][PYTHON][CONNECT] 缓存 DataFrame.isStreaming
- [SPARK-47855][CONNECT] 在不受支持的列表中添加 spark.sql.execution.arrow.pyspark.fallback.enabled
- [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
- [SPARK-47941] [SS] [Connect] 将 ForeachBatch 辅助角色初始化错误传播给 PySpark 用户
- [SPARK-47819][CONNECT][Cherry-pick-15.0] 使用异步回调进行执行清理
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-47839][SQL] 修复 RewriteWithExpression 中的聚合 bug
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47371][SQL] XML：忽略 CDATA 中找到的行标记
- [SPARK-47907][SQL] 将 bang 放在配置下
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- 操作系统安全更新。

Databricks Runtime 15.0（达特布里克斯运行时 15.0）

请参阅 Databricks Runtime 15.0 (EoS)。

2024 年 5 月 30 日
- （行为更改）dbutils.widgets.getAll() 现在支持获取笔记本中的所有小组件值。
2024 年 4 月 25 日
- [SPARK-47786] SELECT DISTINCT () 不应变成 SELECT DISTINCT struct()（还原为以前的行为）
- [SPARK-47802][SQL] 将 () 从含义 struct() 还原为含义 *
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-47722] 等待 RocksDB 后台工作完成后再关闭
- [SPARK-47081][CONNECT][FOLLOW] 提高进度处理程序的可用性
- [SPARK-47694][CONNECT] 使最大消息大小在客户端可配置
- [SPARK-47669][SQL][CONNECT][PYTHON] 添加 Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] 使用缓存架构验证列名称
- [SPARK-47818][CONNECT][Cherry-pick-15.0] 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后，JSON 分析失败，并出现“java.lang.ClassCastException”
- [SPARK-47755][CONNECT] 当非重复值的数量太大时，透视应该失败
- [SPARK-47713][SQL][CONNECT] 修复自联接失败
- [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失败并出现计划无效错误
- [SPARK-47862][PYTHON][CONNECT] 修复 proto 文件生成错误
- [SPARK-47800][SQL] 创建新方法来实现标识符到 tableIdentifier 的转换
- 操作系统安全更新。
2024 年 4 月 3 日
- （行为变更）为了确保各种计算类型实现一致的行为，共享群集上的 PySpark UDF 现在与无隔离群集和已分配群集上的 UDF 行为相一致。此更新包括以下可能会中断现有代码的更改：
  - 具有 string 返回类型的 UDF 不再隐式地将非 string 值转换为 string 值。以前，具有 str 返回类型的 UDF 会使用 str() 函数包装返回值，而不考虑该返回值的实际数据类型。
  - 具有 timestamp 返回类型的 UDF 不再对具有 timestamp 的 timezone 隐式应用转换。
  - Spark 群集配置 spark.databricks.sql.externalUDF.* 不再应用于共享群集上的 PySpark UDF。
  - Spark 群集配置 spark.databricks.safespark.externalUDF.plan.limit 不再影响 PySpark UDF，从而消除了 PySpark UDF 的每个查询具有 5 个 UDF 的公共预览版限制。
  - Spark 群集配置 spark.databricks.safespark.sandbox.size.default.mib 不再应用于共享群集上的 PySpark UDF。相反，将使用系统上的可用内存。若要限制 PySpark UDF 的内存，请使用最小值为 spark.databricks.pyspark.udf.isolation.memoryLimit 的 100m。
- 现在支持将 TimestampNTZ 数据类型用作具有 liquid 聚类分析的聚类分析列。请参阅对表使用液体聚类分析。
- [SPARK-47218][SQL] XML：忽略 XML tokenizer 中的注释行标记
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- [SPARK-47033][SQL] 修复 EXECUTE IMMEDIATE USING 无法识别会话变量名称的问题
- [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- [SPARK-47561][SQL] 修复有关别名的分析器规则顺序问题
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-46906][BACKPORT][SS] 添加对流式处理的有状态运算符更改的检查
- [SPARK-47569][SQL] 禁止比较变体。
- [SPARK-47241][SQL] 修复 ExtractGenerator 的规则顺序问题
- [SPARK-47218] [SQL] XML：已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47300][SQL] quoteIfNeeded 应该引用以数字开头的标识符
- [SPARK-47009][SQL][Collation] 启用对排序规则的创建表支持
- [SPARK-47322][PYTHON][CONNECT] 使 withColumnsRenamed 列名称重复处理与 withColumnRenamed 保持一致
- [SPARK-47544][PYTHON] SparkSession 生成器方法与 Visual Studio Code IntelliSense 不兼容
- [SPARK-47511][SQL] 通过重新分配 ID 来规范化 With 表达式
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- [SPARK-47305][SQL] 修复 PruneFilters，以正确标记 LocalRelation 的 isStreaming 标志（如果计划具有批处理和流式处理）
- [SPARK-47380][CONNECT] 确保服务器端上的 SparkSession 相同
- 操作系统安全更新。

Databricks Runtime 14.2

请参阅 Databricks Runtime 14.2 (EoS)。

2024 年 10 月 22 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
- 操作系统安全更新。
2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT] [SPARK-49474][SS] 对 FlatMapGroupsWithState 用户函数错误进行错误类别的分类
2024 年 9 月 25 日
- [SPARK-48719][SQL]修复 RegrS 的计算 bug...
- [SPARK-49628][SQL]在计算之前，ConstantFolding 应复制有状态表达式
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49526][CONNECT] 支持 ArtifactManager 中的Windows样式路径
2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端：一致处理布尔 DataFrame 读取器选项
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
2024 年 8 月 14 日
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48706][PYTHON] Python UDF 不应引发内部错误
2024 年 8 月 1 日
- 此版本包括 Spark Java 接口中 ColumnVector 和 ColumnarArray 类的 bug 修复。在修复之前，当其中一个类的实例包含 ArrayIndexOutOfBoundsException 值时，可能会抛出 null 或返回不正确的数据。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- 操作系统安全更新。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- Snowflake JDBC 驱动程序已更新到版本 3.16.1
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时，Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
2024 年 6 月 17 日
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48276][PYTHON][CONNECT] 为 __repr__ 添加缺少的 SQLExpression 方法
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 操作系统安全更新。
2024 年 5 月 21 日
- （行为更改）dbutils.widgets.getAll() 现在支持获取笔记本中的所有小组件值。
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-48044][PYTHON][CONNECT] 缓存 DataFrame.isStreaming
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-47371][SQL] XML：忽略 CDATA 中找到的行标记
- [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
2024 年 4 月 25 日
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后，JSON 分析失败，并出现“java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失败并出现计划无效错误
- 操作系统安全更新。
2024 年 4 月 11 日
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- 操作系统安全更新。
2024 年 4 月 1 日
- [SPARK-47322][PYTHON][CONNECT] 使 withColumnsRenamed 列名称重复处理与 withColumnRenamed 保持一致
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-47218] [SQL] XML：已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47305][SQL] 修复 PruneFilters，以正确标记 LocalRelation 的 isStreaming 标志（如果计划具有批处理和流式处理）
- [SPARK-47218][SQL] XML：忽略 XML tokenizer 中的注释行标记
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47300][SQL] quoteIfNeeded 应该引用以数字开头的标识符
- [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- 操作系统安全更新。
2024 年 3 月 14 日
- [SPARK-47035][SS][CONNECT] 客户端侦听器的协议
- [SPARK-47121][CORE] 在 StandaloneSchedulerBackend 关闭期间避免 RejectedExecutionExceptions
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47129][CONNECT][SQL] 正确制定 ResolveRelations 缓存连接计划
- [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- 操作系统安全更新。
2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- 现在可以使用自动加载程序、read_files、COPY INTO、Lakeflow Spark 声明性管道和 DBSQL 引入 XML 文件。 XML 文件支持可以自动推断和改进架构、采用类型不匹配的救援数据、使用 XSD 验证 XML、支持 SQL 表达式（如from_xml、schema_of_xml 和 to_xml）。有关更多详细信息，请参阅 XML 文件支持。如果以前曾使用过外部 spark-xml 包，请参阅此处以获取迁移指导。
- [SPARK-46954][SQL] XML：使用 BufferedReader 包装 InputStreamReader
- [SPARK-46630][SQL] XML：写入时验证 XML 元素名称
- [SPARK-46248][SQL] XML：支持 ignoreCorruptFiles 和 ignoreMissingFiles 选项
- [SPARK-46954][SQL] XML：优化架构索引查找
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
- [SPARK-46993][SQL] 修复会话变量的常数折叠
2024 年 2 月 8 日
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询，并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流数据表在 Databricks Runtime 14.1 及更高版本中支持对非自动 CDC 表的 CDF 查询。 Databricks Runtime 14.0 及更早版本中的 Unity Catalog 流式处理表不支持 CDF 查询。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时，遵循 spark.sql.legacy.charVarcharAsString。
- [SPARK-46952] XML：限制损坏记录的大小。
- [SPARK-46644] 更改 SQLMetric 中的添加和合并以使用 isZero。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction，则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- 操作系统安全更新。
2024 年 1 月 31 日
- [SPARK-46382] XML：更新 ignoreSurroundingSpaces 文档。
- [SPARK-46382] XML：捕获混杂在元素之间的值。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46677] 修复 dataframe["*"] 分辨率。
- [SPARK-46382] XML：默认 ignoreSurroundingSpaces 为 true。
- [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-45964] 删除 catalyst 包下 XML 和 JSON 包中的专用 sql 访问器。
- [SPARK-46581] 更新 AccumulatorV2 中 isZero 的注释。
- [SPARK-45912] XSDToSchema API 增强：更改为 HDFS API 以实现云存储空间辅助功能。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46660] ReattachExecute 请求更新 SessionHolder 的活动状态。
- [SPARK-46610] 当选项中没有键的值时，创建表应引发异常。
- [SPARK-46383] 通过减短 TaskInfo.accumulables() 的生存期来减少驱动程序堆使用量。
- [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-45962] 删除 treatEmptyValuesAsNulls 并使用 XML 中的 nullValue 选项。
- [SPARK-46541] 修复自联接中的不明确列引用。
- [SPARK-46599] XML：使用 TypeCoercion.findTightestCommonType 进行兼容性检查。
- 操作系统安全更新。
2024 年 1 月 17 日
- Photon 查询返回的解释计划的 shuffle 节点已更新为在随机读取（广播联接的一部分）期间发生内存不足错误时添加 causedBroadcastJoinBuildOOM=true 标志。
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-46261]DataFrame.withColumnsRenamed 应保留 dict/map 排序。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-46145] 找不到表或视图时，spark.catalog.listTables 不引发异常。
- [SPARK-46484] 使 resolveOperators 帮助程序函数保留计划 ID。
- [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46446] 禁用具有关联 OFFSET 的子查询以修复正确性 bug。
- [SPARK-46152] XML：在 XML 架构推理中添加 DecimalType 支持。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播 allowExisting。
- [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时，不返回失败。
- [SPARK-46153] XML：添加 TimestampNTZType 支持。
- [SPARK-46056][BACKPORT] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46260]DataFrame.withColumnsRenamed 应遵循 dict 顺序。
- [SPARK-46036] 从 raise_error 函数中移除错误类。
- [SPARK-46294] 清理 init 与零值的语义。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-46587] XML：修复 XSD 大整数转换。
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46241] 修复错误处理例程，防止其陷入无限递归。
- [SPARK-46355] XML：在读取完成时关闭 InputStreamReader。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46265] AddArtifact RPC 中的断言使连接客户端与旧群集不兼容。
- [SPARK-46308] 禁止递归错误处理。
- [SPARK-46337] 使 CTESubstitution 保留 PLAN_ID_TAG。
2023 年 12 月 14 日
- [SPARK-46141] 将 spark.sql.legacy.ctePrecedencePolicy 的默认值更改为 CORRECTED。
- [SPARK-45730] 增加 ReloadingX509TrustManagerSuite 的可靠性。
- [SPARK-45852] 正常处理日志记录期间的递归错误。
- [SPARK-45808] 改进了 SQL 异常的错误处理。
- [SPARK-45920] 按序号分组应是幂等的。
- 还原“[SPARK-45649] 统一 OffsetWindowFunctionFrame 的准备框架”。
- [SPARK-45733] 支持多个重试策略。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- [SPARK-45905] 小数类型之间最不常见的类型应首先保留整数位。
- [SPARK-45136] 通过 Ammonite 支持来增强 ClosureCleaner。
- [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-45859] 使 ml.functions 中的 UDF 对象延迟。
- [SPARK-46028] 使 Column.__getitem__ 接受输入列。
- [SPARK-45798] 断言服务器端会话 ID。
- [SPARK-45892] 重构优化器计划验证，以分离 validateSchemaOutput 和 validateExprIdUniqueness。
- [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-45770] 介绍针对 DataFrameDropColumns 的计划 Dataframe.drop。
- [SPARK-44790] XML：针对 Python、Spark Connect 和 SQL 的 to_xml 实现和绑定。
- [SPARK-45851] 支持 scala 客户端中的多个策略。
- 操作系统安全更新。
2023 年 11 月 29 日
- 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- [SPARK-45852] Spark Connect 的 Python 客户端现在在文本转换期间捕获递归错误。
- [SPARK-45808] 改进了 SQL 异常的错误处理。
- [SPARK-45920]GROUP BY 序号不替换序号。
- 还原 [SPARK-45649]。
- [SPARK-45733] 添加了对多个重试策略的支持。
- [SPARK-45509] 修复了 Spark Connect 的 df 列引用行为。
- [SPARK-45655] 允许在 AggregateFunctions 中的 CollectMetrics 内使用非确定性表达式。
- [SPARK-45905] 小数类型之间最不常见的类型现在首先保留整数位。
- [SPARK-45136] 通过 Ammonite 支持增强 ClosureCleaner。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- [SPARK-46028]Column.__getitem__ 接受输入列。
- [SPARK-45798] 断言服务器端会话 ID。
- [SPARK-45892] 重构优化器计划验证，以分离 validateSchemaOutput 和 validateExprIdUniqueness。
- [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-45770] 修复了 DataFrameDropColumns 的 Dataframe.drop 的列分辨率问题。
- [SPARK-44790]为 Python、Spark Connect 和 SQL 添加了 to_xml 实现和绑定。
- [SPARK-45851] 添加了对 Scala 客户端中的多个策略的支持。
- 操作系统安全更新。

Databricks Runtime 14.1

请参阅 Databricks Runtime 14.1 （EoS）。

2024 年 12 月 10 日
- 操作系统安全更新。
2024 年 11 月 26 日
- 操作系统安全更新。
2024 年 11 月 5 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
2024 年 10 月 22 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符，以防止从 AQE 修改随机
2024 年 10 月 10 日
- [BACKPORT] [SPARK-49474][SS] 对 FlatMapGroupsWithState 用户函数错误进行错误类别的分类
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-49628][SQL]在计算之前，ConstantFolding 应复制有状态表达式
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-48719][SQL]修复 RegrS 的计算 bug...
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 操作系统安全更新。
2024 年 9 月 17 日
- [SPARK-49526][CONNECT] 支持 ArtifactManager 中的Windows样式路径
- 操作系统安全更新。
2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端：一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
2024 年 8 月 14 日
- [SPARK-48706][PYTHON] Python UDF 不应引发内部错误
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48050][SS] 查询开始时记录逻辑计划
2024 年 8 月 1 日
- 此版本包括 Spark Java 接口中 ColumnVector 和 ColumnarArray 类的 bug 修复。在修复之前，当其中一个类的实例包含 ArrayIndexOutOfBoundsException 值时，可能会抛出 null 或返回不正确的数据。
- SHOW CREATE TABLE 语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。请参阅 SHOW CREATE TABLE。若要了解行筛选器和列掩码，请参阅行筛选器和列掩码。
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- 操作系统安全更新。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时，Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
2024 年 6 月 17 日
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48276][PYTHON][CONNECT] 为 __repr__ 添加缺少的 SQLExpression 方法
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 操作系统安全更新。
2024 年 5 月 21 日
- （行为更改）dbutils.widgets.getAll() 现在支持获取笔记本中的所有小组件值。
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-47371][SQL] XML：忽略 CDATA 中找到的行标记
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-48044][PYTHON][CONNECT] 缓存 DataFrame.isStreaming
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
2024 年 4 月 25 日
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后，JSON 分析失败，并出现“java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失败并出现计划无效错误
- 操作系统安全更新。
2024 年 4 月 11 日
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- 操作系统安全更新。
2024 年 4 月 1 日
- [SPARK-47305][SQL] 修复 PruneFilters，以正确标记 LocalRelation 的 isStreaming 标志（如果计划具有批处理和流式处理）
- [SPARK-47218][SQL] XML：忽略 XML tokenizer 中的注释行标记
- [SPARK-47300][SQL] quoteIfNeeded 应该引用以数字开头的标识符
- [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-47322][PYTHON][CONNECT] 使 withColumnsRenamed 列名称重复处理与 withColumnRenamed 保持一致
- [SPARK-47300] 针对 DecomposerSuite 的修复
- [SPARK-47218] [SQL] XML：已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- 操作系统安全更新。
2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47129][CONNECT][SQL] 正确制定 ResolveRelations 缓存连接计划
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- 操作系统安全更新。
2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- 现在可以使用自动加载程序、read_files、COPY INTO、Lakeflow Spark 声明性管道和 DBSQL 引入 XML 文件。 XML 文件支持可以自动推断和改进架构、采用类型不匹配的救援数据、使用 XSD 验证 XML、支持 SQL 表达式（如from_xml、schema_of_xml 和 to_xml）。有关更多详细信息，请参阅 XML 文件支持。如果以前曾使用过外部 spark-xml 包，请参阅此处以获取迁移指导。
- [SPARK-46248][SQL] XML：支持 ignoreCorruptFiles 和 ignoreMissingFiles 选项
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
- [SPARK-46954][SQL] XML：使用 BufferedReader 包装 InputStreamReader
- [SPARK-46954][SQL] XML：优化架构索引查找
- [SPARK-46630][SQL] XML：写入时验证 XML 元素名称
- 操作系统安全更新。
2024 年 2 月 8 日
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询，并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity 目录流式处理表支持 Databricks Runtime 14.1 及更高版本中非 AUTO CDC 表的 CDF 查询。 Databricks Runtime 14.0 及更早的版本中，Unity Catalog 流式表不支持 CDF 查询。
- [SPARK-46952] XML：限制损坏记录的大小。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-45582] 确保在输出模式流式处理聚合中调用提交后不使用存储实例。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction，则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时，遵循 spark.sql.legacy.charVarcharAsString。
- [SPARK-45957] 避免为非可执行命令生成执行计划。
- 操作系统安全更新。
2024 年 1 月 31 日
- [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- [SPARK-45498] 跟进：忽略旧阶段尝试的任务完成。
- [SPARK-46382] XML：更新 ignoreSurroundingSpaces 文档。
- [SPARK-46383] 通过减短 TaskInfo.accumulables() 的生存期来减少驱动程序堆使用量。
- [SPARK-46382] XML：默认 ignoreSurroundingSpaces 为 true。
- [SPARK-46677] 修复 dataframe["*"] 分辨率。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-45912] XSDToSchema API 增强：更改为 HDFS API 以实现云存储空间辅助功能。
- [SPARK-46599] XML：使用 TypeCoercion.findTightestCommonType 进行兼容性检查。
- [SPARK-46382] XML：捕获混杂在元素之间的值。
- [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46610] 当选项中没有键的值时，创建表应引发异常。
- [SPARK-45964] 删除 catalyst 包下 XML 和 JSON 包中的专用 sql 访问器。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-45962] 删除 treatEmptyValuesAsNulls 并使用 XML 中的 nullValue 选项。
- [SPARK-46541] 修复自联接中的不明确列引用。
- 操作系统安全更新。
2024 年 1 月 17 日
- Photon 查询返回的解释计划的 shuffle 节点已更新为在随机读取（广播联接的一部分）期间发生内存不足错误时添加 causedBroadcastJoinBuildOOM=true 标志。
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时，不返回失败。
- [SPARK-46484] 使 resolveOperators 帮助程序函数保留计划 ID。
- [SPARK-46153] XML：添加 TimestampNTZType 支持。
- [SPARK-46152] XML：在 XML 架构推理中添加 DecimalType 支持。
- [SPARK-46145] 找不到表或视图时，spark.catalog.listTables 不引发异常。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。
- [SPARK-46337] 使 CTESubstitution 保留 PLAN_ID_TAG。
- [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46587] XML：修复 XSD 大整数转换。
- [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播 allowExisting。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46355] XML：在读取完成时关闭 InputStreamReader。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46261]DataFrame.withColumnsRenamed 应保留 dict/map 排序。
- [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46260]DataFrame.withColumnsRenamed 应遵循 dict 顺序。
- [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-46141] 将 spark.sql.legacy.ctePrecedencePolicy 的默认值更改为 CORRECTED。
- [SPARK-46028] 使 Column.__getitem__ 接受输入列。
- [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-45316] 向 ignoreCorruptFiles 和 / 添加新参数 ignoreMissingFilesHadoopRDDNewHadoopRDD。
- [SPARK-45852] 正常处理日志记录期间的递归错误。
- [SPARK-45920] 按序号分组应是幂等的。
- 操作系统安全更新。
2023 年 11 月 29 日
- 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- 使用自动加载程序或流式处理表引入 CSV 数据时，大型 CSV 文件现在可拆分，并且可以在架构推理和数据处理期间并行处理。
- [SPARK-45892] 重构优化器计划验证，以分离 validateSchemaOutput 和 validateExprIdUniqueness。
- [SPARK-45620] API 与 Python UDF 相关的 API 现在使用 camelCase。
- [SPARK-44790]为 Python、Spark Connect 和 SQL 添加了 to_xml 实现和绑定。
- [SPARK-45770] 修复了 DataFrameDropColumns 的 Dataframe.drop 的列分辨率问题。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- [SPARK-44784] 使 SBT 测试具有封闭性。
- 操作系统安全更新。
2023 年 11 月 10 日
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- [SPARK-45250] 添加了禁用动态分配时对 yarn 群集的阶段级任务资源配置文件的支持。
- [SPARK-44753] 添加了 PySpark SQL 的 XML 数据帧读取器和编写器。
- [SPARK-45396] 添加了 PySpark.ml.connect 模块的文档条目。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45577] 修复了 UserDefinedPythonTableFunctionAnalyzeRunner 以能够传递来自命名参数的折叠值。
- [SPARK-45562] 已使“rowTag”成为必需选项。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- [SPARK-43380] 修复了 Avro 读取速度变慢的问题。
- [SPARK-45430]FramelessOffsetWindowFunction 在 IGNORE NULLS 和 offset > rowCount 时不再失败。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45386] 修复了 StorageLevel.NONE 错误返回 0 的问题。
- [SPARK-44219] 为优化重写添加了针对每个规则的验证检查。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时 InferWindowGroupLimit 会导致问题的问题。
- 操作系统安全更新。
2023 年 9 月 27 日
- [SPARK-44823] 已将 black 更新为 23.9.1，并修复了错误检查。
- [SPARK-45339] PySpark 现在会记录重试的错误。
- 还原 [SPARK-42946] 编辑了变量替换中嵌套的敏感数据。
- [SPARK-44551] 编辑了注释以与 OSS 同步。
- [SPARK-45360] Spark 会话生成器支持从 SPARK_REMOTE 初始化。
- [SPARK-45279] 已将 plan_id 附加到所有逻辑计划。
- [SPARK-45425] 将 TINYINT 映射到了 ShortType 的 MsSqlServerDialect。
- [SPARK-45419] 删除了较高版本的文件版本映射条目，以避免重复使用 rocksdb sst 文件 ID。
- [SPARK-45488] 添加了对 rowTag 元素中的值的支持。
- [SPARK-42205] 移除了 Accumulables 事件日志中 Task/Stage 启动事件内的 JsonProtocol 的日志记录。
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- [SPARK-45256]DurationWriter 在写入的值超过初始容量时失败。
- [SPARK-43380] 修复了 Avro 数据类型转换问题，而不会导致性能回归。
- [SPARK-45182] 添加了对回滚随机映射阶段的支持，因此当阶段输出不确定时可以重试所有阶段任务。
- [SPARK-45399] 使用 newOption 添加了 XML 选项。
- 操作系统安全更新。

Databricks Runtime 14.0

请参阅 Databricks Runtime 14.0 (EoS)。

2024 年 2 月 8 日
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-45957] 避免为非可执行命令生成执行计划。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction，则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-45582] 确保在输出模式流式处理聚合中调用提交后不使用存储实例。
- 操作系统安全更新。
2024 年 1 月 31 日
- [SPARK-46541] 修复自联接中的不明确列引用。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-45498] 跟进：忽略旧阶段尝试的任务完成。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46383] 通过减短 TaskInfo.accumulables() 的生存期来减少驱动程序堆使用量。
- [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-46677] 修复 dataframe["*"] 分辨率。
- [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- [SPARK-46610] 当选项中没有键的值时，创建表应引发异常。
- 操作系统安全更新。
2024 年 1 月 17 日
- Photon 查询返回的解释计划的 shuffle 节点已更新为在随机读取（广播联接的一部分）期间发生内存不足错误时添加 causedBroadcastJoinBuildOOM=true 标志。
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。
- [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46484] 使 resolveOperators 帮助程序函数保留计划 ID。
- [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时，不返回失败。
- [SPARK-46261]DataFrame.withColumnsRenamed 应保留 dict/map 排序。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-46337] 使 CTESubstitution 保留 PLAN_ID_TAG。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播 allowExisting。
- [SPARK-46260]DataFrame.withColumnsRenamed 应遵循 dict 顺序。
- [SPARK-46145] 找不到表或视图时，spark.catalog.listTables 不引发异常。
2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-46028] 使 Column.__getitem__ 接受输入列。
- [SPARK-45920] 按序号分组应是幂等的。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- 操作系统安全更新。
2023 年 11 月 29 日
- 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- 使用自动加载程序或流式处理表引入 CSV 数据时，大型 CSV 文件现在可拆分，并且可以在架构推理和数据处理期间并行处理。
- Spark-snowflake 连接器已升级到 2.12.0。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- 还原 [SPARK-45592]。
- [SPARK-45892] 重构优化器计划验证，以分离 validateSchemaOutput 和 validateExprIdUniqueness。
- [SPARK-45592] 修复了 AQE 中 InMemoryTableScanExec 的正确性问题。
- [SPARK-45620] API 与 Python UDF 相关的 API 现在使用 camelCase。
- [SPARK-44784] 使 SBT 测试具有封闭性。
- [SPARK-45770] 修复了 DataFrameDropColumns 的 Dataframe.drop 的列分辨率问题。
- [SPARK-45544] 向 TransportContext 中集成了 SSL 支持。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- 操作系统安全更新。
2023 年 11 月 10 日
- 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45430]FramelessOffsetWindowFunction 在 IGNORE NULLS 和 offset > rowCount 时不再失败。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-44219] 为优化重写添加了额外的每规则验证。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时 InferWindowGroupLimit 会生成错误的问题。
- 操作系统安全更新。
2023 年 10 月 23 日
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- [SPARK-45396] 添加了 PySpark.ml.connect 模块的文档条目，并将 Evaluator 添加到了 __all__ 的 ml.connect。
- [SPARK-45256] 修复了 DurationWriter 在写入的值超过初始容量时会失败的问题。
- [SPARK-45279] 已将 plan_id 附加到所有逻辑计划。
- [SPARK-45250] 添加了禁用动态分配时对 yarn 群集的阶段级任务资源配置文件的支持。
- [SPARK-45182] 添加了对回滚随机映射阶段的支持，因此当阶段输出不确定时可以重试所有阶段任务。
- [SPARK-45419] 通过移除较大版本的文件版本映射条目，避免重用不同 rocksdb sst 实例中的 rocksdb 文件。
- [SPARK-45386] 修复了 StorageLevel.NONE 错误返回 0 的问题。
- 操作系统安全更新。
2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- 对于正索引和负索引，array_insert 函数是从 1 开始的；而在以前，对于负索引，它是从于 0 开始的。现在，它在索引 -1 的输入数组末尾插入新元素。若要还原以前的行为，请将 spark.sql.legacy.negativeIndexInArrayInsert 设置为 true。
- 当启用了自动加载程序的 CSV 架构推理已启用 ignoreCorruptFiles时，Azure Databricks不再忽略损坏的文件。
- [SPARK-45227] 修复了 CoarseGrainedExecutorBackend 的微小线程安全问题。
- [SPARK-44658]ShuffleStatus.getMapStatus 应返回 None 而不是 Some(null)。
- [SPARK-44910]Encoders.bean 不支持具有泛型参数的超级类。
- [SPARK-45346] 在合并架构时，Parquet 架构推理采用的标志区分大小写。
- 还原 [SPARK-42946]。
- [SPARK-42205] 更新了 JSON 协议，以移除任务或阶段启动事件中的可累积日志记录。
- [SPARK-45360] Spark 会话生成器支持从 SPARK_REMOTE 初始化。
- [SPARK-45316] 向 ignoreCorruptFiles 和 / 添加新参数 ignoreMissingFilesHadoopRDDNewHadoopRDD。
- [SPARK-44909] 跳过运行 torch 分发服务器日志流式处理服务器（如果不可用）。
- [SPARK-45084]StateOperatorProgress 现在使用准确的随机分区号。
- [SPARK-45371] 修复了 Spark Connect Scala 客户端中的明暗度问题。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- [SPARK-44840] 使负索引的 array_insert() 从 1 开始。
- [SPARK-44551] 编辑了注释以与 OSS 同步。
- [SPARK-45078] 当元素类型与派生的组件类型不同时，ArrayInsert 函数现在会进行显式强制转换。
- [SPARK-45339] PySpark 现在会记录重试错误。
- [SPARK-45057] 避免在 keepReadLock 为 false 时获取读取锁。
- [SPARK-44908] 修复了交叉验证程序 foldCol 参数功能。
- 操作系统安全更新。

Databricks Runtime 13.1

请参阅 Databricks Runtime 13.1 (EoS)。

2023 年 11 月 29 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- [SPARK-44846] 移除了 RemoveRedundantAggregates 之后的复杂分组表达式。
- [SPARK-43802] 修复了 unhex 和 unbase64 表达式的代码生成失败的问题。
- [SPARK-43718] 修复了 USING 联接中键的为 Null 性。
- 操作系统安全更新。
2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送，然后再进行速率限制，从而实现更高的利用率。
- 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45430]FramelessOffsetWindowFunction 在 IGNORE NULLS 和 offset > rowCount 时不再失败。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时 InferWindowGroupLimit 会导致问题的问题。
- 操作系统安全更新。
2023 年 10 月 24 日
- [SPARK-43799] 向 PySpark Protobuf API 添加了描述符二进制选项。
- 还原 [SPARK-42946]。
- [SPARK-45346] 在合并架构时，Parquet 架构推理采用的标志现在区分大小写。
- 操作系统安全更新。
2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- 在使用自动加载程序进行 CSV 架构推理期间启用 ignoreCorruptFiles 时，不再忽略损坏的文件。
- [SPARK-44658]ShuffleStatus.getMapStatus 将返回 None 而不是 Some(null)。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- [SPARK-42205] 更新了 JSON 协议，以移除任务或阶段启动事件中的可累积日志记录。
- 操作系统安全更新。
2023 年 9 月 12 日
- [SPARK-44718] 将 ColumnVector 内存模式配置默认值与 OffHeapMemoryMode 配置值匹配。
- SPARK-44878 禁用了对 RocksDB 写入管理器的严格限制，以避免缓存完成时出现插入异常。
- 其他修复。
2023 年 8 月 30 日
- [SPARK-44871] 已修复“percentile_disc 行为”。
- [SPARK-44714] 轻松限制有关查询的 LCA 解析。
- [SPARK-44245]PySpark.sql.dataframe sample() 文档测试现在仅用于说明目的。
- [SPARK-44818] 修复了初始化 taskThread 之前发出的挂起任务中断的争用。
- 操作系统安全更新。
2023 年 8 月 15 日
- [SPARK-44485] 优化了 TreeNode.generateTreeString。
- [SPARK-44643] 修复了行为空时的 Row.__repr__。
- [SPARK-44504] 维护任务现在在停止错误时清理已加载的提供程序。
- [SPARK-44479] 修复了从空结构类型进行的protobuf 转换。
- [SPARK-44464] 修复了 applyInPandasWithStatePythonRunner 以输出将 Null 作为第一列值的行。
- 其他修复。
2023 年 7 月 27 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时 dbutils.fs.ls() 返回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的问题。
- [SPARK-44199]CacheManager 不再不必要地刷新 fileIndex。
- [SPARK-44448] 修复了来自 DenseRankLimitIterator 和 InferWindowGroupLimit 的错误结果 bug。
- 操作系统安全更新。
2023 年 7 月 24 日
- 还原 [SPARK-42323]。
- [SPARK-41848] 修复了 TaskResourceProfile 的任务超出计划的问题。
- [SPARK-44136] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- [SPARK-44337] 修复了将任何字段设置为 Any.getDefaultInstance 会导致分析错误的问题。
- 操作系统安全更新。
2023 年 6 月 27 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- failOnUnknownFields 模式下的 JSON 分析程序现在会丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- PubSubRecord 属性字段存储为 JSON 而不是来自 Scala 映射的字符串，以实现更简单的序列化和反序列化。
- 命令 EXPLAIN EXTENDED 现在会返回查询的结果缓存资格。
- 使用 SHALLOW CLONE Apache Iceberg 和 Parquet 提高增量更新的性能。
- [SPARK-43032] Python SQM bug 修复。
- [SPARK-43404]跳过对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43340] 处理事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-43527] 修复了 PySpark 中的 catalog.listCatalogs。
- [SPARK-43541]传播解析表达式和缺失列时的所有Project标记。
- [SPARK-43300] 用于 Guava 缓存的 NonFateSharingCache 包装器。
- [SPARK-43378] 正确关闭 deserializeFromChunkedBuffer 中的流对象。
- [SPARK-42852] 从 NamedLambdaVariable 还原 EquivalentExpressions 相关更改。
- [SPARK-43779]ParseToDate 现在会在主线程中加载 EvalMode。
- [SPARK-43413] 修复 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43889] 为 __dir__() 添加列名检查，以筛除容易出错的列名。
- [SPARK-43043] 改进了 MapOutputTracker.updateMapOutput 的性能
- [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43457]具有 OS、Python 和 Spark 版本的 8ument 用户代理。
- [SPARK-43286] 更新了 aes_encrypt CBC 模式以生成随机 IV。
- [SPARK-42851] 使用 EquivalentExpressions.addExpr() 保护 supportedExpression()。
- 还原 [SPARK-43183]。
- 操作系统安全更新。

Databricks Runtime 12.2 LTS

请参阅 Databricks Runtime 12.2 LTS （EoS）。

2026 年 2 月 26 日
- 操作系统安全更新。
2026 年 2 月 19 日
- 操作系统安全更新。
2026 年 1 月 27 日
- 操作系统安全更新。
2026 年 1 月 9 日
- 操作系统安全更新。
2025 年 12 月 9 日
- 操作系统安全更新。
2025 年 11 月 18 日
- 操作系统安全更新。
2025 年 11 月 4 日
- 更新了 R 库：
  - 箭头从 10.0.0 到 21.0.0
- 操作系统安全更新。
2025 年 10 月 21 日
- 已将Python从 2.7.18 更新为 2.7.18.1
- 操作系统安全更新。
2025 年 10 月 7 日
- 操作系统安全更新。
2025 年 9 月 24 日
- 操作系统安全更新。
2025 年 9 月 9 日
- 操作系统安全更新。
2025 年 8 月 26 日
- 操作系统安全更新。
2025 年 8 月 14 日
- 操作系统安全更新。
2025 年 7 月 29 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 操作系统安全更新。
2025 年 7 月 1 日
- 操作系统安全更新。
2025 年 6 月 17 日
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - certifi 已从 2019.11.28、2021.10.8 升级到 2021.10.8
  - chardet 已从 3.0.4、4.0.0 升级到 4.0.0
  - idna 已从 2.8、3.3 升级到 3.3
  - requests 已从 2.22.0、2.27.1 升级到 2.27.1
  - six 已从 1.14.0、1.16.0 升级到 1.16.0
  - urllib3 从 1.25.8、1.26.9 到 1.26.9
  - 添加了 pip 21.2.4
  - 添加了 setuptools 61.2.0
  - 添加了 tomli 1.2.2
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.37.0
  - 已删除发行版 1.4.0
  - 已删除发行版信息 0.23+ubuntu1.1
  - 已删除 python-apt 2.0.1+ubuntu0.20.4.1
- 更新了Java库：
  - software.amazon.cryptools.AmazonCorrettoCryptoProvider 从 1.6.1-linux-x86_64 到 1.6.1
- 操作系统安全更新。
2025 年 5 月 20 日
- [SPARK-42655][SQL] 不正确的不明确列引用错误
- 操作系统安全更新。
2025 年 4 月 22 日
- [行为更改] 现在，真空操作执行类似于其他操作的编写协议检查，以防止在运行不兼容的较旧 Databricks Runtime 版本时对包含较新功能的表进行意外清理。
- 操作系统安全更新。
2025 年 4 月 9 日
- 操作系统安全更新。
2025 年 3 月 11 日
- 操作系统安全更新。
2024 年 12 月 10 日
- 操作系统安全更新。
2024 年 11 月 26 日
- 其他 Bug 修复。
2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时，OptimizeCsvJsonExpr 不应更改模式字段
2024 年 9 月 25 日
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 其他 Bug 修复。
2024 年 9 月 17 日
- 操作系统安全更新。
2024 年 8 月 29 日
- 其他 Bug 修复。
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
2024 年 8 月 1 日
- 若要应用所需的安全修补程序，Databricks Runtime 12.2 LTS 中的Python版本从 3.9.5 升级到 3.9.19。
2024 年 7 月 11 日
- （行为变更）如果源表被覆盖，则针对 Delta 表源缓存的 DataFrame 现在将失效。此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。使用 .checkpoint() 在 DataFrame 的整个生命周期中持久保存表状态。
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-42741] [SQL] 当文本为 null 时，请勿在二进制比较中将转换解包
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
2024 年 6 月 17 日
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 其他 Bug 修复。
2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- 操作系统安全更新。
2024 年 4 月 25 日
- 操作系统安全更新。
2024 年 4 月 11 日
- 操作系统安全更新。
2024 年 4 月 1 日
- [SPARK-47305][SQL] 修复 PruneFilters，以正确标记 LocalRelation 的 isStreaming 标志（如果计划具有批处理和流式处理）
- [SPARK-44252][SS] 定义新的错误类，并适用于从 DFS 加载状态失败的情况
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 操作系统安全更新。
2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析，则返回 null
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- 操作系统安全更新。
2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
- 操作系统安全更新。
2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- 操作系统安全更新。
2024 年 1 月 31 日
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- 操作系统安全更新。
2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-39440] 添加配置以禁用事件时间线。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时，不返回失败。
- [SPARK-43067] 更正 Kafka 连接器中错误类资源文件的位置。
- [SPARK-46249] 需要实例锁来获取 RocksDB 指标，以防止与后台操作发生竞争。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播 allowExisting。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46145] 找不到表或视图时，spark.catalog.listTables 不引发异常。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-42852] 撤销 EquivalentExpressions 中与 NamedLambdaVariable 相关的更改。
2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-44582] 跳过 SMJ 上的迭代器（如果已遭清理）。
- [SPARK-45920] 按序号分组应是幂等的。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- 操作系统安全更新。
2023 年 11 月 29 日
- 安装了一个新包 pyarrow-hotfix 以修正 PyArrow RCE 漏洞。
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- [SPARK-42205] 移除了 Stage 和 Task 启动事件的可累积项日志记录。
- [SPARK-44846] 移除了 RemoveRedundantAggregates 之后的复杂分组表达式。
- [SPARK-43718] 修复了 USING 联接中键的为 Null 性。
- [SPARK-45544] 向 TransportContext 中集成了 SSL 支持。
- [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- 操作系统安全更新。
2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送，然后再进行速率限制，从而实现更高的利用率。
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45430]FramelessOffsetWindowFunction 在 IGNORE NULLS 和 offset > rowCount 时不再失败。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- 操作系统安全更新。
2023 年 10 月 24 日
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- 其他修复。
2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-42553] 确保间隔后至少有一个时间单位。
- [SPARK-45346] 在合并架构时，Parquet 架构推理采用的标志区分大小写。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- [SPARK-45084]StateOperatorProgress 将使用准确、够用的随机分区号。
2023 年 9 月 12 日
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的 alter view 的支持。
- [SPARK-44718] 将 ColumnVector 内存模式配置默认值与 OffHeapMemoryMode 配置值匹配。
- [SPARK-43799] 向 PySpark Protobuf API 添加了描述符二进制选项。
- 其他修复。
2023 年 8 月 30 日
- [SPARK-44485] 优化了 TreeNode.generateTreeString。
- [SPARK-44818] 修复了初始化 taskThread 之前发出的挂起任务中断的争用。
- [SPARK-44871][11.3-13.0] 修复了 percentile_disc 行为。
- [SPARK-44714] 缓解了对查询的 LCA 解析的限制。
- 操作系统安全更新。
2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了 applyInPandasWithStatePythonRunner 以输出将 Null 作为第一列值的行。
- 操作系统安全更新。
2023 年 7 月 29 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时 dbutils.fs.ls() 返回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的问题。
- [SPARK-44199]CacheManager 不再不必要地刷新 fileIndex。
- 操作系统安全更新。
2023 年 7 月 24 日
- [SPARK-44337] 修复了将任何字段设置为 Any.getDefaultInstance 会导致分析错误的问题。
- [SPARK-44136] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- 操作系统安全更新。
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]ParseToDate 现在会在主线程中加载 EvalMode。
- [SPARK-43156][SPARK-43098] 扩展了禁用 decorrelateInnerQuery 时的标量子查询计数错误测试。
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 使用 SHALLOW CLONE Iceberg 和 Parquet 提高增量更新的性能。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0] 修复了 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43541]传播解析表达式和缺失列时的所有Project标记。
- [SPARK-43527] 修复了 PySpark 中的 catalog.listCatalogs。
- [SPARK-43123] 内部字段元数据不再泄漏到目录。
- [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42444]DataFrame.drop 现在可正确处理重复的列。
- [SPARK-42937]PlanSubqueries 现在会将 InSubqueryExec#shouldBroadcast 设置为 true。
- [SPARK-43286] 更新了 aes_encrypt CBC 模式以生成随机 IV。
- [SPARK-43378] 正确关闭 deserializeFromChunkedBuffer 中的流对象。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Avro 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 自动加载程序现在会执行以下操作。
- - 正确读取，并且不再补救 Integer、Short 和 Byte 类型（如果提供了这些类型之一），但 Avro 文件建议使用其它两种类型之一。
- - 防止将间隔类型读取为日期或时间戳类型，以避免获取损坏的日期。
- - 防止读取精度较低的 Decimal 类型。
- [SPARK-43172] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-43293] 会在常规列中忽略 __qualified_access_only。
- [SPARK-43098] 修复了按子句对标量子查询进行分组时的正确性 COUNT bug。
- [SPARK-43085] 支持多部件表名称的列 DEFAULT 分配。
- [SPARK-43190]ListQuery.childOutput 现在与辅助输出保持一致。
- [SPARK-43192] 移除了用户代理字符集验证。
- 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 如果提供了其中某种数据类型，自动加载程序现在可以正确读取，而不再补救 Integer、Short 和 Byte 类型。 Parquet 文件建议使用其他两种类型之一。如果先前已启用补救数据列，则数据类型不匹配会导致补救列，即使这些列是可读的。
- [SPARK-43009] 使用 sql() 常数参数化 Any
- [SPARK-42406] 通过删除字段来终止 Protobuf 递归字段
- [SPARK-43038] 通过 aes_encrypt()/aes_decrypt() 支持 CBC 模式
- [SPARK-42971] 当工作器处理 workdir 事件时，如果 appDirs 为 null，则更改为输出 WorkDirCleanup
- [SPARK-43018] 修复带时间戳文本的 INSERT 命令的 bug
- 操作系统安全更新。
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为问题。
- 修复了在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42928] 使 resolvePersistentFunction 同步。
- [SPARK-42936] 修复当子句可以直接由其子聚合解析时的 LCan 问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 操作系统安全更新。
2023 年 3 月 29 日
- Databricks SQL 现在支持在创建表时或之后为 Delta Lake 表的列指定默认值。后续的 INSERT、UPDATE、DELETE 和 MERGE 命令可以使用显式 DEFAULT 关键字引用任何列的默认值。此外，如果任何 INSERT 赋值具有列比目标表更少的显式列表，则相应的列默认值将替换其余列（如果未指定默认值，则替换为 NULL）。
  
  例如：
```
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
INSERT INTO t VALUES (0, DEFAULT);
INSERT INTO t VALUES (1, DEFAULT);
SELECT first, second FROM t;
\> 0, 2023-03-28
1, 2023-03-28z
```
- 自动加载程序现在对 Trigger.AvailableNow 流启动至少一个同步 RocksDB 日志清理操作，以检查是否可以定期清理检查点，以快速运行自动加载程序流。这可能会导致某些流在关闭之前花费更长时间，但会节省存储成本并改善将来的运行的自动加载程序体验。
- 现在可以使用 DeltaTable.addFeatureSupport(feature_name) 修改 Delta 表以添加表功能的支持。
- [SPARK-42794] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流式处理中的 RocksDB 状态存储
- [SPARK-42521] 使用列数量少于目标表的用户指定列表为 INSERT 添加 NULL
- [SPARK-42702][SPARK-42623] 在子查询和 CTE 中支持参数化查询
- [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
- [SPARK-42403] JsonProtocol 应处理 null JSON 字符串
2023 年 3 月 8 日
- 错误消息“无法初始化配置”已得到改进，将为客户提供更多上下文。
- 使用表属性向 Delta 表添加功能的术语发生了变化。首选语法现在是 'delta.feature.featureName'='supported' 而不是 'delta.feature.featureName'='enabled'。为了实现后向兼容性，现在仍可使用 'delta.feature.featureName'='enabled'，并且今后可继续使用。
- 从此版本开始，可以使用附加表属性 delta.ignoreProtocolDefaults 创建/替换表，以忽略与协议相关的 Spark 配置，其中包括默认读取器和写入器版本，以及默认支持的表功能。
- [SPARK-42070] 将 Mask 函数参数的默认值从 -1 更改为 NULL
- [SPARK-41793] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42516] 在创建视图时始终捕获会话时区配置
- [SPARK-42635] 修复 TimestampAdd 表达式。
- [SPARK-42622] 禁用了值的替换
- [SPARK-42534] 修复 DB2Dialect Limit 子句
- [SPARK-42121] 添加内置表值函数 posexplode、posexplode_outer、json_tuple 和 stack
- [SPARK-42045] ANSI SQL 模式：Round/Bround 应在微型/小型/大型整数溢出时返回错误
- 操作系统安全更新。

Databricks Runtime 11.3 LTS

请参阅 Databricks Runtime 11.3 LTS （EoS）。

2025 年 11 月 4 日
- 操作系统安全更新。
2025 年 10 月 21 日
- 已将Python从 2.7.18 更新为 2.7.18.1
- 操作系统安全更新。
2025 年 10 月 7 日
- 操作系统安全更新。
2025 年 9 月 24 日
- 操作系统安全更新。
2025 年 9 月 9 日
- 操作系统安全更新。
2025 年 8 月 26 日
- 操作系统安全更新。
2025 年 8 月 14 日
- 操作系统安全更新。
2025 年 7 月 29 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 操作系统安全更新。
2025 年 7 月 1 日
- 操作系统安全更新。
2025 年 6 月 17 日
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - certifi 已从 2019.11.28、2021.10.8 升级到 2021.10.8
  - chardet 已从 3.0.4、4.0.0 升级到 4.0.0
  - idna 已从 2.8、3.3 升级到 3.2
  - requests 已从 2.22.0、2.26.0 升级到 2.26.0
  - six 已从 1.14.0、1.16.0 升级到 1.16.0
  - urllib3 从 1.25.8、1.26.7 到 1.26.7
  - 添加了 pip 21.2.4
  - 添加了 setuptools 58.0.4
  - 添加了 tomli 2.0.1
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.37.0
  - 已删除发行版 1.4.0
  - 已删除发行版信息 0.23+ubuntu1.1
  - 已删除 python-apt 2.0.1+ubuntu0.20.4.1
- 操作系统安全更新。
2025 年 5 月 20 日
- [SPARK-42655][SQL] 不正确的不明确列引用错误
- 操作系统安全更新。
2025 年 4 月 22 日
- [行为更改] 现在，真空操作执行类似于其他操作的编写协议检查，以防止在运行不兼容的较旧 Databricks Runtime 版本时对包含较新功能的表进行意外清理。
- 操作系统安全更新。
2025 年 4 月 9 日
- 操作系统安全更新。
2025 年 3 月 5 日
- 操作系统安全更新。
2025 年 2 月 11 日
- 此版本包含一个边缘情况的修补程序：增量 CLONE 可能会重新复制已经从源表复制到目标表的文件。请参阅在 Azure Databricks 上为表创建一个表。
2024 年 12 月 10 日
- 操作系统安全更新。
2024 年 11 月 26 日
- 其他 Bug 修复。
2024 年 10 月 10 日
- 其他 Bug 修复。
2024 年 9 月 25 日
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- 其他 Bug 修复。
2024 年 9 月 17 日
- 操作系统安全更新。
2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
2024 年 8 月 1 日
- 若要应用所需的安全修补程序，Databricks Runtime 11.3 LTS 中的Python版本从 3.9.5 升级到 3.9.19。
2024 年 7 月 11 日
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-47070] 修复子查询重写后无效的聚合
- 操作系统安全更新。
2024 年 6 月 17 日
- 操作系统安全更新。
2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
- 操作系统安全更新。
2024 年 4 月 25 日
- 操作系统安全更新。
2024 年 4 月 11 日
- 操作系统安全更新。
2024 年 4 月 1 日
- [SPARK-44252][SS] 定义新的错误类，并适用于从 DFS 加载状态失败的情况
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 操作系统安全更新。
2024 年 3 月 14 日
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析，则返回 null
- 操作系统安全更新。
2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
2024 年 2 月 13 日
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- 操作系统安全更新。
2024 年 1 月 31 日
- 操作系统安全更新。
2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播 allowExisting。
- [SPARK-46394] 修复 spark.sql.legacy.keepCommandOutputSchema 设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-39440] 添加配置以禁用事件时间线。
- [SPARK-46249] 需要实例锁来获取 RocksDB 指标，以防止与后台操作发生竞争。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- 操作系统安全更新。
2023 年 11 月 29 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误解释为通配符的问题。
- [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- [SPARK-45544] 向 TransportContext 中集成了 SSL 支持。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- [SPARK-43718] 修复了 USING 联接中键的为 Null 性。
- [SPARK-44846] 移除了 RemoveRedundantAggregates 之后的复杂分组表达式。
- 操作系统安全更新。
2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送，然后再进行速率限制，从而实现更高的利用率。
- [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- 还原 [SPARK-33861]。
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45430]FramelessOffsetWindowFunction 在 IGNORE NULLS 和 offset > rowCount 时不再失败。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- 操作系统安全更新。
2023 年 10 月 24 日
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- 其他修复。
2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- [SPARK-45084]StateOperatorProgress 将使用准确、够用的随机分区号。
- [SPARK-45346] 在合并架构时，Parquet 架构推理采用的标志现在区分大小写。
- 操作系统安全更新。
2023 年 9 月 10 日
- 其他修复。
2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化 taskThread 之前发出的挂起任务中断的争用。
- [SPARK-44871][11.3-13.0] 修复了 percentile_disc 行为。
- 操作系统安全更新。
2023 年 8 月 15 日
- [SPARK-44485] 优化了 TreeNode.generateTreeString。
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了 applyInPandasWithStatePythonRunner 以输出将 Null 作为第一列值的行。
- 操作系统安全更新。
2023 年 7 月 27 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时 dbutils.fs.ls() 返回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP的问题。
- [SPARK-44199]CacheManager 不再不必要地刷新 fileIndex。
- 操作系统安全更新。
2023 年 7 月 24 日
- [SPARK-44136] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- 操作系统安全更新。
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]ParseToDate 现在会在主线程中加载 EvalMode。
- [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用 decorrelateInnerQuery 时的标量子查询计数 bug 测试。
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 使用 SHALLOW CLONE Iceberg 和 Parquet 提高增量更新的性能。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-43404]跳过对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43527] 修复了 PySpark 中的 catalog.listCatalogs。
- [SPARK-43413][11.3-13.0] 修复了 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。

Databricks Runtime 10.4 LTS

请参阅 Databricks Runtime 10.4 LTS （EoS）。

2025 年 8 月 12 日
- 操作系统安全更新。
2025 年 7 月 15 日
- 操作系统安全更新。
2025 年 7 月 1 日
- 操作系统安全更新。
2025 年 6 月 17 日
- 操作系统安全更新。
2025 年 6 月 3 日
- 更新了Python库：
  - certifi from 2019.11.28， 2020.12.5 to 2020.12.5
  - chardet 已从 3.0.4、4.0.0 升级到 4.0.0
  - idna 从 2.10、2.8 到 2.10
  - 请求从 2.22.0、2.25.1 到 2.25.1
  - 6 从 1.14.0、1.15.0 到 1.15.0
  - urllib3 从 1.25.11、1.25.8 到 1.25.11
  - 添加了 pip 21.0.1
  - 添加了 setuptools 52.0.0
  - 添加了 wcwidth 0.2.5
  - 添加了 wheel 0.36.2
  - 已删除发行版 1.4.0
  - 已删除发行版信息 0.23+ubuntu1.1
  - 已删除 python-apt 2.0.1+ubuntu0.20.4.1
- 操作系统安全更新。
2025 年 5 月 20 日
- 操作系统安全更新。
2025 年 4 月 22 日
- 操作系统安全更新。
2025 年 4 月 9 日
- 操作系统安全更新。
2025 年 3 月 11 日
- 操作系统安全更新。
2025 年 2 月 11 日
- 此版本包含一个边缘情况的修补程序：增量 CLONE 可能会重新复制已经从源表复制到目标表的文件。请参阅在 Azure Databricks 上为表创建一个表。
- 操作系统安全更新。
2024 年 12 月 10 日
- 操作系统安全更新。
2024 年 11 月 26 日
- 操作系统安全更新。
2024 年 11 月 5 日
- 操作系统安全更新。
2024 年 10 月 22 日
- 操作系统安全更新。
2024 年 10 月 10 日
- 操作系统安全更新。
2024 年 9 月 25 日
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”，其中 t 为空表
- 操作系统安全更新。
2024 年 9 月 17 日
- 操作系统安全更新。
2024 年 8 月 29 日
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
2024 年 8 月 14 日
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909][SPARK-48883] 向后移植 Spark ML 写入器修复
- 操作系统安全更新。
2024 年 7 月 11 日
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
2024 年 6 月 17 日
- 操作系统安全更新。
2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
2024 年 5 月 9 日
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置“可为空”
- 操作系统安全更新。
2024 年 4 月 25 日
- 操作系统安全更新。
2024 年 4 月 11 日
- 操作系统安全更新。
2024 年 4 月 1 日
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-44252][SS] 定义新的错误类，并适用于从 DFS 加载状态失败的情况
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- 操作系统安全更新。
2024 年 3 月 14 日
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析，则返回 null
- 操作系统安全更新。
2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
- 操作系统安全更新。
2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- 操作系统安全更新。
2024 年 1 月 31 日
- 操作系统安全更新。
2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟，此维护版本包括 JDK 8 安装的修补程序，以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46538] 修复 ALSModel.transform 中的不明确列引用问题。
- [SPARK-39440] 添加配置以禁用事件时间线。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
2023 年 12 月 14 日
- 操作系统安全更新。
2023 年 11 月 29 日
- [SPARK-45544] 向 TransportContext 中集成了 SSL 支持。
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- [SPARK-43718] 修复了 USING 联接中键的为 Null 性。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-44846] 移除了 RemoveRedundantAggregates 之后的复杂分组表达式。
- 操作系统安全更新。
2023 年 11 月 14 日
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- 还原 [SPARK-33861]。
- 操作系统安全更新。
2023 年 10 月 24 日
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- 操作系统安全更新。
2023 年 10 月 13 日
- [SPARK-45084]StateOperatorProgress 将使用准确、够用的随机分区号。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- 操作系统安全更新。
2023 年 9 月 10 日
- 其他修复。
2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化 taskThread 之前发出的挂起任务中断的争用。
- 操作系统安全更新。
2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- 操作系统安全更新。
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用 decorrelateInnerQuery 时的标量子查询计数测试。
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 修复了 JSON 补救数据分析中的问题，以防止出现 UnknownFieldException。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43413] 修复了 IN 子查询 ListQuery 的为 Null 性。
- 操作系统安全更新。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- [SPARK-41520] 拆分 AND_OR 树模式以区分 AND 和 OR。
- [SPARK-43190]ListQuery.childOutput 现在与辅助输出保持一致。
- 操作系统安全更新。
2023 年 4 月 25 日
- [SPARK-42928] 使 resolvePersistentFunction 同步。
- 操作系统安全更新。
2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42937]PlanSubqueries 现在会将 InSubqueryExec#shouldBroadcast 设置为 true。
- [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
2023 年 3 月 29 日
- [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
- [SPARK-42635] 修复 …
- 操作系统安全更新。
2023 年 3 月 14 日
- [SPARK-41162] 修复使用聚合的自联接的反联接和半联接
- [SPARK-33206] 修复对小型索引文件的随机索引缓存权重计算
- [SPARK-42484] 改进了 UnsafeRowUtils 错误消息
- 其他修复。
2023 年 2 月 28 日
- 支持 yyyy-MM-dd date_format 的生成列。此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。要使操作成功，当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 支持 yyyy-MM-dd date_format 的生成列。此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 操作系统安全更新。
2023 年 2 月 16 日
- [SPARK-30220] 支持在 Filter 节点外部使用 Exists/In 子查询
- 操作系统安全更新。
2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
2023 年 1 月 18 日
- 当列名包含无效字符（如空格或分号）时，Azure Synapse连接器将返回更具描述性的错误消息。在这种情况下，将返回以下消息：Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space。
- [SPARK-38277] 在 RocksDB 状态存储提交后清除写入批
- [SPARK-41199] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41198] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41339] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732] 对 SessionWindowing 规则应用基于树模式的修剪
- 操作系统安全更新。
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时，用户可以配置前导和尾部空格的行为。已添加以下选项来控制空格处理：
  - csvignoreleadingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中移除前导空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
  - csvignoretrailingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中移除尾随空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。
- 操作系统安全更新。
2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析，当记录的一部分与架构不匹配时，记录的其余部分仍可正常分析，而不会返回 null。若要选择启用改进的行为，请将 spark.sql.json.enablePartialResults 设置为 true。默认已禁用该标志以保留原始行为。
- [SPARK-40292] 修复了从嵌套结构中引用数组时 arrays_zip 函数中的列名
- 操作系统安全更新。
2022 年 11 月 1 日
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，会错误地为该列中的数据填充 NULL 值。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制
- [SPARK-40697] 添加读取端字符填充以包括外部数据文件
- [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- 操作系统安全更新。
2022 年 10 月 5 日
- [SPARK-40468] 修复选中 _corrupt_record 时 CSV 中的列修剪。
- 操作系统安全更新。
2022 年 9 月 22 日
- 用户可以设置 spark.conf.set（spark.databricks.io.listKeysWithPrefix.azure.enabled， true）以在 ADLS 上为自动加载程序重新启用内置列表。内置列表以前因性能问题关闭，但可能已导致客户的存储成本增加。
- [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40213] 支持拉丁语 - 1 字符的 ASCII 值转换
- [SPARK-40380] 修复 InvokeLike 的常量折叠，以避免计划中嵌入不可序列化的文本
- [SPARK-38404] 当嵌套 CTE 引用外部 CTE 时改进 CTE 解析
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40218] GROUPING SETS 应保留分组列
- [SPARK-39976] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053] 向需要Python运行时环境的动态取消事例添加 assume
- [SPARK-35542] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39983] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775] 禁用在分析 Avro 架构时验证默认值
- [SPARK-39962] 当组属性为空时应用投影
- [SPARK-37643] 当 charVarcharAsString 为 True 时，对于 char 数据类型谓词查询，应跳过 rpadding 规则
- 操作系统安全更新。
2022 年 8 月 9 日
- [SPARK-39847] 修复调用方线程中断时 RocksDBLoader.loadLibrary() 中的争用条件
- [SPARK-39731] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
2022 年 7 月 27 日
- [SPARK-39625] 添加 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的 lineSep
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39570] 内联表应该允许带有别名的表达式
- [SPARK-39702] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39476] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-38868] 优化外部联接时不要传播来自筛选器谓词的异常
- 操作系统安全更新。
2022 年 7 月 20 日
- 当源具有不确定性时，使 Delta MERGE 操作结果保持一致。
- [SPARK-39355] 单列使用引号构造 UnresolvedAttribute
- [SPARK-39548] 具有窗口子句查询的 CreateView 命令遇到“找不到错误的窗口定义”问题
- [SPARK-39419] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 关闭了自动加载程序对Azure上的目录列表的内置云 API 的使用。
- 操作系统安全更新。
2022 年 7 月 5 日
- [SPARK-39376] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
2022 年 6 月 15 日
- [SPARK-39283] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285] 读取文件时，Spark 不应检查字段名称
- [SPARK-34096] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718] 修复 CollapseProject 中的 isExtractOnly 检查
2022 年 6 月 2 日
- [SPARK-39093] 避免在将年-月间隔或日期-时间间隔除以整数时出现代码生成编译错误
- [SPARK-38990] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复自动加载程序中潜在的内置泄漏。
- [SPARK-38918] 嵌套列修剪应筛除属于当前关系的属性
- [SPARK-37593] 如果使用 G1GC 和 ON_HEAP，则通过 LONG_ARRAY_OFFSET 减少默认页面大小
- [SPARK-39084] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38974] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38931] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录，其密钥数未知
- 操作系统安全更新。
2022 年 4 月 19 日
- 已Java AWS SDK 版本 1.11.655 升级到 1.12.1899。
- 修复了笔记本范围的库在批处理流作业中无法正常工作的问题。
- [SPARK-38616] 跟踪 Catalyst TreeNode 中的 SQL 查询文本
- 操作系统安全更新。
2022 年 4 月 6 日
- 以下 Spark SQL 函数现已在此版本中提供：
  - timestampadd() 和 dateadd()：将指定单位的持续时间添加到时间戳表达式。
  - timestampdiff() 和 datediff()：以指定单位计算两个时间戳表达式之间的时间差。
- Parquet-MR 已升级到 1.12.2
- 改进了对 parquet 文件中的综合架构的支持
- [SPARK-38631]使用基于 Java 的实现在 Utils.unpack 上取消 tarring
- [SPARK-38509][SPARK-38481] 挑拣三个 timestmapadd/diff 更改。
- [SPARK-38523] 修复从 CSV 引用损坏的记录列的问题
- [SPARK-38237] 允许 ClusteredDistribution 要求完整的群集密钥
- [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
- 操作系统安全更新。

Databricks Runtime 9.1 LTS

请参阅 Databricks Runtime 9.1 LTS。

2023 年 11 月 29 日
- [SPARK-45859] 将 ml.functions 中的 UDF 对象设为惰性。
- [SPARK-45544] 向 TransportContext 中集成了 SSL 支持。
- [SPARK-45730] 改进了 ReloadingX509TrustManagerSuite 的时间限制。
- 操作系统安全更新。
2023 年 11 月 14 日
- [SPARK-45545]SparkTransportConf 将在创建时继承 SSLOptions。
- [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45427] 向 SSLOptions 和 SparkTransportConf 添加了 RPC SSL 设置。
- [SPARK-45584] 修复了 TakeOrderedAndProjectExec 子查询运行失败的问题。
- [SPARK-45541] 添加了 SSLFactory。
- [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- 操作系统安全更新。
2023 年 10 月 24 日
- [SPARK-45426] 添加了对 ReloadingX509TrustManager 的支持。
- 操作系统安全更新。
2023 年 10 月 13 日
- 操作系统安全更新。
2023 年 9 月 10 日
- 其他修复。
2023 年 8 月 30 日
- 操作系统安全更新。
2023 年 8 月 15 日
- 操作系统安全更新。
2023 年 6 月 23 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- 操作系统安全更新。
2023 年 6 月 15 日
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- [SPARK-43156][SPARK-43098] 扩展禁用 decorrelateInnerQuery 时的标量子查询计数 bug 测试。
- [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 修复了 JSON 补救数据分析中的问题，以防止出现 UnknownFieldException。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-37520] 添加 startswith() 和 endswith() 字符串函数
- [SPARK-43413] 修复了 IN 子查询 ListQuery 的为 Null 性。
- 操作系统安全更新。
2023 年 5 月 17 日
- 操作系统安全更新。
2023 年 4 月 25 日
- 操作系统安全更新。
2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
2023 年 3 月 29 日
- 操作系统安全更新。
2023 年 3 月 14 日
- [SPARK-42484] 改进了 UnsafeRowUtils 的错误消息。
- 其他修复。
2023 年 2 月 28 日
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。要使操作成功，当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 操作系统安全更新。
2023 年 2 月 16 日
- 操作系统安全更新。
2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
2023 年 1 月 18 日
- 操作系统安全更新。
2022 年 11 月 29 日
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。
- 操作系统安全更新。
2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- 操作系统安全更新。
- 其他修复。
2022 年 11 月 1 日
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，会错误地为该列中的数据填充 NULL 值。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制
- [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- 操作系统安全更新。
2022 年 10 月 5 日
- 其他修复。
- 操作系统安全更新。
2022 年 9 月 22 日
- 用户可以设置 spark.conf.set（“spark.databricks.io.listKeysWithPrefix.azure.enabled”， “true”）以重新启用 ADLS 上的自动加载程序内置列表。内置列表以前因性能问题关闭，但可能已导致客户的存储成本增加。
- [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-35542] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循 spark.sql.codegen.factoryMode
- [SPARK-39962] 当组属性为空时应用投影
- 操作系统安全更新。
2022 年 8 月 9 日
- 操作系统安全更新。
2022 年 7 月 27 日
- 当源具有不确定性时，使 Delta MERGE 操作结果保持一致。
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的 lineSep
- [SPARK-39575] 在 ByteBuffer#rewind 中的 ByteBuffer#get 之后添加了 AvroDeserializer。
- [SPARK-37392] 修复了 Catalyst 优化器的性能错误。
- 操作系统安全更新。
2022 年 7 月 13 日
- [SPARK-39419]ArraySort 将在比较器返回 null 时引发异常。
- 关闭了自动加载程序对Azure上的目录列表的内置云 API 的使用。
- 操作系统安全更新。
2022 年 7 月 5 日
- 操作系统安全更新。
- 其他修复。
2022 年 6 月 15 日
- [SPARK-39283] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁。
2022 年 6 月 2 日
- [SPARK-34554] 在 copy() 中实现 ColumnarMap 方法。
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复了自动加载程序中潜在的内置泄漏。
- 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
- [SPARK-38918] 嵌套列修剪应筛除属于当前关系的属性
- [SPARK-39084] 通过使用 df.rdd.isEmpty() 在任务完成时停止迭代器来修复 TaskContext
- 操作系统安全更新。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他修复。
2022 年 4 月 6 日
- [SPARK-38631]使用基于 Java 的实现在 Utils.unpack 上取消 tarring
- 操作系统安全更新。
2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录，对用户的主目录启用表访问控制或凭据直通。以前，活动目录是 /databricks/driver。
- [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
2022 年 3 月 14 日
- [SPARK-38236] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-34069] 在本地属性 SPARK_JOB_INTERRUPT_ON_CANCEL 设置为 true 时中断任务线程。
2022 年 2 月 23 日
- [SPARK-37859] 使用 Spark 3.1 通过 JDBC 创建的 SQL 表无法通过 Spark 3.2 读取。
2022 年 2 月 8 日
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了在某些极少数情况下，Delta 表上的并发事务可能会以不可序列化的顺序提交的问题。
- 修复了启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败的问题。
2022 年 1 月 19 日
- 小问题修复和安全增强。
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的问题。
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
- 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
2021 年 10 月 20 日
- 已将 BigQuery 连接器从 0.18.1 升级为 0.22.2。这添加了对 BigNumeric 类型的支持。

Databricks Runtime 13.0

请参阅 Databricks Runtime 13.0 (EoS)。

2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-42553][SQL] 确保在 interval 之后至少一个时间单位。
- [SPARK-45178] 回退到运行源不受支持的 Trigger.AvailableNow 的单个批处理，而不是使用包装器。
- [SPARK-44658][CORE] ShuffleStatus.getMapStatus 返回 None 而不是 Some(null)。
- [SPARK-42205][CORE] 删除 JsonProtocol 中“任务/阶段”启动事件的可累积项日志记录。
- 操作系统安全更新。
2023 年 9 月 12 日
- [SPARK-44485][SQL] 优化 TreeNode.generateTreeString。
- [SPARK-44718][SQL] 将 ColumnVector 内存模式配置默认值与 OffHeapMemoryMode 配置值匹配。
- 其他 Bug 修复。
2023 年 8 月 30 日
- [SPARK-44818][Backport] 修复了初始化 taskThread 之前发出的挂起任务中断的争用。
- [SPARK-44714] 轻松限制有关查询的 LCA 解析。
- [SPARK-44245][PYTHON] pyspark.sql.dataframe sample() doctests 现在仅用来说明。
- [SPARK-44871][11.3-13.0][SQL] 修复了 percentile_disc 行为。
- 操作系统安全更新。
2023 年 8 月 15 日
- [SPARK-44643][SQL][PYTHON] 修复Row.__repr__行为空时。
- [SPARK-44504][后向移植] 维护任务在出现停止错误时清理已加载的提供程序。
- [SPARK-44479][CONNECT][PYTHON] 修复了从空结构类型进行的 protobuf 转换。
- [SPARK-44464][SS] 修复了 applyInPandasWithStatePythonRunner 以输出将 Null 作为第一列值的行。
- 其他 Bug 修复。
2023 年 7 月 29 日
- 修复了一个 bug：当为与其他外部或托管存储位置存在冲突的存储位置路径调用时，dbutils.fs.ls() 返回了 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP。
- [SPARK-44199]CacheManager 不再不必要地刷新 fileIndex。
- 操作系统安全更新。
2023 年 7 月 24 日
- [SPARK-44337][PROTOBUF] 修复了将任何字段设置为 Any.getDefaultInstance 会导致分析错误的问题。
- [SPARK-44136] [SS] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- 还原 [SPARK-42323][SQL] 将名称分配给 _LEGACY_ERROR_TEMP_2332。
- 操作系统安全更新。
2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- [SPARK-43779][SQL] ParseToDate 现在会在主线程中加载 EvalMode。
- [SPARK-42937][SQL] PlanSubqueries 应将 InSubqueryExec#shouldBroadcast 设置为 true
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 使用 SHALLOW CLONE Iceberg 和 Parquet 提高增量更新的性能。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-43300][CORE] 用于 Guava Cache 的 NonFateSharingCache 包装器。
- [SPARK-43378][CORE] 正确关闭 deserializeFromChunkedBuffer 中的流对象。
- [SPARK-16484][SQL] 使用 8 位寄存器来表示 DataSketches。
- [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43413][11.3-13.0][SQL] 修复了 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43043][CORE] 提高了 MapOutputTracker.updateMapOutput 性能。
- [SPARK-16484][SQL] 添加了对 DataSketches HllSketch 的支持。
- [SPARK-43123][SQL] 内部字段元数据不再泄漏到目录。
- [SPARK-42851][SQL] 使用 EquivalentExpressions.addExpr() 保护 supportedExpression()。
- [SPARK-43336][SQL] Timestamp 和 TimestampNTZ 之间的强制转换需要时区。
- [SPARK-43286][SQL] 更新了 aes_encrypt CBC 模式以生成随机 IV。
- [SPARK-42852][SQL] 从 NamedLambdaVariable 还原了 EquivalentExpressions 相关更改。
- [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有 Project 标记。
- [SPARK-43527][PYTHON] 修复了 PySpark 中的 catalog.listCatalogs。
- 操作系统安全更新。
2023 年 5 月 31 日
- 针对 Unity Catalog 中注册的 Delta 表的默认优化写入支持已经扩展，现包含用于已分区表的 CTAS 语句和 INSERT 操作。此行为与 SQL 仓库的默认设置保持一致。请参阅优化写入。
2023 年 5 月 17 日
- 修复了 _metadata.file_path 和 _metadata.file_name 将返回格式不正确的字符串的回归。例如，包含空格的路径现在表示为 s3://test-bucket/some%20directory/some%20data.csv，而不是 s3://test-bucket/some directory/some data.csv。
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- - 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Avro 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 自动加载程序现在会执行以下操作。
- - 正确读取，并且不再补救 Integer、Short、Byte 类型（如果提供了这些类型之一），但 Avro 文件建议使用其它两种类型之一。
- - 防止将间隔类型读取为日期或时间戳类型，以避免获取损坏的日期。
- - 防止读取精度较低的 Decimal 类型。
- [SPARK-43172] [CONNECT] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-43293][SQL] 在常规列中忽略 __qualified_access_only。
- [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性 COUNT bug。
- [SPARK-43085][SQL] 支持多部件表名称的列 DEFAULT 分配。
- [SPARK-43190][SQL] ListQuery.childOutput 现在与辅助输出保持一致。
- [SPARK-43192] [CONNECT] 删除了用户代理字符集验证。
2023 年 4 月 25 日
- 可以使用 DeltaTable.addFeatureSupport(feature_name) 修改 Delta 表以添加 Delta 表功能支持。
- SYNC 命令现在支持旧的数据源格式。
- 修复了在Python笔记本中运行任何其他命令之前使用 Python 格式化程序可能导致笔记本路径丢失sys.path.
- Azure Databricks现在支持指定 Delta 表列的默认值。 INSERT、UPDATE、DELETE 和 MERGE 命令可以使用显式 DEFAULT 关键字引用列的默认值。如果 INSERT 包含比目标表更少的列的显式列表，则相应的列默认值将替换其余列（如果未指定默认值，则替换为 NULL）。
修复了以下 bug：某些用户无法使用 Web 终端访问 /Workspace 中的文件。
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 如果提供了其中某种数据类型，自动加载程序现在可以正确读取，而不再补救 Integer、Short、Byte 类型。 Parquet 文件建议使用其他两种类型之一。如果先前已启用补救数据列，则数据类型不匹配会导致补救列，即使这些列是可读的。
- 修复了以下 bug：在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储。
- [SPARK-39221][SQL] 正确编辑 thrift 服务器作业/阶段选项卡的敏感信息。
- [SPARK-42971][CORE] 当工作器处理 workdir 事件时，如果 appDirs 为 null，则更改为输出 WorkDirCleanup。
- [SPARK-42936][SQL] 修复当 having 子句可以直接由其子聚合解析时的 LCA bug。
- [SPARK-43018][SQL] 修复带时间戳文本的 INSERT 命令的 bug。
- 还原 [SPARK-42754][SQL][UI] 修复嵌套 SQL 运行中的后向兼容性问题。
- 还原 [SPARK-41498] 通过并集传播元数据。
- [SPARK-43038][SQL] 通过 aes_encrypt()/aes_decrypt() 支持 CBC 模式。
- [SPARK-42928][SQL] 使 resolvePersistentFunction 同步。
- [SPARK-42521][SQL] 使用数量少于目标表的列的用户指定列表为 NULL 添加 INSERT 值。
- [SPARK-41391][SQL] groupBy.agg(count_distinct) 的输出列名称不正确。
- [SPARK-42548][SQL] 添加 ReferenceAllColumns 以跳过重写属性。
- [SPARK-42423][SQL] 添加元数据列文件块开头和长度。
- [SPARK-42796][SQL] 支持访问 TimestampNTZ 中的 CachedBatch 列。
- [SPARK-42266][PYTHON] 使用 IPython 时删除运行的 shell.py 中的父目录。
- [SPARK-43011][SQL] array_insert 应该失败，索引为 0。
- [SPARK-41874][CONNECT][PYTHON] 支持 Spark Connect 中的 SameSemantics。
- [SPARK-42702][SPARK-42623][SQL] 在子查询和 CTE 中支持参数化查询。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 操作系统安全更新。

Databricks Runtime 12.1

请参阅 Databricks Runtime 12.1 (EoS)。

2023 年 6 月 23 日
- 操作系统安全更新。
2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779][SQL] ParseToDate 现在会在主线程中加载 EvalMode。
- [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 使用 SHALLOW CLONE Iceberg 和 Parquet 提高增量更新的性能。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0][SQL] 修复了 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-42444][PYTHON] DataFrame.drop 现在可正确处理重复列。
- [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有 Project 标记。
- [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42937][SQL] PlanSubqueries 现在会将 InSubqueryExec#shouldBroadcast 设置为 true。
- [SPARK-43527][PYTHON] 修复了 PySpark 中的 catalog.listCatalogs。
- [SPARK-43378][CORE] 正确关闭 deserializeFromChunkedBuffer 中的流对象。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Avro 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 自动加载程序现在会执行以下操作。
- - 正确读取，并且不再补救 Integer、Short、Byte 类型（如果提供了这些类型之一），但 Avro 文件建议使用其它两种类型之一。
- - 防止将间隔类型读取为日期或时间戳类型，以避免获取损坏的日期。
- - 防止读取精度较低的 Decimal 类型。
- [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性 COUNT bug。
- [SPARK-43190][SQL] ListQuery.childOutput 现在与辅助输出保持一致。
- 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 如果提供了其中某种数据类型，自动加载程序现在可以正确读取，而不再补救 Integer、Short、Byte 类型。 Parquet 文件建议使用其他两种类型之一。如果先前已启用补救数据列，则数据类型不匹配会导致补救列，即使这些列是可读的。
- [SPARK-43009][SQL] 使用 sql() 常数参数化 Any。
- [SPARK-42971][CORE] 当工作器处理 workdir 事件时，如果 appDirs 为 null，则更改为输出 WorkDirCleanup。
- 操作系统安全更新。
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug：在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使 resolvePersistentFunction 同步。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 操作系统安全更新。
2023 年 3 月 29 日
- 自动加载程序现在对 Trigger.AvailableNow 流触发至少一个同步 RocksDB 日志清理操作，确保可以定期清理检查点，以快速运行自动加载程序流。这可能会导致某些流在关闭之前花费更长时间，但会节省存储成本并改善将来的运行的自动加载程序体验。
- 现在可以使用 DeltaTable.addFeatureSupport(feature_name) 修改 Delta 表以添加表功能的支持。
- [SPARK-42702][SPARK-42623][SQL] 在子查询和 CTE 中支持参数化查询
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
2023 年 3 月 14 日
- 使用表属性向 Delta 表添加功能的术语发生了变化。首选语法现在是 'delta.feature.featureName'='supported' 而不是 'delta.feature.featureName'='enabled'。为了后向兼容，现在仍可使用 'delta.feature.featureName'='enabled'，并且今后可继续使用。
- [SPARK-42622][CORE] 禁用值的替换
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- 操作系统安全更新。
2023 年 2 月 24 日
- 现在可以使用一组统一的选项（host、port、database、user、password）连接到查询联合中支持的数据源（PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server）。请注意，port 是可选的，如果未提供，将为每个数据源使用默认端口号。
PostgreSQL 连接配置示例
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
Snowflake 连接配置示例
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- [SPARK-41989][PYTHON] 避免破坏 pyspark.pandas 的日志记录配置
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- [SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用 FieldReference.column 而不是 apply
- 还原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化，用于规范化大型可交换表达式树
- 操作系统安全更新。
2023 年 2 月 16 日
- SYNC 命令支持同步重新创建的 Hive 元存储表。如果 HMS 表之前已同步到 Unity Catalog，但随后被删除并重新创建，则后续的重新同步将会运行，而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- [SPARK-36173][CORE] 支持在 TaskContext 中获取 CPU 数
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
2023 年 1 月 31 日
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- [SPARK-41581][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] 修复 kafka 测试以验证丢失的分区，从而分析 Kafka 操作缓慢的原因
- [SPARK-41580][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] 通过 sql() 支持参数化 SQL
- [SPARK-41579][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][跟进] 修复 ConvertToLocalRelation 的代码同步回归
- [SPARK-41576][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] 将名称分配到 _LEGACY_ERROR_TEMP_2054
- 操作系统安全更新。

Databricks Runtime 12.0

请参阅 Databricks Runtime 12.0 (EoS)。

2023 年 6 月 15 日
- 已光子化 approx_count_distinct。
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43156][SPARK-43098][SQL] 在禁用 decorrelateInnerQuery 的情况下扩展标量子查询计数 bug 测试
- [SPARK-43779][SQL] ParseToDate 现在会在主线程中加载 EvalMode。
- 操作系统安全更新。
2023 年 6 月 2 日
- failOnUnknownFields 模式下的 JSON 分析程序丢弃 DROPMALFORMED 模式下的记录，并在 FAILFAST 模式下直接失败。
- 使用 SHALLOW CLONE Iceberg 和 Parquet 提高增量更新的性能。
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
- [SPARK-42444][PYTHON] DataFrame.drop 现在可正确处理重复列。
- [SPARK-43404][Backport] 不再对相同版本的 RocksDB 状态存储重用 sst 文件，以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0][SQL] 修复了 IN 子查询 ListQuery 的为 Null 性。
- [SPARK-43527][PYTHON] 修复了 PySpark 中的 catalog.listCatalogs。
- [SPARK-43522][SQL] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43541][SQL] 在解析表达式和缺失列时传播所有 Project 标记。
- [SPARK-43340][CORE] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42937][SQL] PlanSubqueries 将 InSubqueryExec#shouldBroadcast 设置为 true。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Avro 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 自动加载程序现在会执行以下操作。
- - 正确读取，并且不再补救 Integer、Short、Byte 类型（如果提供了这些类型之一），但 Avro 文件建议使用其它两种类型之一。
- - 防止将间隔类型读取为日期或时间戳类型，以避免获取损坏的日期。
- - 防止读取精度较低的 Decimal 类型。
- [SPARK-43172] [CONNECT] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-41520][SQL] 拆分 AND_OR 树模式以区分 AND 和 OR。
- [SPARK-43098][SQL] 修复了按子句对标量子查询进行分组时的正确性 COUNT bug。
- [SPARK-43190][SQL] ListQuery.childOutput 现在与辅助输出保持一致。
- 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 如果提供了其中某种数据类型，自动加载程序现在可以正确读取，而不再补救 Integer、Short、Byte 类型。 Parquet 文件建议使用其他两种类型之一。如果先前已启用补救数据列，则数据类型不匹配会导致补救列，即使这些列是可读的。
- [SPARK-42971][CORE] 当工作器处理 workdir 事件时，如果 appDirs 为 null，则更改为输出 WorkDirCleanup
- 操作系统安全更新。
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug：在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使 resolvePersistentFunction 同步。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 操作系统安全更新。
2023 年 3 月 29 日
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- 其他 Bug 修复。
2023 年 3 月 14 日
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-42622][CORE] 禁用值的替换
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- 操作系统安全更新。
2023 年 2 月 24 日
- 查询联合的标准化连接选项
  
  现在可以使用一组统一的选项（host、port、database、user、password）连接到查询联合中支持的数据源（PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server）。请注意，port 是可选的，如果未提供，将为每个数据源使用默认端口号。
  
  PostgreSQL 连接配置示例
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
  Snowflake 连接配置示例
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- 还原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化，用于规范化大型可交换表达式树
- [SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用 FieldReference.column 而不是 apply
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- 操作系统安全更新。
2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。要使操作成功，当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。如果 HMS 表之前已同步到 Unity Catalog，但随后被删除并重新创建，则后续的重新同步将会运行，而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-36173][CORE] 支持在 TaskContext 中获取 CPU 数
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修复过度计划的任务
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
2023 年 1 月 25 日
- [SPARK-41660][SQL] 仅在使用元数据列时才传播这些列
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- [SPARK-41669][SQL] canCollapseExpressions 中的早期修剪
- 操作系统安全更新。
2023 年 1 月 18 日
- REFRESH FUNCTION SQL 命令现在支持 SQL 函数和 SQL 表函数。例如，该命令可用于刷新在另一个 SQL 会话中更新的持久性 SQL 函数。
- Java数据库连接（JDBC）数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。此功能默认处于启用状态，可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- 在旧的表 ACL 群集中，创建引用 JVM 类的函数现在需要 MODIFY_CLASSPATH 特权。
- Java数据库连接（JDBC）数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。此功能默认处于启用状态，可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- 当列名包含无效字符（如空格或分号）时，Azure Synapse连接器现在返回更具描述性的错误消息。在这种情况下，将返回以下消息：Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace。
- Spark 结构化流式处理现在可对作为源的 Delta Sharing 表使用 format("deltasharing")。
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- [SPARK-41733][SQL][SS] 对 ResolveWindowTime 规则应用基于树模式的修剪
- [SPARK-39591][SS] 异步进度跟踪
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41261][PYTHON][SS] 修复当分组键的列未按从早到晚的时间顺序排列时 applyInPandasWithState 的问题
- 操作系统安全更新。
2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时，Parquet 扫描现在对 OOM 具有强大的性能。对文件元数据进行分析文件，以抢先降低批大小，并在任务重试时再次降低，作为最终的安全网。
- 修复了在群集初始化期间未能连接到元存储后导致Azure Databricks作业保持的回归。
- [SPARK-41520][SQL] 拆分 AND_OR 树模式以区分 AND 和 OR。
- [SPARK-43190][SQL] ListQuery.childOutput 现在与辅助输出保持一致。
- 操作系统安全更新。
2023 年 4 月 25 日
- 如果仅使用 failOnUnknownFields 选项或者在 failOnNewColumns 架构演化模式下使用自动加载程序读取 Parquet 文件，则具有不同数据类型的列将被读取为 null，而不是引发一个错误，指出该文件不可读取。这些读取操作现在会失败并建议用户使用 rescuedDataColumn 选项。
- 如果提供了其中某种数据类型，自动加载程序现在可以正确读取，而不再补救 Integer、Short、Byte 类型。 Parquet 文件建议使用其他两种类型之一。如果先前已启用补救数据列，则数据类型不匹配会导致补救列，即使这些列是可读的。
- [SPARK-42937][SQL] PlanSubqueries 现在会将 InSubqueryExec#shouldBroadcast 设置为 true。
- 操作系统安全更新。
2023 年 4 月 11 日
- 在 SYNC 命令中支持旧数据源格式。
- 修复存储库外部的笔记本中的 %autoreload 行为 bug。
- 修复了以下 bug：在嵌套 JSON 对象的架构中检测到新列时，自动加载程序架构演变可能会进入无限失败循环。
- [SPARK-42928][SQL] 使 resolvePersistentFunction 同步。
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
2023 年 3 月 29 日
- [SPARK-42794][SS] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流中的 RocksDB 状态存储
- [SPARK-42403][CORE] JsonProtocol 应处理 null JSON 字符串
- [SPARK-42668][SS] 尝试关闭 HDFSStateStoreProvider 中的压缩流中止时捕获异常
- 操作系统安全更新。
2023 年 3 月 14 日
- [SPARK-42635][SQL] 修复 TimestampAdd 表达式。
- [SPARK-41793][SQL] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] [SQL] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42534][SQL] 修复 DB2Dialect Limit 子句
- [SPARK-41162][SQL] 修复使用聚合的自联接的反联接和半联接
- [SPARK-42516][SQL] 在创建视图时始终捕获会话时区配置
- 其他 Bug 修复。
2023 年 2 月 28 日
- 查询联合的标准化连接选项
  
  现在可以使用一组统一的选项（host、port、database、user、password）连接到查询联合中支持的数据源（PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server）。请注意，port 是可选的，如果未提供，将为每个数据源使用默认端口号。
  
  PostgreSQL 连接配置示例
```
CREATE TABLE postgresql_table
USING postgresql
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  database '<database-name>',
  user '<user>',
  password secret('scope', 'key')
);
```
  Snowflake 连接配置示例
```
CREATE TABLE snowflake_table
USING snowflake
OPTIONS (
  dbtable '<table-name>',
  host '<host-name>',
  port '<port-number>',
  database '<database-name>',
  user secret('snowflake_creds', 'my_username'),
  password secret('snowflake_creds', 'my_password'),
  schema '<schema-name>',
  sfWarehouse '<warehouse-name>'
);
```
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
- [SPARK-41989][PYTHON] 避免破坏 pyspark.pandas 的日志记录配置
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- [SPARK-41360][CORE] 避免当执行程序丢失时重新注册 BlockManager
- [SPARK-42162] 引入 MultiCommutativeOp 表达式作为内存优化，用于规范化大型可交换表达式树
- [SPARK-41990][SQL] 在 V1 到 V2 筛选器转换中使用 FieldReference.column 而不是 apply
- 操作系统安全更新。
2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。要使操作成功，当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。如果 HMS 表之前已同步到 Unity Catalog，但随后被删除并重新创建，则后续的重新同步将会运行，而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- [SPARK-40382][SQL] 在 RewriteDistinctAggregates 中按语义上等效的子项对不同的聚合表达式进行分组
- 操作系统安全更新。
2023 年 1 月 25 日
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- [SPARK-41660][SQL] 仅在使用元数据列时才传播这些列
- [SPARK-41669][SQL] canCollapseExpressions 中的早期修剪
- 其他 Bug 修复。
2023 年 1 月 18 日
- REFRESH FUNCTION SQL 命令现在支持 SQL 函数和 SQL 表函数。例如，该命令可用于刷新在另一个 SQL 会话中更新的持久性 SQL 函数。
- Java数据库连接（JDBC）数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。此功能默认处于启用状态，可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- Java数据库连接（JDBC）数据源 v1 现在支持 LIMIT 子句下推以提高查询的性能。此功能默认处于启用状态，可以通过将 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 设置为 false 来禁用它。
- 当列名包含无效字符（如空格或分号）时，Azure Synapse连接器现在返回更具描述性的错误消息。在这种情况下，将返回以下消息：Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace。
- [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-39591][SS] 异步进度跟踪
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41261][PYTHON][SS] 修复当分组键的列未按从早到晚的时间顺序排列时 applyInPandasWithState 的问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时，用户可以配置前导和尾部空格的行为。已添加以下选项来控制空格处理：
  - csvignoreleadingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除前导空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
  - csvignoretrailingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除尾部空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。
- 将 snowflake-jdbc 依赖项升级到了版本 3.13.22。
- JDBC 表的表类型现在默认为 EXTERNAL。
- [SPARK-40906][SQL] 在插入到 Map 之前 Mode 应复制键
- 操作系统安全更新。
2022 年 11 月 15 日
- 表 ACL 和 UC 共享群集现在允许从 Python 执行 Dataset.toJSON 方法。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析，当记录的一部分与架构不匹配时，记录的其余部分仍可正常分析，而不会返回 null。若要选择启用改进的行为，请将 spark.sql.json.enablePartialResults 设置为 true。默认已禁用该标志以保留原始行为
- [SPARK-40903][SQL] 如果数据类型发生更改，将避免重新排序十进制加法以符合标准化
- [SPARK-40618][SQL] 修复了包含使用引用跟踪的嵌套子查询的 MergeScalarSubqueries 规则中的 bug
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- 操作系统安全更新。
2022 年 11 月 1 日
- Unity Catalog 中的结构化流式处理现在支持刷新临时访问令牌。在初始令牌过期后，使用 Unity Catalog 通用或作业群集运行的流式处理工作负载将不再失败。
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，将错误地为该列中的数据填充 NULL 值。
- 修复了以下问题：运行 MERGE 并在条件中恰好使用源中的 99 列可能导致 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制。
- 已将 Apache commons-text 升级到 1.10.0。
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] 添加了对 CloudWatch MetricsLevel 配置的支持
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- [SPARK-40670][SS][PYTHON] 修复了当输入架构包含“不可为 null”列时 applyInPandasWithState 中的 NPE
- 操作系统安全更新。

Databricks Runtime 11.2

请参阅 Databricks Runtime 11.2 (EoS)。

2023 年 2 月 28 日
- [SPARK-42286][SQL] 使用 CAST 回退到复杂表达式的先前 codegen 代码路径
- [SPARK-42346][SQL] 在子查询合并后重写非重复性聚合
- 操作系统安全更新。
2023 年 2 月 16 日
- 用户现在可以使用 Databricks Runtime 9.1 或更高版本读取和写入某些需要读取器版本 3 和写入器版本 7 的 Delta 表。要使操作成功，当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- SYNC 命令支持同步重新创建的 Hive 元存储表。如果 HMS 表之前已同步到 Unity Catalog，但随后被删除并重新创建，则后续的重新同步将会运行，而不是引发 TABLE_ALREADY_EXISTS 状态代码。
- [SPARK-41219][SQL] IntegralDivide 使用 decimal(1, 0) 表示 0
- 操作系统安全更新。
2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
2023 年 1 月 18 日
- 当列名包含无效字符（如空格或分号）时，Azure Synapse连接器现在返回更具描述性的错误消息。在这种情况下，将返回以下消息：Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace。
- [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41539][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时，用户可以配置前导和尾部空格的行为。已添加以下选项来控制空格处理：
  - csvignoreleadingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除前导空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
  - csvignoretrailingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除尾部空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。
- [SPARK-40906][SQL] 在插入到 Map 之前 Mode 应复制键
- 操作系统安全更新。
2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析，当记录的一部分与架构不匹配时，记录的其余部分仍可正常分析，而不会返回 null。若要选择启用改进的行为，请将 spark.sql.json.enablePartialResults 设置为 true。默认已禁用该标志以保留原始行为
- [SPARK-40618][SQL] 修复了包含使用引用跟踪的嵌套子查询的 MergeScalarSubqueries 规则中的 bug
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- 操作系统安全更新。
2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，将错误地为该列中的数据填充 NULL 值。
- 修复了以下问题：运行 MERGE 并在条件中恰好使用源中的 99 列可能导致 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 19 日
- 修复了已启用 Unity Catalog 的群集/仓库上的临时凭据的 COPY INTO 使用问题。
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
2022 年 10 月 5 日
- 用户可以设置 spark.conf.set（“spark.databricks.io.listKeysWithPrefix.azure.enabled”， “true”）以重新启用 ADLS 上 Auto Loader 的本机列出功能。原生列表以前因性能问题关闭，但可能已导致客户的存储成本增加。在以前的维护更新中，此更改已推出到 Databricks Runtime 10.4 和 9.1。
- [SPARK-40315][SQL]支持将 URL 编码/解码为内置函数并整理与 URL 相关的函数
- [SPARK-40156][SQL]url_decode() 应返回错误类
- [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择 _metadata 时的流式处理指标
- [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- [SPARK-40055][SQL] 即使 spark_catalog 实现是 defaultSessionCatalog，listCatalogs 也应返回 spark_catalog
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40389][SQL] 如果转换可以溢出，则小数不能向上转换为整型类型
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠，以避免计划中嵌入不可序列化的文本
- [SPARK-40066][SQL][FOLLOW-UP] 在获取 dataType 之前检查 ElementAt 是否已解析
- [SPARK-40109][SQL] 新 SQL 函数：get()
- [SPARK-40066][SQL] ANSI 模式：对映射列的访问无效时始终返回 null
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-35542][ML] 修复：为具有参数的多个列创建的 Bucketizer
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
- [SPARK-39912]SPARK-39828[SQL] 优化 CatalogImpl

Databricks Runtime 11.1

请参阅 Databricks Runtime 11.1 (EoS)。

2023 年 1 月 31 日
- [SPARK-41379][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
- 其他 Bug 修复。
2023 年 1 月 18 日
- 当列名包含无效字符（如空格或分号）时，Azure Synapse连接器现在返回更具描述性的错误消息。在这种情况下，将返回以下消息：Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace。
- [SPARK-41198][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
- [SPARK-41862][SQL] 修复与 Orc 阅读器中的默认值相关的正确性 bug
- [SPARK-41199][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41339][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
- [SPARK-41732][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
- [SPARK-38277][SS] RocksDB 状态存储提交后清除写入批
- 操作系统安全更新。
2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时，用户可以配置前导和尾部空格的行为。已添加以下选项来控制空格处理：
  - csvignoreleadingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除前导空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
  - csvignoretrailingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除尾部空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。
- [SPARK-39650][SS] 修复了后向兼容性的流式处理删除重复中不正确的值架构
- 操作系统安全更新。
2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析，当记录的一部分与架构不匹配时，记录的其余部分仍可正常分析，而不会返回 null。若要选择启用改进的行为，请将 spark.sql.json.enablePartialResults 设置为 true。默认已禁用该标志以保留原始行为
- 操作系统安全更新。
2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，将错误地为该列中的数据填充 NULL 值。
- 修复了以下问题：运行 MERGE 并在条件中恰好使用源中的 99 列可能导致 java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- 修复了已启用 Unity Catalog 的群集/仓库上的临时凭据的 COPY INTO 使用问题。
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
2022 年 10 月 5 日
- 用户可以设置 spark.conf.set（“spark.databricks.io.listKeysWithPrefix.azure.enabled”， “true”）以重新启用 ADLS 上 Auto Loader 的本机列出功能。原生列表以前因性能问题关闭，但可能已导致客户的存储成本增加。在以前的维护更新中，此更改已推出到 Databricks Runtime 10.4 和 9.1。
- [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择 _metadata 时的流式处理指标
- [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- [SPARK-40055][SQL] 即使 spark_catalog 实现是 defaultSessionCatalog，listCatalogs 也应返回 spark_catalog
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠，以避免计划中嵌入不可序列化的文本
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
2022 年 9 月 6 日
- 我们已更新表访问控制（表 ACL）中的权限模型，因此只需要 MODIFY 权限便可使用 ALTER TABLE 来更改表的架构或属性。以前，这些操作要求用户拥有该表。授予表权限、更改表所有者、更改表位置或重命名表仍需要所有权。此更改使表 ACL 的权限模型与 Unity Catalog 更加一致。
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 向需要Python运行时环境的动态取消案例添加 assume
- [SPARK-35542][CORE][ML] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- 共享、提供程序和收件人现在支持 SQL 命令来更改所有者、批注、重命名
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39912][SPARK-39828][SQL] 优化 CatalogImpl
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39867][SQL] 全局限制不应继承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- [SPARK-39839][SQL] 在 UnsafeRow 结构完整性检查中处理特殊情况下的 null 可变长度十进制与非零 offsetAndSize
- [SPARK-39713][SQL] ANSI 模式：添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
- [SPARK-39847][SS] 修复了 RocksDBLoader.loadLibrary() 中的争用条件（如果调用方线程中断）
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
2022 年 8 月 10 日
- 对于具有表访问控制的 Delta 表，通过 DML 语句（例如 INSERT 和 MERGE）的自动架构演变现可供对此类表具有 MODIFY 权限的所有用户使用。此外，使用 COPY INTO 执行架构演变所需的权限现在从 OWNER 降低为 MODIFY，以便与其他命令保持一致。这些更改使表 ACL 安全模型与 Unity 目录安全模型以及替换表等其他操作更加一致。
- [SPARK-39889] 增强“除数为 0”的错误消息
- [SPARK-39795] [SQL] 新 SQL 函数：try_to_timestamp
- [SPARK-39749] 在 ANSI 模式下将十进制转换为字符串时，始终使用纯字符串表示形式
- [SPARK-39625] 将 df.as 重命名为 df.to
- [SPARK-39787] [SQL] 在函数 to_timestamp 分析错误中使用错误类
- [SPARK-39625] [SQL] 添加 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的 lineSep
- [SPARK-39579] [ SQL][python][R] 使 ListFunctions/getFunction/functionExists 与 3 层命名空间兼容
- [SPARK-39702] [CORE] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575] [AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39265] [SQL] 修复启用 SPARK_ANSI_SQL_MODE 时的测试失败
- [SPARK-39441] [SQL] 加快 DeduplicateRelations
- [SPARK-39497] [SQL] 优化缺少映射键列的分析异常
- [SPARK-39476] [SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39434] [SQL] 在数组索引超出范围时提供运行时错误查询上下文

Databricks Runtime 11.0

请参阅 Databricks Runtime 11.0 (EoS)。

2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时，用户可以配置前导和尾部空格的行为。已添加以下选项来控制空格处理：
  - csvignoreleadingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除前导空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
  - csvignoretrailingwhitespace，设置为 true 时，如果 tempformat 设置为 CSV 或 CSV GZIP，则会在写入期间从值中删除尾部空格。当 config 设置为 false 时保留空格。默认情况下，该值为 true。
- 修复了当所有列保留为字符串（cloudFiles.inferColumnTypes 未设置或设置为 false）且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析 bug。
- [SPARK-39650][SS] 修复了后向兼容性的流式处理删除重复中不正确的值架构
- 操作系统安全更新。
2022 年 11 月 15 日
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析，当记录的一部分与架构不匹配时，记录的其余部分仍可正常分析，而不会返回 null。若要选择启用改进的行为，请将 spark.sql.json.enablePartialResults 设置为 true。默认已禁用该标志以保留原始行为。
2022 年 11 月 1 日
- 已将 Apache commons-text 升级到 1.10.0。
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，将错误地为该列中的数据填充 NULL 值。
- 修复了自动加载程序的以下问题：启用 allowOverwrites 时，文件可能在同一个微批中复制
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- 操作系统安全更新。
2022 年 10 月 5 日
- 用户可以设置 spark.conf.set（“spark.databricks.io.listKeysWithPrefix.azure.enabled”， “true”）以重新启用 ADLS 上 Auto Loader 的本机列出功能。原生列表以前因性能问题关闭，但可能已导致客户的存储成本增加。在以前的维护更新中，此更改已推出到 Databricks Runtime 10.4 和 9.1。
- [SPARK-40169] 不要下推不引用数据架构的 Parquet 筛选器
- [SPARK-40460][SS] 修复选择 _metadata 时的流式处理指标
- [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠，以避免计划中嵌入不可序列化的文本
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- [SPARK-40152][SQL] 修复 split_part codegen 编译问题
2022 年 9 月 6 日
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-40212][SQL] SparkSQL castPartValue 无法正确处理 byte、short 或 float 类型
- [SPARK-40218][SQL] GROUPING SETS 应保留分组列
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 向需要Python运行时环境的动态取消案例添加 assume
- [SPARK-35542][CORE][ML] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39867][SQL] 全局限制不应继承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- 操作系统安全更新。
2022 年 8 月 9 日
- [SPARK-39713][SQL] ANSI 模式：添加有关对 INVALID_ARRAY_INDEX 错误使用 try_element_at 的建议
- [SPARK-39847] 修复 RocksDBLoader.loadLibrary() 中的争用条件（如果调用方线程中断）
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- [SPARK-39889] 增强“除数为 0”的错误消息
- [SPARK-39795][SQL] 新 SQL 函数：try_to_timestamp
- [SPARK-39749] 在 ANSI 模式下将十进制转换为字符串时，始终使用纯字符串表示形式
- [SPARK-39625][SQL] 添加 Dataset.to(StructType)
- [SPARK-39787][SQL] 在函数 to_timestamp 分析错误中使用错误类
- 操作系统安全更新。
2022 年 7 月 27 日
- [SPARK-39689]在 CSV 数据源中支持 2 个字符lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575][AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39497][SQL] 优化缺少映射键列的分析异常
- [SPARK-39441][SQL] 加快 DeduplicateRelations
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39434][SQL] 在数组索引超出范围时提供运行时错误查询上下文
- [SPARK-39570][SQL] 内联表应该允许带有别名的表达式
- 操作系统安全更新。
2022 年 7 月 13 日
- 当源不具有确定性时，使 Delta MERGE 操作结果保持一致。
- 修复了在非 DBFS 路径上运行时 cloud_files_state TVF 出现的问题。
- 禁用了自动加载程序对 Azure 上的目录列表使用本机云 API。
- [SPARK-38796] [SQL] 更新 to_number 和 try_to_number 函数以允许具有正数的 PR
- [SPARK-39272][SQL] 将查询上下文的起始位置增加 1
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 操作系统安全更新。
2022 年 7 月 5 日
- 改进了一系列错误类的错误消息。
- [SPARK-39451][SQL] 支持在 ANSI 模式下将间隔转换为整型
- [SPARK-39361] 不要在默认日志记录配置中使用 Log4J2 的扩展可引发转换模式
- [SPARK-39354][SQL] 确保显示 Table or view not found，即使同时存在与 dataTypeMismatchError 相关的 Filter
- [SPARK-38675][CORE] 修复 BlockInfoManager 解锁期间的争用问题
- [SPARK-39392][SQL] 优化 try_* 函数提示的 ANSI 错误消息
- [SPARK-39214][SQL][3.3] 改进与 CAST 相关的错误
- [SPARK-37939][SQL] 在属性的分析错误中使用错误类
- [SPARK-39085][SQL] 将错误消息 INCONSISTENT_BEHAVIOR_CROSS_VERSION 移动到 error-classes.json
- [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时，Spark 不应检查字段名称
- 操作系统安全更新。

Databricks Runtime 10.5

请参阅 Databricks Runtime 10.5 (EoS)。

2022 年 11 月 1 日
- 修复了以下问题：如果 Delta 表包含名为 _change_type 的用户定义列，但在该表上禁用了更改数据馈送，则在运行 MERGE 时，将错误地为该列中的数据填充 NULL 值。
- [SPARK-40697][SQL] 添加了读取端字符填充以包括外部数据文件
- [SPARK-40596][CORE] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
2022 年 10 月 18 日
- 操作系统安全更新。
2022 年 10 月 5 日
- 用户可以设置 spark.conf.set（“spark.databricks.io.listKeysWithPrefix.azure.enabled”， “true”）以重新启用 ADLS 上 Auto Loader 的本机列出功能。原生列表以前因性能问题关闭，但可能已导致客户的存储成本增加。在以前的维护更新中，此更改已推出到 Databricks Runtime 10.4 和 9.1。
- reload4j 已升级到 1.2.19 以修复漏洞。
- [SPARK-40460][SS] 修复选择 _metadata 时的流式处理指标
- [SPARK-40468][SQL] 选中 _corrupt_record 时修复 CSV 中的删除列
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40213][SQL] 支持拉丁语 - 1 字符的 ASCII 值转换
- [SPARK-40380][SQL] 修复 InvokeLike 的常量折叠，以避免计划中嵌入不可序列化的文本
- [SPARK-38404][SQL] 当嵌套 CTE 引用外部 CTE 时改进 CTE 解析
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
- [SPARK-39887][SQL] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 操作系统安全更新。
2022 年 9 月 6 日
- [SPARK-40235][CORE] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-39976] [SQL] ArrayIntersect 应正确处理左表达式中的 null
- [SPARK-40053][CORE][SQL][TESTS] 向需要Python运行时环境的动态取消案例添加 assume
- [SPARK-35542][CORE][ML] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 不要在驱动程序上缓存未序列化的广播关系
- [SPARK-39775][CORE][AVRO] 在分析 Avro 架构时禁用验证默认值
- [SPARK-39806] 修复了在已分区表上访问 METADATA 结构的查询崩溃的问题
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- [SPARK-37643][SQL] 当 charVarcharAsString 为 True 时，对于 char 数据类型谓词查询，应跳过 rpadding 规则
- 操作系统安全更新。
2022 年 8 月 9 日
- [SPARK-39847] 修复 RocksDBLoader.loadLibrary() 中的争用条件（如果调用方线程中断）
- [SPARK-39731][SQL] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
2022 年 7 月 27 日
- [SPARK-39625][SQL] 添加 Dataset.as(StructType)
- [SPARK-39689]在 CSV 数据源中支持 2 个字符lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39570][SQL] 内联表应该允许带有别名的表达式
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- [SPARK-39575][AVRO] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- 操作系统安全更新。
2022 年 7 月 13 日
- 当源不具有确定性时，使 Delta MERGE 操作结果保持一致。
- [SPARK-39355][SQL] 单列使用引号构造 UnresolvedAttribute
- [SPARK-39548][SQL] 具有窗口子句查询的 CreateView 命令遇到找不到错误的窗口定义问题
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 禁用了自动加载程序对 Azure 上的目录列表使用本机云 API。
- 操作系统安全更新。
2022 年 7 月 5 日
- [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时，Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718][SQL][FOLLOWUP] 修复 CollapseProject 中的 isExtractOnly 检查
2022 年 6 月 2 日
- [SPARK-39166][SQL] 在 WSCG 关闭时为二进制算术提供运行时错误查询上下文
- [SPARK-39093][SQL] 避免在将年-月间隔或日期-时间间隔除以整数时出现 codegen 编译错误
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-38868][SQL] 优化外部联接时不要传播来自筛选器谓词的异常
- [SPARK-38796][SQL] 根据新规范实现 to_number 和 try_to_number SQL 函数
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-38929] [SQL] 改进 ANSI 模式下强制转换失败的错误消息
- [SPARK-38926][SQL] SQL 样式的错误消息中的输出类型
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268][SQL] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38908][SQL] 在运行时错误中提供从字符串转换为数字/日期/时间戳/布尔值的查询上下文
- [SPARK-39046][SQL] 如果 TreeNode.origin 设置错误，则返回空上下文字符串
- [SPARK-38974][SQL] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38762][SQL] 在十进制溢出错误中提供查询上下文
- [SPARK-38931][SS] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录，其中密钥数未知
- [SPARK-38992][CORE] 避免在 ShellBasedGroupsMappingProvider 中使用 bash -c
- [SPARK-38716][SQL] 在映射键不存在错误中提供查询上下文
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- [SPARK-38698][SQL] 在 Divide/Div/Reminder/Pmod 的运行时错误中提供查询上下文
- [SPARK-38823][SQL] 使 NewInstance 不可折叠以修复聚合缓冲区损坏问题
- [SPARK-38809][SS] 在流间联接的对称哈希实现中实现跳过 null 值的选项
- [SPARK-38676][SQL] 在 Add/Subtract/Multiply 的运行时错误消息中提供 SQL 查询上下文
- [SPARK-38677][PYSPARK] Python MonitorThread 应检测到由于阻止 I/O 而导致死锁
- 操作系统安全更新。

Databricks Runtime 10.3

请参阅 Databricks Runtime 10.3 （EoL）。

2022 年 7 月 27 日
- [SPARK-39689]在 CSV 数据源中支持 2 个字符lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的
- [SPARK-39702][核心] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销
- 操作系统安全更新。
2022 年 7 月 20 日
- 当源不具有确定性时，使 Delta MERGE 操作结果保持一致。
- [SPARK-39476][SQL] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开转换优化
- [SPARK-39548][SQL] 具有窗口子句查询的 CreateView 命令遇到找不到错误的窗口定义问题
- [SPARK-39419][SQL] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题
- 操作系统安全更新。
2022 年 7 月 5 日
- [SPARK-39376][SQL] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时，Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
- [SPARK-36718][SQL][FOLLOWUP] 修复 CollapseProject 中的 isExtractOnly 检查
2022 年 6 月 2 日
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-37593][CORE] 如果使用 G1GC 和 ON HEAP，则通过 LONG ARRAY OFFSET 减少默认页面大小
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-32268][SQL] 在 injectBloomFilter 中添加 ColumnPruning
- [SPARK-38974][SQL] 在列表函数中使用给定的数据库名称筛选已注册的函数
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- 操作系统安全更新。
2022 年 5 月 4 日
- 已Java AWS SDK 版本 1.11.655 升级到 1.12.1899。
2022 年 4 月 19 日
- [SPARK-38616][SQL] 跟踪 Catalyst TreeNode 中的 SQL 查询文本
- 操作系统安全更新。
2022 年 4 月 6 日
- [SPARK-38631][CORE] 在 Utils.unpack 中使用基于 Java 的实现取消 tarring
- 操作系统安全更新。
2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录，对用户的主目录启用表访问控制或凭据直通。以前，工作目录是 /databricks/driver。
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式：避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从 SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
2022 年 2 月 23 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称

Databricks Runtime 10.2

请参阅 Databricks Runtime 10.2 （EoL）。

2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时，Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
2022 年 6 月 2 日
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- [SPARK-38990][SQL] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- [SPARK-38931][SS] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录，其中密钥数未知
- 操作系统安全更新。
2022 年 5 月 4 日
- 已Java AWS SDK 版本 1.11.655 升级到 1.12.1899。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 6 日
- [SPARK-38631][CORE] 在 Utils.unpack 中使用基于 Java 的实现取消 tarring
- 操作系统安全更新。
2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录，对用户的主目录启用表访问控制或凭据直通。以前，工作目录是 /databricks/driver。
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式：避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从 SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException：ArrayType 无法针对 Generate Pruning 转换为 StructType
2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下 bug：在某些极少数情况下，Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- 引入了对要复制到的临时凭据内联的支持，无需 SQL ANY_FILE 权限即可加载源数据
- Bug 修复和安全增强。
2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。

Databricks Runtime 10.1

请参阅 Databricks Runtime 10.1 （EoL）。

2022 年 6 月 15 日
- [SPARK-39283][CORE] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁
- [SPARK-39285][SQL] 读取文件时，Spark 不应检查字段名称
- [SPARK-34096][SQL] 提高偏移窗口上 nth_value ignore nulls 的性能
2022 年 6 月 2 日
- 操作系统安全更新。
2022 年 5 月 18 日
- 修复了自动加载程序中潜在的本机内存泄漏。
- [SPARK-39084][PYSPARK] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()
- [SPARK-38889][SQL] 编译布尔列筛选器以使用 MSSQL 数据源的位类型
- 操作系统安全更新。
2022 年 4 月 19 日
- [SPARK-37270][SQL] 修复了在 elseValue 为空时将 foldable 推送到 CaseWhen 分支的问题
- 操作系统安全更新。
2022 年 4 月 6 日
- [SPARK-38631][CORE] 在 Utils.unpack 中使用基于 Java 的实现取消 tarring
- 操作系统安全更新。
2022 年 3 月 22 日
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式：避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从 SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException：ArrayType 无法针对 Generate Pruning 转换为 StructType
2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下 bug：在某些极少数情况下，Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- 引入了对要复制到的临时凭据内联的支持，无需 SQL ANY_FILE 权限即可加载源数据
- 修复了在某些情况下查询结果缓存的内存不足问题。
- 修复了用户将当前目录切换到非默认目录时 USE DATABASE 出现的问题。
- Bug 修复和安全增强。
- 操作系统安全更新。
2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。

Databricks Runtime 10.0 (数据分析平台运行环境)

请参阅 Databricks Runtime 10.0 （EoL）。

2022 年 4 月 19 日
- [SPARK-37270][SQL] 修复了在 elseValue 为空时将 foldable 推送到 CaseWhen 分支的问题
- 操作系统安全更新。
2022 年 4 月 6 日
- [SPARK-38631][CORE] 在 Utils.unpack 中使用基于 Java 的实现取消 tarring
- 操作系统安全更新。
2022 年 3 月 22 日
- [SPARK-38437][SQL] 数据源的日期/时间的 Lenient 序列化
- [SPARK-38180][SQL] 允许在关联相等谓词中安全向上转换表达式
- [SPARK-38155][SQL] 禁止使用不受支持的谓词在横向子查询中进行非重复聚合
- [SPARK-38325][SQL] ANSI 模式：避免 HashJoin.extractKeyExprAt() 中的可能运行时错误
2022 年 3 月 14 日
- 改进了对 Delta Lake 中空事务的事务冲突检测。
- [SPARK-38185][SQL] 修正了聚合函数为空时数据不正确的情况
- [SPARK-38318][SQL] 替换数据集视图时回归
- [SPARK-38236][SQL] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-35937][SQL] 从时间戳中提取日期字段应该在 ANSI 模式下有效
- [SPARK-34069][SQL] 终止屏障任务应该会遵从 SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允许在 TimestampNTZ 和日期/时间戳之间分配存储
2022 年 2 月 23 日
- [SPARK-37577] [SQL] 修正了 ClassCastException：ArrayType 无法针对 Generate Pruning 转换为 StructType
2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 Parquet 中读取/写入数据时删除检查字段名称。
- [SPARK-36905][SQL] 修复在没有显式列名的情况下读取 hive 视图
- [SPARK-37859][SQL] 解决了以下问题：使用 Spark 3.1 通过 JDBC 创建的 SQL 表无法通过 3.2 读取
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下 bug：在某些极少数情况下，Delta 表上的并发事务可能会以不可序列化的顺序提交。
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- Bug 修复和安全增强。
- 操作系统安全更新。
2021 年 12 月 20 日
- 修复了基于 Parquet 列索引的筛选的一个罕见 bug。
2021 年 11 月 9 日
- 引入了其他配置标志，以启用对 ANSI 行为的细粒度控制。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
- 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
2021 年 11 月 30 日
- 修复了时间戳解析的问题：不带冒号的时区字符串被视为无效。
- 修复了在某些情况下查询结果缓存的内存不足问题。
- 修复了用户将当前目录切换到非默认目录时 USE DATABASE 出现的问题。

Databricks Runtime 9.0

请参阅 Databricks Runtime 9.0 （EoL）。

2022 年 2 月 8 日
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- Bug 修复和安全增强。
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
- 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
2021 年 9 月 22 日
- 修复了将具有 null 的 Spark 数组强制转换为字符串时出现的错误
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
2021 年 9 月 8 日
- 添加了对架构名称（databaseName.schemaName.tableName格式）的支持，作为 Azure Synapse Connector 的目标表名称。
- 添加了对 Spark SQL 的几何和地理 JDBC 类型支持。
- [SPARK-33527][SQL] 扩展了解码功能，以与主流数据库保持一致。
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- SQL Server驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了 AutoML 试验页上最佳试用笔记本的断开的链接。

Databricks Runtime 8.4

请参阅 Databricks Runtime 8.4 （EoL）。

2022 年 1 月 19 日
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
- 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
2021 年 9 月 22 日
- Spark JDBC 驱动程序已升级为 2.6.19.1030
- [SPARK-36734][SQL] 将 ORC 升级为 1.5.1
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
- 操作系统安全更新。
2021 年 9 月 8 日
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- SQL Server驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了新的 Parquet 预提取优化导致的凭据传递中的 bug，即在文件访问期间可能找不到用户的传递凭据。
2021 年 8 月 11 日
- 修复了防止旧 Databricks Runtime 8.4 的 RocksDB 不兼容问题。这修复了自动加载程序、COPY INTO 和有状态流式处理应用程序的前向兼容性。
- 修复了使用自动加载程序读取头文件不匹配的 CSV 文件时的 bug。如果列名称不匹配，则列的值为 null。现在，如果提供了架构，则假定架构相同，并且只在启用了补救数据列时才会保存不匹配的列。
- 将名为 externalDataSource 的新选项添加到Azure Synapse连接器，以删除针对 PolyBase 读取数据库的 CONTROL 权限要求。
2021 年 7 月 29 日
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加 connectionProvider 选项

Databricks Runtime 8.3

请参阅 Databricks Runtime 8.3 （EoL）。

2022 年 1 月 19 日
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
2021 年 9 月 22 日
- Spark JDBC 驱动程序已升级为 2.6.19.1030
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
- 操作系统安全更新。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- SQL Server驱动程序库已升级到 9.2.1.jre8。
- Snowflake 连接器已升级到 2.9.0。
- 修复了新的 Parquet 预提取优化导致的凭据传递中的 bug，即在文件访问期间可能找不到用户的传递凭据。
2021 年 8 月 11 日
- 修复了使用自动加载程序读取头文件不匹配的 CSV 文件时的 bug。如果列名称不匹配，则列的值为 null。现在，如果提供了架构，则假定架构相同，并且只在启用了补救数据列时才会保存不匹配的列。
2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加 connectionProvider 选项
2021 年 7 月 14 日
- 修复了在 Azure Synapse 连接器中使用列名和点时出现的问题。
- 为 Synapse 连接器引入了 database.schema.table 格式。
- 添加了支持：可提供 databaseName.schemaName.tableName 格式而不是仅提供 schemaName.tableName 或 tableName 作为目标表。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的 NoSuchElementException bug，在写入大量数据和遇到执行器丢失时可能发生该 bug
- 添加 SQL CREATE GROUP、DROP GROUP、ALTER GROUP、SHOW GROUPS 和 SHOW USERS 命令。有关详情，请参阅 Security 语句和 SHOW 语句。

Databricks Runtime 8.2

请参阅 Databricks Runtime 8.2 （EoL）。

2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加 connectionProvider 选项
2021 年 7 月 14 日
- 修复了在 Azure Synapse 连接器中使用列名和点时出现的问题。
- 为 Synapse 连接器引入了 database.schema.table 格式。
- 添加了支持：可提供 databaseName.schemaName.tableName 格式而不是仅提供 schemaName.tableName 或 tableName 作为目标表。
- 修复了一个 bug，该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的 NoSuchElementException bug，在写入大量数据和遇到执行器丢失时可能发生该 bug
2021 年 5 月 26 日
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- 修复了自动加载程序报告结构化流式处理进度指标时的 OOM 问题。

Databricks Runtime 8.1

请参阅 Databricks Runtime 8.1 （EoL）。

2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- 将 Databricks Snowflake Spark 连接器升级到 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加 connectionProvider 选项
2021 年 7 月 14 日
- 修复了在 Azure Synapse 连接器中使用列名和点时出现的问题。
- 修复了一个 bug，该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的 NoSuchElementException bug，在写入大量数据和遇到执行器丢失时可能发生该 bug
2021 年 5 月 26 日
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- 修复了自动加载程序报告结构化流式处理进度指标时的 OOM 问题。
2021 年 4 月 27 日
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-34856][SQL] ANSI 模式：允许将复杂类型强制转换为字符串类型
- [SPARK-35014] 修复 PhysicalAggregation 模式，不重写可折叠表达式
- [SPARK-34769][SQL] AnsiTypeCoercion：返回 TypeCollection 中最窄的可转换类型
- [SPARK-34614][SQL] ANSI 模式：将字符串强制转换为布尔值将在分析错误时引发异常
- [SPARK-33794][SQL] ANSI 模式：修复 NextDay 表达式，以在收到无效输入时引发运行时 IllegalArgumentException

Databricks Runtime 8.0

请参阅 Databricks Runtime 8.0 （EoL）。

2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- [SPARK-36163][BUILD] 在 JDBC 连接器提供程序中传播正确的 JDBC 属性并添加 connectionProvider 选项
2021 年 7 月 14 日
- 修复了在 Azure Synapse 连接器中使用列名和点时出现的问题。
- 修复了一个 bug，该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 5 月 26 日
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
2021 年 3 月 24 日
- [SPARK-34681][SQL] 在不相等条件下在左侧进行构建时，修复完全外部无序哈希联接的 bug
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- [SPARK-34613][SQL] 修复视图不捕获禁用提示配置
2021 年 3 月 9 日
- [SPARK-34543][SQL] 在 v1 spark.sql.caseSensitive 中解析分区规范时遵循 SET LOCATION 配置
- [SPARK-34392] [SQL] 支持 DateTimeUtils 中的 ZoneOffset +h:mm。 getZoneId
- [UI] 修复 Spark DAG 可视化的 href 链接
- [SPARK-34436][SQL] DPP 支持 LIKE ANY/ALL 表达式

Databricks Runtime 7.6

请参阅 Databricks Runtime 7.6 （EoL）。

2021 年 8 月 11 日
- [SPARK-36034][SQL] 将下推筛选器中的日期时间变基为 Parquet。
2021 年 7 月 29 日
- [SPARK-32998][BUILD] 添加仅使用内部存储库覆盖默认远程存储库的功能
2021 年 7 月 14 日
- 修复了一个 bug，该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 5 月 26 日
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
2021 年 3 月 9 日
- （仅Azure）修复了使用 Databricks Runtime 7.6 运行 Databricks Runtime 7.2 中创建的旧自动加载程序流时可能导致 NullPointerException 的自动加载程序 bug
- [UI] 修复 Spark DAG 可视化的 href 链接
- 未在 SizeInBytesOnlyStatsSparkPlanVisitor 中正确处理未知的叶节点 SparkPlan
- 还原 SHOW DATABASES 的输出架构
- [Delta][8.0, 7.6] 修复了文件大小自动优化逻辑中的计算 bug
- 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 显示范围联接提示时，使用正确的动态精简生成密钥
- 在非 SQL 代码路径中禁用 char 类型支持
- 避免在 DataFrameReader.schema 中使用 NPE
- 修复当 EventGridClient 响应没有实体时的 NPE
- 修复Azure自动加载程序中的读取关闭流 bug
- [SQL] 启用 AOS 时不生成无序分区号建议
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18，其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时，导致 Spark 返回错误结果的正确性问题。
- 修复了Microsoft SQL Server包含空间数据类型的表的读取失败问题，方法是添加对 Spark SQL 的几何图形和地理 JDBC 类型支持。
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
- [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-34260][SQL] 修复两次创建临时视图时出现的 UnresolvedException。

Databricks Runtime 7.5

请参阅 Databricks Runtime 7.5 （EoL）。

2021 年 5 月 26 日
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
2021 年 3 月 9 日
- （仅Azure）修复了使用 Databricks Runtime 7.5 运行 Databricks Runtime 7.2 中创建的旧自动加载程序流时可能导致 NullPointerException 的自动加载程序 bug。
- [UI] 修复 Spark DAG 可视化的 href 链接
- 未在 SizeInBytesOnlyStatsSparkPlanVisitor 中正确处理未知的叶节点 SparkPlan
- 还原 SHOW DATABASES 的输出架构
- 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 显示范围联接提示时，使用正确的动态精简生成密钥
- 在非 SQL 代码路径中禁用 char 类型支持
- 避免在 DataFrameReader.schema 中使用 NPE
- 修复当 EventGridClient 响应没有实体时的 NPE
- 修复Azure自动加载程序中的读取关闭流 bug
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18，其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时，导致 Spark 返回错误结果的正确性问题。
- 修复了Microsoft SQL Server包含空间数据类型的表的读取失败问题，方法是添加对 Spark SQL 的几何图形和地理 JDBC 类型支持。
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
- [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-34260][SQL] 修复两次创建临时视图时出现的 UnresolvedException。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置 SELECT * FROM table LIMIT nrows 等全局限制的查询的回归。在启用 Arrow 序列化的情况下，通过 ODBC/JDBC 运行的用户遇到了此回归问题。
- 向 Hive 客户端引入了写入时间检查，以防止损坏 Delta 表的 Hive 元存储中的元数据。
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 将 Microsoft Azure Storage SDK 从 2.3.8 升级到 2.3.9。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33480][SQL] 更新 char/varchar 表插入长度检查的错误消息

Databricks Runtime 7.3 LTS

请参阅 Databricks Runtime 7.3 LTS （EoL）。

2023 年 9 月 10 日
- 其他 Bug 修复。
2023 年 8 月 30 日
- 操作系统安全更新。
2023 年 8 月 15 日
- 操作系统安全更新。
2023 年 6 月 23 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- 操作系统安全更新。
2023 年 6 月 15 日
- [SPARK-43413][SQL] 修复 IN 子查询 ListQuery 的为 Null 性。
- 操作系统安全更新。
2023 年 6 月 2 日
- 修复了自动加载程序中当提供的架构不包含推断的分区时，不同的源文件格式不一致的问题。在读取推断的分区架构中缺少列的文件时，此问题可能会导致意外失败。
2023 年 5 月 17 日
- 操作系统安全更新。
2023 年 4 月 25 日
- 操作系统安全更新。
2023 年 4 月 11 日
- [SPARK-42967][CORE] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 其他 Bug 修复。
2023 年 3 月 29 日
- 操作系统安全更新。
2023 年 3 月 14 日
- 其他 Bug 修复。
2023 年 2 月 28 日
- 操作系统安全更新。
2023 年 2 月 16 日
- 操作系统安全更新。
2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
2023 年 1 月 18 日
- 操作系统安全更新。
2022 年 11 月 29 日
- 其他 Bug 修复。
2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 11 月 1 日
- [SPARK-38542][SQL] UnsafeHashedRelation 应序列化 numKeys
2022 年 10 月 18 日
- 操作系统安全更新。
2022 年 10 月 5 日
- 其他 Bug 修复。
- 操作系统安全更新。
2022 年 9 月 22 日
- [SPARK-40089][SQL] 修复某些 Decimal 类型的排序问题
2022 年 9 月 6 日
- [SPARK-35542][CORE][ML] 修复：为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079][CORE] 为空输入案例添加 Imputer inputCols 验证
2022 年 8 月 24 日
- [SPARK-39962][PYTHON][SQL] 当组属性为空时应用投影
- 操作系统安全更新。
2022 年 8 月 9 日
- 操作系统安全更新。
2022 年 7 月 27 日
- 当源不具有确定性时，使 Delta MERGE 操作结果保持一致。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 7 月 13 日
- [SPARK-32680][SQL] 不要使用未解析的查询预处理 V2 CTAS
- 禁用了自动加载程序对 Azure 上的目录列表使用本机云 API。
- 操作系统安全更新。
2022 年 7 月 5 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 6 月 2 日
- [SPARK-38918][SQL] 嵌套列修剪应筛选掉不属于当前关系的属性
- 操作系统安全更新。
2022 年 5 月 18 日
- 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 6 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 3 月 14 日
- 从 log4j 1.2.17 jar 中删除了易受攻击的类
- 其他 Bug 修复。
2022 年 2 月 23 日
- [SPARK-37859][SQL] 在架构比较期间不检查元数据
2022 年 2 月 8 日
- 将 Ubuntu JDK 升级到 1.8.0.312。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- Conda 默认值通道从 7.3 ML LTS 中删除
- 操作系统安全更新。
2021 年 12 月 7 日
- 操作系统安全更新。
2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示 ArrayIndexOutOfBoundsException 的错误
- 修复了一个争用条件，它可能会导致查询失败并显示 IOException（例如 java.io.IOException: No FileSystem for scheme），或导致 sparkContext.hadoopConfiguration 被修改且在查询中不生效。
2021 年 9 月 15 日
- 修复了可能导致查询失败并显示 IOException（如 java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x）的争用条件。
- 操作系统安全更新。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部系统创建和写入 char/varchar orc 表时读取该表。
- [SPARK-36532][CORE][3.1] 修复了 CoarseGrainedExecutorBackend.onDisconnected 中的死锁以以免 executorsconnected，从而放置执行程序关闭挂起。
2021 年 8 月 25 日
- Snowflake 连接器已升级到 2.9.0。
2021 年 7 月 29 日
- [SPARK-36034][BUILD] 将下推筛选器中的日期时间变基为 Parquet
- [SPARK-34508][BUILD] 如果网络中断，则跳过 HiveExternalCatalogVersionsSuite
2021 年 7 月 14 日
- 引入了 Azure Synapse 连接器的 database.schema.table 格式。
- 添加了支持：可提供 databaseName.schemaName.tableName 格式而不是仅提供 schemaName.tableName 或 tableName 作为目标表。
- 修复了一个 bug，该 bug 阻止用户使用 Delta 表按时间顺序查看较旧的可用版本。
2021 年 6 月 15 日
- 消除了 Delta Lake 优化写入中的 NoSuchElementException bug，在写入大量数据和遇到执行器丢失时可能发生该 bug
- 更新了具有安全修补程序的Python，以修复Python安全漏洞（CVE-2021-3177）。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-35045][SQL] 在 univocity 中添加用于控制输入缓冲区的内部选项
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
- [SPARK-33118][SQL] CREATE TEMPORARY TABLE 与 location 失败
2021 年 3 月 9 日
- Azure Data Lake Storage的已更新Azure Blob 文件系统驱动程序现已默认启用。此驱动程序进行了多种稳定性改进。
- 修复 databricks-connect get-jar-dir Windows上的路径分隔符
- [UI] 修复 Spark DAG 可视化的 href 链接
- [DBCONNECT] 在 Databricks Connect 7.3 中添加对 FlatMapCoGroupsInPandas 的支持
- 还原 SHOW DATABASES 的输出架构
- [SQL] 显示范围联接提示时，使用正确的动态精简生成密钥
- 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SQL] 启用 AOS 时不生成无序分区号建议
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18，其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时，导致 Spark 返回错误结果的正确性问题。
- 修复了Microsoft SQL Server包含空间数据类型的表的读取失败问题，方法是添加对 Spark SQL 的几何图形和地理 JDBC 类型支持。
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
- [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-33579][UI] 修复代理后面的执行程序空白页。
- [SPARK-20044][UI] 使用路径前缀支持前端反向代理之后的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 任务结束后，使用 ContextAwareIterator 停止操作。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置 SELECT * FROM table LIMIT nrows 等全局限制的查询的回归。在启用 Arrow 序列化的情况下，通过 ODBC/JDBC 运行的用户遇到了此回归问题。
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar，则跳过 LikeSimplification 规则
- [SPARK-33592][ML][PYTHON] 保存并重新加载后，estimatorParamMaps 中的 Pyspark ML 验证器参数可能会丢失
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id，以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在出现嵌套的致命错误时终止执行器
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33316][SQL] 支持用户在 Avro 编写中为不可为空的催化剂模式提供可为空的 Avro 模式
- 使用 Databricks Connect 启动的 Spark 作业可能会在执行器堆栈跟踪中无限期挂起，并出现 Executor$TaskRunner.$anonfun$copySessionState
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复 date_trunc 表达式中的错误结果
- [SPARK-33339][PYTHON] 由于发生非异常错误，Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
2020 年 11 月 5 日
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定。
- 当 Avro 读取器读取 MAGIC 字节时修复无限循环 bug。
- 添加对 USAGE 特权的支持。
- 用于表访问控制中的权限检查的性能改进。
2020 年 10 月 13 日
- 操作系统安全更新。
- 在启用了高并发凭据传递的群集上时，可以使用 /dbfs/ 上的 FUSE 装载从 DBFS 读取和写入。支持常规装载，但尚不支持需要传递凭据的装载。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- [SPARK-32585][SQL] 支持 ScalaReflection 中的 scala 枚举
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-32718][SQL] 删除间隔单位的不必要关键字
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置 spark.shuffle.io.decoder.consolidateThreshold。将配置值设置为 Long.MAX_VALUE 以跳过 netty 帧缓冲区的合并，从而防止在极端情况下出现 java.lang.IndexOutOfBoundsException。
2023 年 4 月 25 日
- 操作系统安全更新。
2023 年 4 月 11 日
- 其他 Bug 修复。
2023 年 3 月 29 日
- 其他 Bug 修复。
2023 年 3 月 14 日
- 操作系统安全更新。
2023 年 2 月 28 日
- 操作系统安全更新。
2023 年 2 月 16 日
- 操作系统安全更新。
2023 年 1 月 31 日
- 其他 Bug 修复。
2023 年 1 月 18 日
- 操作系统安全更新。
2022 年 11 月 29 日
- 操作系统安全更新。
2022 年 11 月 15 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 11 月 1 日
- 操作系统安全更新。
2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
  - 操作系统安全更新。
- 2022 年 8 月 24 日
  - 操作系统安全更新。
- 2022 年 8 月 9 日
  - 操作系统安全更新。
- 2022 年 7 月 27 日
  - 操作系统安全更新。
- 2022 年 7 月 5 日
  - 操作系统安全更新。
- 2022 年 6 月 2 日
  - 操作系统安全更新。
- 2022 年 5 月 18 日
  - 操作系统安全更新。
- 2022 年 4 月 19 日
  - 操作系统安全更新。
  - 其他 Bug 修复。
- 2022 年 4 月 6 日
  - 操作系统安全更新。
  - 其他 Bug 修复。
- 2022 年 3 月 14 日
  - 其他 Bug 修复。
- 2022 年 2 月 23 日
  - 其他 Bug 修复。
- 2022 年 2 月 8 日
  - 将 Ubuntu JDK 升级到 1.8.0.312。
  - 操作系统安全更新。
- 2022 年 2 月 1 日
  - 操作系统安全更新。
- 2022 年 1 月 19 日
  - 操作系统安全更新。
- 2021 年 9 月 22 日
  - 操作系统安全更新。
- 2021 年 4 月 30 日
  - 操作系统安全更新。
  - [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- 2021 年 1 月 12 日
  - 操作系统安全更新。
- 2020 年 12 月 8 日
  - [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
  - 操作系统安全更新。
- 2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- 2020 年 11 月 3 日
  - 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
  - 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 2020 年 10 月 13 日
  - 操作系统安全更新。

Databricks Runtime 6.4 扩展支持

请参阅 Databricks Runtime 6.4（EoL）和 Databricks Runtime 6.4 扩展支持（EoS）。

2022 年 7 月 5 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 6 月 2 日
- 操作系统安全更新。
2022 年 5 月 18 日
- 操作系统安全更新。
2022 年 4 月 19 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 4 月 6 日
- 操作系统安全更新。
- 其他 Bug 修复。
2022 年 3 月 14 日
- 从 log4j 1.2.17 jar 中删除了易受攻击的类
- 其他 Bug 修复。
2022 年 2 月 23 日
- 其他 Bug 修复。
2022 年 2 月 8 日
- 将 Ubuntu JDK 升级到 1.8.0.312。
- 操作系统安全更新。
2022 年 2 月 1 日
- 操作系统安全更新。
2022 年 1 月 26 日
- 修复了以下bug：启用 ANSI SQL 方言时 OPTIMIZE 命令可能失败。
2022 年 1 月 19 日
- 操作系统安全更新。
2021 年 12 月 8 日
- 操作系统安全更新。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 6 月 15 日
- [SPARK-35576][SQL] 修改 Set 命令结果中的敏感信息
2021 年 6 月 7 日
- 添加名为 spark.sql.maven.additionalRemoteRepositories 的新配置，即可选的附加远程 maven 镜像的逗号分隔的字符串配置。此值默认为 https://maven-central.storage-download.googleapis.com/maven2/。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
2021 年 3 月 9 日
- 将 HADOOP-17215 移植到 Azure Blob 文件系统驱动程序（支持条件覆盖）。
- 修复 databricks-connect get-jar-dir Windows上的路径分隔符
- 添加了对 Hive 元存储版本 2.3.5、2.3.6 和 2.3.7 的支持
- 溢写后错误地报告 Arrow“totalResultsCollected”
2021 年 2 月 24 日
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置 SELECT * FROM table LIMIT nrows 等全局限制的查询的回归。在启用 Arrow 序列化的情况下，通过 ODBC/JDBC 运行的用户遇到了此回归问题。
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 12 日
- 操作系统安全更新。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [Runtime 6.4 ML GPU] 我们之前安装了一个不正确的 NCCL 版本 (2.7.8-1+cuda11.1)。此版本将其更正到与 CUDA 10.0 兼容的 2.4.8-1+cuda10.0。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 11 月 3 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 修复了之前的限制：标准群集上的直通仍然会限制用户使用的文件系统实现。现在用户可以不受限制地访问本地文件系统。
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
- 将 Microsoft Azure Storage SDK 更新为 8.6.4，并在 WASB 驱动程序建立的连接上启用 TCP 保持活动状态
2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。
2020 年 7 月 7 日
- 已将Java版本从 1.8.0_232 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题，我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。请参阅 [SPARK-29367] 中的说明。
2020 年 3 月 10 日
- 现在，在安全性计划的交互式群集上默认使用优化的自动缩放。
- Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。 snowflake-jdbc 已更新到版本 3.12.0。

Databricks Runtime 5.5 LTS

请参阅 Databricks Runtime 5.5 LTS（EoL）和 Databricks Runtime 5.5 扩展支持（EoS）。

2021 年 12 月 8 日
- 操作系统安全更新。
2021 年 9 月 22 日
- 操作系统安全更新。
2021 年 8 月 25 日
- 降级了 5.5 ML 外延支持版本中的一些以前升级的 python 包，以维持与 5.5 ML LTS（现已弃用）更好的奇偶一致性。有关这两个版本之间的更新差异，请参阅 [_]/release-notes/runtime/5.5xml.md)。
2021 年 6 月 15 日
- [SPARK-35576][SQL] 修改 Set 命令结果中的敏感信息
2021 年 6 月 7 日
- 添加名为 spark.sql.maven.additionalRemoteRepositories 的新配置，即可选的附加远程 maven 镜像的逗号分隔的字符串配置。此值默认为 https://maven-central.storage-download.googleapis.com/maven2/。
2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
2021 年 3 月 9 日
- 将 HADOOP-17215 移植到 Azure Blob 文件系统驱动程序（支持条件覆盖）。
2021 年 2 月 24 日
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
2021 年 1 月 12 日
- 操作系统安全更新。
- 修复 [HADOOP-17130]。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 10 月 29 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
2020 年 9 月 24 日
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
2020 年 8 月 3 日
- 操作系统安全更新
2020 年 7 月 7 日
- 已将Java版本从 1.8.0_232 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题，我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。请参阅 [SPARK-29367] 中的说明。
2020 年 3 月 25 日
- Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。 snowflake-jdbc 已更新到版本 3.12.0。
2020 年 3 月 10 日
- 作业输出（如发送到 stdout 的日志输出）的大小限制为 20MB。如果总输出的大小较大，则将取消运行并标记为失败。若要避免出现此限制，可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。（默认情况下，标志值为 false）该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。如果启用该标志，Spark 不会将作业执行结果返回给客户端。该标志不影响写入群集日志文件中的数据。建议只对 JAR 作业的自动群集设置此标志，因为这将禁用笔记本结果。
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取功能时，由于线程局部处理不当，使用 ADLS 的凭据传递会导致性能下降。此版本在启用凭据传递时禁用 ADLS 预提取，直到我们找到合适的解决方案为止。
2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
2020 年 1 月 14 日
- 已将Java版本从 1.8.0_222 升级到 1.8.0_232。
2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）
- R 版本从 3.6.0 意外升级到了 3.6.1。我们已将其降级回 3.6.0。
2019 年 11 月 5 日
- 已将Java版本从 1.8.0_212 升级到 1.8.0_222。
2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作（需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10）。
- 修复了在启用表 ACL 的群集中影响使用 Optimize 命令的问题。
- 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致 pyspark.ml 库失败的问题。
- 将用于凭据传递的 SerDe 和 SerDeUtil 方法加入了允许列表。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
2019 年 9 月 24 日
- 提高了 Parquet 编写器的稳定性。
- 修复了在开始执行之前被取消的 Thrift 查询可能会停留在“已启动”状态的问题。
2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- [SPARK-27992][SPARK-28881]Allow Python 与连接线程联接以传播错误
- 修复了影响某些全局聚合查询的 bug。
- 改进了凭据修订。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
2019 年 8 月 27 日
- [SPARK-20906][SQL] 允许在具有架构注册表的 API to_avro 中使用用户指定的架构
- [SPARK-27838][SQL] 支持用户为无任何空记录的可空 catalyst 架构提供不可为 null 的 avro 架构
- 对 Delta Lake 按时间顺序查看的改进
- 修复了影响某个 transform 表达式的问题
- 启用进程隔离时支持广播变量
2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28260]将“CLOSED”状态添加到 ExecutionState
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
- [SPARK-28355][CORE] [PYTHON] 将 Spark conf 用作广播压缩 UDF 的阈值

Databricks Light 2.4 外延支持

请参阅 Databricks Light 2.4 (EoS)和 Databricks Light 2.4 外延支持。

Databricks运行时环境 7.4

请参阅 Databricks Runtime 7.4 （EoL）。

2021 年 4 月 30 日
- 操作系统安全更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark-packages 的解析程序
- [SPARK-34245][CORE] 确保主服务器删除未能发送已完成状态的执行程序
- [SPARK-35045][SQL] 在 univocity 中添加用于控制输入缓冲区的内部选项，并添加 CSV 输入缓冲区大小的配置
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵循 Univocity 中的默认输入缓冲区大小
- [SPARK-34534] 修复使用 FetchShuffleBlocks 获取块时的 blockIds 顺序
2021 年 3 月 9 日
- Azure Data Lake Storage的已更新Azure Blob 文件系统驱动程序现已默认启用。此驱动程序进行了多种稳定性改进。
- [ES-67926][ui]对 Spark DAG 可视化效果的 href 链接进行修复
- [ES-65064] 还原 SHOW DATABASES 的输出架构
- [SC-70522][sql]当存在范围联接提示时，请使用正确的动态修剪生成密钥
- [SC-35081] 禁用对磁盘缓存中的 Delta 表文件的过期检查
- [SC-70640] 当 EventGridClient 响应没有实体时，修复 NPE
- [SC-70220][sql] 启用 AOS 时，请勿生成洗牌分区号建议
2021 年 2 月 24 日
- 将 Spark BigQuery 连接器升级到了 v0.18，其中引入了各种 bug 修复以及对 Arrow 和 Avro 迭代器的支持。
- 修复了当 Parquet 文件的十进制精度和规模不同于 Spark 架构时，导致 Spark 返回错误结果的正确性问题。
- 修复了Microsoft SQL Server包含空间数据类型的表的读取失败问题，方法是添加对 Spark SQL 的几何图形和地理 JDBC 类型支持。
- 引入了新配置 spark.databricks.hive.metastore.init.reloadFunctions.enabled。此配置可控制内置的 Hive 初始化。设置为 true 时，Azure Databricks重新加载用户已进入 FunctionRegistry 的所有数据库中的所有函数。这是 Hive 元存储中的默认行为。设置为 false 时，Azure Databricks禁用此过程进行优化。
- [SPARK-34212] 修复了与从 Parquet 文件中读取十进制数据相关的问题。
- [SPARK-33579][UI] 修复代理后面的执行程序空白页。
- [SPARK-20044][UI] 使用路径前缀支持前端反向代理之后的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 任务结束后，使用 ContextAwareIterator 停止操作。
2021 年 2 月 4 日
- 修复了阻止增量执行可设置 SELECT * FROM table LIMIT nrows 等全局限制的查询的回归。在启用 Arrow 序列化的情况下，通过 ODBC/JDBC 运行的用户遇到了此回归问题。
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar，则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id，以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在出现嵌套的致命错误时终止执行器
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33316][SQL] 支持用户在 Avro 编写中为不可为空的催化剂模式提供可为空的 Avro 模式
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复 date_trunc 表达式中的错误结果
- [SPARK-33339][PYTHON] 由于发生非异常错误，Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-33272][SQL] 删除 QueryPlan.transformUpWithNewOutput 中的属性映射

Databricks Runtime 7.2

请参阅 Databricks Runtime 7.2 （EoL）。

2021 年 2 月 4 日
- 修复了阻止增量执行可设置 SELECT * FROM table LIMIT nrows 等全局限制的查询的回归。在启用 Arrow 序列化的情况下，通过 ODBC/JDBC 运行的用户遇到了此回归问题。
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar，则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id，以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33404][SQL] 修复 date_trunc 表达式中的错误结果
- [SPARK-33339][PYTHON] 由于发生非异常错误，Pyspark 应用程序将挂起
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
2020 年 11 月 3 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized，防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置 spark.shuffle.io.decoder.consolidateThreshold。将配置值设置为 Long.MAX_VALUE 以跳过 netty 帧缓冲区的合并，从而防止在极端情况下出现 java.lang.IndexOutOfBoundsException。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。

Databricks Runtime 7.1

请参阅 Databricks Runtime 7.1 （EoL）。

2021 年 2 月 4 日
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar，则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id，以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- 使用 Databricks Connect 启动的 Spark 作业可能会在执行器堆栈跟踪中无限期挂起，并出现 Executor$TaskRunner.$anonfun$copySessionState
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修复 date_trunc 表达式中的错误结果
- [SPARK-33339][PYTHON] 由于发生非异常错误，Pyspark 应用程序将挂起
- [SPARK-33183][SQL][HOTFIX] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33371][PYTHON][3.0] 更新 Python 3.9 的 setup.py 和测试
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
2020 年 11 月 3 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized，防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置 spark.shuffle.io.decoder.consolidateThreshold。将配置值设置为 Long.MAX_VALUE 以跳过 netty 帧缓冲区的合并，从而防止在极端情况下出现 java.lang.IndexOutOfBoundsException。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修复 Aggregator[Array[_], _, _] 和 UnresolvedMapObjects 之间的集成
- [SPARK-32559][SQL] 修复 UTF8String.toInt/toLong 中的剪裁逻辑，该逻辑不能正确处理非 ASCII 字符
- [SPARK-32543][R] 删除 SparkR 中的 arrow::as_tibble 用法
- [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误
- 修复了使用 MSI 凭据影响 Azure Synapse 连接器的问题
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化
- [SPARK-32237][SQL] 解决 CTE 中的提示
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 只应重写冲突计划的上级节点的属性
- [SPARK-32234][SQL] Spark SQL 命令在选择 ORC 表时失败
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。

Databricks Runtime 7.0

请参阅 Databricks Runtime 7.0 （EoL）。

2021 年 2 月 4 日
- 修复了当群集环境变量配置包含无效的 bash 语法时，导致 DBFS FUSE 无法启动的回归。
2021 年 1 月 20 日
- 修复了 2021 年 1 月 12 日维护版本中可能导致错误 AnalysisException 的回归，并说明该列在自联接中不明确。当用户使用具有以下条件的派生数据帧（所谓的自联接）加入数据帧时，就会发生此回归：
  - 这两个数据帧具有常用列，但自联接的输出没有常用列。例如： df.join(df.select($"col" as "new_col"), cond)
  - 派生数据帧通过选择、groupBy 或窗口排除某些列。
  - 联接数据帧后联接条件或以下转换是指非常用列。例如： df.join(df.drop("a"), df("a") === 1)
2021 年 1 月 12 日
- 操作系统安全更新。
- [SPARK-33593][SQL] 矢量读取器得到含有二进制分区值的不正确的数据
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar，则跳过 LikeSimplification 规则
- [SPARK-33071][SPARK-33536] [SQL] 避免在 join() 中更改 LogicalPlan 的 dataset_id，以免中断 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 在删除分区列时修复 int 列和值类 java.lang.String 的筛选器
- [SPARK-33404][SQL] 修复 date_trunc 表达式中的错误结果
- [SPARK-33339][PYTHON] 由于发生非异常错误，Pyspark 应用程序将挂起
- [SPARK-33183][SQL] 修复优化程序规则 EliminateSorts 并添加物理规则以删除多余的排序
- [SPARK-33391][SQL] element_at 中的 CreateArray 未使用从 1 开始的索引。
- 操作系统安全更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 将日期强制转换为字符串时需要时区
2020 年 11 月 3 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引入 AlreadyOptimized，防止对 V1FallbackWriters 进行重新分析
- [SPARK-32635][SQL] 修复可折叠传播
- 添加新配置 spark.shuffle.io.decoder.consolidateThreshold。将配置值设置为 Long.MAX_VALUE 以跳过 netty 帧缓冲区的合并，从而防止在极端情况下出现 java.lang.IndexOutOfBoundsException。
2020 年 9 月 24 日
- [SPARK-32764][SQL] - 0.0 应等于 0.0
- [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点
- [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修复 Aggregator[Array[_], _, _] 和 UnresolvedMapObjects 之间的集成
- [SPARK-32559][SQL] 修复 UTF8String.toInt/toLong 中的剪裁逻辑，该逻辑不能正确处理非 ASCII 字符
- [SPARK-32543][R] 删除 SparkR 中的 arrow::as_tibble 用法
- [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误
- 修复了使用 MSI 凭据影响 Azure Synapse 连接器的问题
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化
- [SPARK-32237][SQL] 解决 CTE 中的提示
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 只应重写冲突计划的上级节点的属性
- [SPARK-32234][SQL] Spark SQL 命令在选择 ORC 表时失败
- 现在可以在启用了传递的群集上使用 LDA 转换函数。

Databricks Runtime 6.6

请参阅 Databricks Runtime 6.6 （EoL）。

2020 年 12 月 1 日
- [SPARK-33260][SQL] 修复 sortOrder 为 Stream 时来自 SortExec 的错误结果
- [SPARK-32635][SQL] 修复可折叠传播
2020 年 11 月 3 日
- 已将Java版本从 1.8.0_252 升级到 1.8.0_265。
- 修复与 UserGroupInformation.getCurrentUser() 相关的 ABFS 和 WASB 锁定
- 修复 Avro 读取器在读取 MAGIC 字节时的无限循环 bug。
2020 年 10 月 13 日
- 操作系统安全更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 以避免在 TreeNode 中命中格式错误的类名
- 修复了 FUSE 装载中包含具有无效 XML 字符的文件名的列出目录
- FUSE 装载不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
- 将 Microsoft Azure Storage SDK 更新为 8.6.4，并在 WASB 驱动程序建立的连接上启用 TCP 保持活动状态
2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
- [SPARK-31967][UI] 降级到 vis.js 4.21.0 以修复作业 UI 加载时间回归
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。

Databricks Runtime 6.5

请参阅 Databricks Runtime 6.5 （EoL）。

2020 年 9 月 24 日
- 修复了之前的限制：标准群集上的直通仍然会限制用户使用的文件系统实现。现在用户可以不受限制地访问本地文件系统。
- 操作系统安全更新。
2020 年 9 月 8 日
- 为 Azure Synapse Analytics、maxbinlength 创建了一个新参数。此参数用于控制 BinaryType 列的列长度，并转换为 VARBINARY(maxbinlength)。它可以使用 .option("maxbinlength", n) 进行设置，其中 0 < n <= 8000。
- 将 Microsoft Azure Storage SDK 更新为 8.6.4，并在 WASB 驱动程序建立的连接上启用 TCP 保持活动状态
2020 年 8 月 25 日
- 修复了自合并中不明确的属性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列
- 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志
2020 年 8 月 3 日
- 现在可以在启用了传递的群集上使用 LDA 转换函数。
- 操作系统安全更新。
2020 年 7 月 7 日
- 已将Java版本从 1.8.0_242 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例

Databricks Runtime 6.3

请参阅 Databricks Runtime 6.3 （EoL）。

2020 年 7 月 7 日
- 已将Java版本从 1.8.0_232 升级到 1.8.0_252。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题，我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。请参阅 [SPARK-29367] 中的说明。
2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。 snowflake-jdbc 已更新到版本 3.12.0。
2020 年 2 月 18 日
- 启用 ADLS 客户端预提取功能时，由于线程局部处理不当，使用 ADLS 的凭据传递会导致性能下降。此版本在启用凭据传递时禁用 ADLS 预提取，直到我们找到合适的解决方案为止。
2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- [SPARK-30447][SQL] 常数传播为 Null 性问题
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件
- 将重写函数加入了允许列表，以便 MLModels 扩展 MLWriter 可调用该函数。

Databricks Runtime 6.2

请参阅 Databricks Runtime 6.2 （EoL）。

2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例
2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题，我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。请参阅 [SPARK-29367] 中的说明。
2020 年 3 月 25 日
- 作业输出（如发送到 stdout 的日志输出）的大小限制为 20MB。如果总输出的大小较大，则将取消运行并标记为失败。若要避免出现此限制，可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。（默认情况下，标志值为 false）该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。如果启用该标志，Spark 不会将作业执行结果返回给客户端。该标志不影响写入群集日志文件中的数据。建议只对 JAR 作业的自动群集设置此标志，因为这将禁用笔记本结果。
2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。 snowflake-jdbc 已更新到版本 3.12.0。
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取功能时，由于线程局部处理不当，使用 ADLS 的凭据传递会导致性能下降。此版本在启用凭据传递时禁用 ADLS 预提取，直到我们找到合适的解决方案为止。
2020 年 1 月 28 日
- 对于启用凭据传递的群集，将 ML 模型编写器的覆盖函数加入了允许列表，以便 model save 可在凭据传递群集上使用覆盖模式。
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
2020 年 1 月 14 日
- 已将Java版本从 1.8.0_222 升级到 1.8.0_232。
2019 年 12 月 10 日
- [SPARK-29904][SQL] 通过 JSON/CSV 数据源以微秒精度解析时间戳。

Databricks Runtime 6.1

请参阅 Databricks Runtime 6.1 （EoL）。

2020 年 4 月 7 日
- 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题，我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。请参阅 [SPARK-29367] 中的说明。
2020 年 3 月 25 日
- 作业输出（如发送到 stdout 的日志输出）的大小限制为 20MB。如果总输出的大小较大，则将取消运行并标记为失败。若要避免出现此限制，可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。（默认情况下，标志值为 false）该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。如果启用该标志，Spark 不会将作业执行结果返回给客户端。该标志不影响写入群集日志文件中的数据。建议只对 JAR 作业的自动群集设置此标志，因为这将禁用笔记本结果。
2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。 snowflake-jdbc 已更新到版本 3.12.0。
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
- 启用 ADLS 客户端预提取功能时，由于线程局部处理不当，使用 ADLS 的凭据传递会导致性能下降。此版本在启用凭据传递时禁用 ADLS 预提取，直到我们找到合适的解决方案为止。
2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
2020 年 1 月 14 日
- 已将Java版本从 1.8.0_222 升级到 1.8.0_232。
2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）。
- 在公共预览版中从 Spark 配置属性和环境变量引用的机密。请参阅在 Spark 配置属性或环境变量中使用机密。
2019 年 11 月 5 日
- 修复了 DBFS FUSE 中处理装入点时在其路径中使用 // 的 bug。
- [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
- (6.1 ML) 库 mkl 2019.4 版本是无意安装的。我们已将其降级到 mkl 版本 2019.3，以匹配 Anaconda 发行版2019.03。

Databricks Runtime 6.0

请参阅 Databricks Runtime 6.0 （EoL）。

2020 年 3 月 25 日
- 作业输出（如发送到 stdout 的日志输出）的大小限制为 20MB。如果总输出的大小较大，则将取消运行并标记为失败。若要避免出现此限制，可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。（默认情况下，标志值为 false）该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。如果启用该标志，Spark 不会将作业执行结果返回给客户端。该标志不影响写入群集日志文件中的数据。建议只对 JAR 作业的自动群集设置此标志，因为这将禁用笔记本结果。
2020 年 2 月 18 日
- 启用 ADLS 客户端预提取功能时，由于线程局部处理不当，使用 ADLS 的凭据传递会导致性能下降。此版本在启用凭据传递时禁用 ADLS 预提取，直到我们找到合适的解决方案为止。
2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常
2020 年 1 月 28 日
- [SPARK-30447][SQL] 常数传播为 Null 性问题。
- [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。
2020 年 1 月 14 日
- 已将Java版本从 1.8.0_222 升级到 1.8.0_232。
2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）
2019 年 11 月 5 日
- dbutils.tensorboard.start() 现在支持 TensorBoard 2.0（如果手动安装）。
- 修复了 DBFS FUSE 中处理装入点时在其路径中使用 // 的 bug。
- [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用
2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作（需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10）。
- 修复了在启用表 ACL 的群集中影响使用 Optimize 命令的问题。
- 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致 pyspark.ml 库失败的问题。
- 将用于凭据传递的 SerDe/SerDeUtil 方法加入了允许列表。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
- 修复了用户凭据未转发到 dbutils.notebook.run() 创建的作业的问题。

Databricks Runtime 5.4 ML

请参阅 Databricks Runtime 5.4 for ML （EoL）。

2019 年 6 月 18 日
- 改进了 Hyperopt 集成中对 MLflow 活动运行的处理
- 改进了 Hyperopt 中的消息
- 已将包 Marchkdown 从 3.1 更新到 3.1.1

Databrinks Runtime 5.4

请参阅 Databricks Runtime 5.4 （EoL）。

2019 年 11 月 19 日
- [SPARK-29743] [SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作（需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10）。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
2019 年 8 月 27 日
- 修复了影响某个 transform 表达式的问题
2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
2019 年 7 月 2日
- 已将 snappy-java 从 1.1.7.1 升级到 1.1.7.3。
2019 年 6 月 18 日
- 改进了 MLlib 集成中 MLflow 活动运行的处理
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug

Databricks Runtime 5.3

请参阅 Databricks Runtime 5.3 （EoL）。

2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作（需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10）。
- 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。
2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
2019 年 8 月 27 日
- 修复了影响某个 transform 表达式的问题
2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
2019 年 6 月 18 日
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
2019 年 5 月 28 日
- 提高了 Delta 的稳定性
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
  - 已将恢复添加到失败的库安装
2019 年 5 月 7 日
- 端口 HADOOP-15778（ABFS：修复客户端读取限制）到Azure Data Lake Storage连接器
- 端口 HADOOP-16040（ABFS：bug 修复，用于容忍OobAppends 配置）到Azure Data Lake Storage连接器
- 修复了影响表 Acl 的 bug
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑，不将“插入 + 覆盖”标识为纯“追加”操作
- 确保在启用表 ACL 时未禁用磁盘缓存
- [SPARK-27494][ss]Null 键/值在 Kafka 源 v2 中不起作用
- [SPARK-27446][r] 如果可用，请使用现有的 spark conf。
- [SPARK-27454][spark-27454][ML][sql]遇到一些非法映像时，Spark 映像数据源失败
- [SPARK-27160][sql] 修复构建 orc 筛选器时的 DecimalType
- [SPARK-27338][core]修复 UnsafeExternalSorter 和 TaskMemoryManager 之间的死锁

Databricks Runtime 5.2（Databricks平台的运行时环境）

请参阅 Databricks Runtime 5.2 （EoL）。

2019 年 9 月 10 日
- 将线程安全迭代器添加到 BytesToBytesMap
- 修复了影响某些全局聚合查询的 bug。
- [SPARK-27330][SS] 在 foreach 编写器中支持任务中止
- [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
- [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例
2019 年 8 月 27 日
- 修复了影响某个 transform 表达式的问题
2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
2019 年 7 月 2日
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
2019 年 6 月 18 日
- 改进了与使用磁盘缓存相关的 Databricks 顾问消息
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
2019 年 5 月 28 日
- 已将恢复添加到失败的库安装
2019 年 5 月 7 日
- 端口 HADOOP-15778（ABFS：修复客户端读取限制）到Azure Data Lake Storage连接器
- 端口 HADOOP-16040（ABFS：bug 修复，用于容忍OobAppends 配置）到Azure Data Lake Storage连接器
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑，不将“插入 + 覆盖”标识为纯“追加”操作
- 确保在启用表 ACL 时未禁用磁盘缓存
- [SPARK-27494][ss]Null 键/值在 Kafka 源 v2 中不起作用
- [SPARK-27454][spark-27454][ML][sql]遇到一些非法映像时，Spark 映像数据源失败
- [SPARK-27160][sql] 修复构建 orc 筛选器时的 DecimalType
- [SPARK-27338][core]修复 UnsafeExternalSorter 和 TaskMemoryManager 之间的死锁
2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- [SPARK-26665][CORE] 修复 BlockTransferService.fetchBlockSync 可能永远挂起的 bug。
- [SPARK-27134][SQL] array_distinct 函数不能正确处理包含数组数组的列。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。
- [SPARK-26572][SQL] 修复聚合 codegen 结果计算。
- 修复了影响某些 PythonUDF 的 bug。
2019 年 2 月 26 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件，则查询可能会返回不正确的结果。
- [SPARK-26887][PYTHON] 直接创建 datetime.date，而不是创建 datetime64 作为中间数据。
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 修复了影响 PySpark 的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 Delta 中导致序列化问题的 bug。
2019 年 2 月 12 日
- 修复了影响将 Delta 与 Azure ADLS 装入点配合使用的问题。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence。
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 在推断架构时，CSV/JSON 数据源应避免使用文件名代换路径。
- 修复了窗口运算符的约束推理。
- 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。

Databricks Runtime 5.1

请参阅 Databricks Runtime 5.1 （EoL）。

2019 年 8 月 13 日
- 增量流式处理源应检查表的最新协议
- [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug
2019 年 7 月 30 日
- [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入
- [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分
- [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式
2019 年 7 月 2日
- 读取 Delta LAST_CHECKPOINT 文件时容许 IOException
2019 年 6 月 18 日
- 修复了影响使用高阶函数的 bug
- 修复了影响增量元数据查询的 bug
2019 年 5 月 28 日
- 已将恢复添加到失败的库安装
2019 年 5 月 7 日
- 端口 HADOOP-15778（ABFS：修复客户端读取限制）到Azure Data Lake Storage连接器
- 端口 HADOOP-16040（ABFS：bug 修复，用于容忍OobAppends 配置）到Azure Data Lake Storage连接器
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑，不将“插入 + 覆盖”标识为纯“追加”操作
- [SPARK-27494][ss]Null 键/值在 Kafka 源 v2 中不起作用
- [SPARK-27454][spark-27454][ML][sql]遇到一些非法映像时，Spark 映像数据源失败
- [SPARK-27160][sql] 修复构建 orc 筛选器时的 DecimalType
- [SPARK-27338][core]修复 UnsafeExternalSorter 和 TaskMemoryManager 之间的死锁
2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- 修复了影响某些 PythonUDF 的 bug。
2019 年 2 月 26 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件，则查询可能会返回不正确的结果。
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
2019 年 2 月 12 日
- 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence。
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 修复了窗口运算符的约束推理。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了一个问题，该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。
- 修复了影响安装 wheelhouses 的问题。
- [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。
- 修复了影响流式查询中多个文件流源的 bug。
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
2019 年 1 月 8 日
- 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- Delta Lake 的稳定性改进。
- 已启用 Delta Lake。
- 修复了为 Microsoft Entra ID Azure Data Lake Storage Gen1 启用凭据直通时导致Azure Data Lake Storage访问失败的问题。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。

Databricks Runtime 5.0

请参阅 Databricks Runtime 5.0 （EoL）。

2019 年 6 月 18 日
- 修复了影响使用高阶函数的 bug
2019 年 5 月 7 日
- 修复了加载 Delta 日志校验和文件时的争用情况
- 修复了 Delta 冲突检测逻辑，不将“插入 + 覆盖”标识为纯“追加”操作
- [SPARK-27494][ss]Null 键/值在 Kafka 源 v2 中不起作用
- [SPARK-27454][spark-27454][ML][sql]遇到一些非法映像时，Spark 映像数据源失败
- [SPARK-27160][sql] 修复构建 ORC 过滤器时的 DecimalType
  - [SPARK-27338][core]修复 UnsafeExternalSorter 和 TaskMemoryManager 之间的死锁
2019 年 3 月 26 日
- 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量
- 修复了影响某些 PythonUDF 的 bug。
2019 年 3 月 12 日
- [SPARK-26864][SQL] 如果 python udf 用作左半联接条件，则查询可能会返回不正确的结果。
2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
- 生成 HadoopRDD 时排除隐藏文件。
2019 年 2 月 12 日
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
- [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence。
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 修复了窗口运算符的约束推理。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了一个问题，该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。
- [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。
- 修复了影响流式查询中多个文件流源的 bug。
- 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
2019 年 1 月 8 日
- 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- Delta Lake 的稳定性改进。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
2018 年 12 月 18 日
- [SPARK-26293]在子查询中Python UDF 时播出异常
- 修复了影响使用联接和限制查询的问题。
- 根据 Spark UI 中的 RDD 名称修订了凭据
2018 年 12 月 6 日
- 修复了使用 orderBy 后接 groupBy 并将 group by key 作为 sort-by key 的前导部分时导致错误查询结果的问题。
- 已将 Spark 的 Snowflake 连接器从 2.4.9.2-spark_2.4_pre_release 升级到 2.4.10。
- 启用 spark.sql.files.ignoreCorruptFiles 或 spark.sql.files.ignoreMissingFiles 标志时，仅在一次或多次重试后忽略损坏的文件。
- 修复了影响某些自联合查询的问题。
- 修复了 thrift 服务器的一个 bug，即取消会话时，会话有时会泄漏。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- [SPARK-26147]Python即使仅使用联接一侧的列，联接条件中的 UDF 也会失败
- [SPARK-26211]修复二进制的 InSet，以及带有 null 的结构和数组。
- [SPARK-26181]hasMinMaxStats 的 ColumnStatsMap 方法不正确。
- 修复了在无法访问 Internet 的环境中安装 Python Wheel 的问题。
2018 年 11 月 20 日
- 修复了取消流式处理查询后导致笔记本无法使用的问题。
- 修复了影响使用窗口函数的某些查询的问题。
- 修复了影响来自 Delta 的流的多个架构更改的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。

Databricks 运行时环境 4.3

请参阅 Databricks Runtime 4.3 （EoL）。

2019 年 4 月 9 日
- [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。
2019 年 3 月 12 日
- 修复了影响代码生成的 bug。
- 修复了影响 Delta 的 bug。
2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了一个问题，该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。
- 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致，这会导致不正确的结果。
2019 年 1 月 8 日
- 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。
- 根据 Spark UI 中的 RDD 名称修订了凭据
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
2018 年 12 月 18 日
- [SPARK-25002]Avro：修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用 spark.sql.files.ignoreCorruptFiles 或 spark.sql.files.ignoreMissingFiles 标志时，仅在一次或多次重试后忽略损坏的文件。
- [SPARK-26181]hasMinMaxStats 的 ColumnStatsMap 方法不正确。
- 修复了在无法访问 Internet 的环境中安装 Python Wheel 的问题。
- 修复了查询分析器中的性能问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- [SPARK-25387]修复了由错误的 CSV 输入导致的 NPE。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
- 修复了在 Synapse Analytics 连接器中影响临时对象清除的问题。
- [SPARK-25816]修复嵌套提取器中的属性解析。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。
- 修复了影响 Union 操作的 bug。
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的 NotSerializableException。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。
- [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
- 提高了执行引擎的稳定性。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug，该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25142]在 Python 辅助角色无法在 _load_from_socket 中打开套接字时收到错误消息。
2018 年 8 月 23 日
- [SPARK-23935]mapEntry 引发 org.codehaus.commons.compiler.CompileException。
- 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-25051][SQL] FixNullability 不应在 AnalysisBarrier 上停止。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25084]多个列上的“distribute by”（在括号中换行）可能会导致 codegen 问题。
- [SPARK-25096]如果强制转换为可强制为空，则放宽可空性。
- 减少了 Delta Lake Optimize 命令使用的默认线程数，从而减少了内存开销并提升了数据提交的速度。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
- 修复了命令部分成功时的机密管理器修订。

Databricks Runtime 4.2

请参阅 Databricks Runtime 4.2 （EoL）。

2019 年 2 月 26 日
- 修复了影响 JDBC/ODBC 服务器的 bug。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。
- 生成 HadoopRDD 时排除隐藏文件。
- 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了一个问题，该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。
2019 年 1 月 8 日
- 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。
- 根据 Spark UI 中的 RDD 名称修订了凭据
- [SPARK-26352]联接重新排序不应更改输出属性的顺序。
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
- Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。
2018 年 12 月 18 日
- [SPARK-25002]Avro：修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用 spark.sql.files.ignoreCorruptFiles 或 spark.sql.files.ignoreMissingFiles 标志时，仅在一次或多次重试后忽略损坏的文件。
- [SPARK-26181]hasMinMaxStats 的 ColumnStatsMap 方法不正确。
- 修复了在无法访问 Internet 的环境中安装 Python Wheel 的问题。
- 修复了查询分析器中的性能问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。
- 修复了影响 Union 操作的 bug。
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的 NotSerializableException。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。
- [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug，该 bug 会错误地删除条件评估为 null 的行。
2018 年 8 月 23 日
- 修复了 Delta 快照的 NoClassDefError
- [SPARK-23935]mapEntry 引发 org.codehaus.commons.compiler.CompileException。
- [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。可能会返回错误的 AVERAGE 结果。如果 Divide 的结果类型与强制转换的类型相同，则会跳过在 Average 运算符中添加的 CAST。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
- [SPARK-25084]多个列上的“distribute by”（在括号中换行）可能会导致 codegen 问题。
- [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。当在针对缓存数据的查询筛选器中使用复杂数据类型时，Spark 始终返回一个空结果集。基于内存中统计信息的修剪生成了错误结果，原因是复杂类型的上限/下限设置为 null。解决方法是不对复杂类型使用基于内存中统计信息的修剪。
- 修复了命令部分成功时的机密管理器修订。
- 修复了 Parquet 读取器中的可为空映射问题。
2018 年 8 月 2 号
- 在 Python 中添加了 writeStream.table API。
- 修复了影响 Delta 检查点的问题。
- [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。使用 DataFrameWriter 编写具有 UDF 的数据帧时，不使用 SQL 缓存。这是我们在 AnalysisBarrier 中所做的更改导致的回归，因为并非所有分析器规则都是幂等的。
- 修复了可能导致 mergeInto 命令产生错误结果的问题。
- 改进了访问Azure Data Lake Storage Gen1的稳定性。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
- [SPARK-24878][SQL] 针对包含 null 的基元类型的数组类型修复 reverse 函数。
2018 年 7 月 11 日
- 修复了在查询执行过程中会导致聚合不同精度的十进制列在某些情况下返回不正确的结果的 bug。
- 修复了在高级聚合操作期间引发的 NullPointerException bug，如分组集。

Databricks Runtime 4.1 ML

请参阅 Databricks Runtime 4.1 ML （EoL）。

2018 年 7 月 31 日
- 向 ML Runtime 4.1 添加了Azure Synapse Analytics
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
- 修复了影响 Spark SQL 执行引擎的 bug。
- 修复了影响代码生成的 bug。
- 修复了影响 Delta Lake 的 bug (java.lang.NoClassDefFoundError)。
- 改进了 Delta Lake 中的错误处理。
- 修复了一个 bug，该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。

Databricks Runtime 4.1

请参阅 Databricks Runtime 4.1 （EoL）。

2019 年 1 月 8 日
- [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。
- 已启用 Delta Lake。
2018 年 12 月 18 日
- [SPARK-25002]Avro：修改输出记录命名空间。
- 修复了影响使用联接和限制查询的问题。
- [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。
- 启用 spark.sql.files.ignoreCorruptFiles 或 spark.sql.files.ignoreMissingFiles 标志时，仅在一次或多次重试后忽略损坏的文件。
- 修复了在无法访问 Internet 的环境中安装 Python Wheel 的问题。
- 修复了 PySpark 中导致数据帧操作失败并出现“连接被拒绝”错误的问题。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。
- 修复了影响使用左半/反联接的某些聚合查询的问题。
2018 年 11 月 6 日
- [SPARK-25741]长 URL 在 Web UI 中未正确呈现。
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。
- 修复了影响 Union 操作的 bug。
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的 NotSerializableException。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。
- [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug，该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25084]多个列上的“distribute by”（在括号中换行）可能会导致 codegen 问题。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 23 日
- 修复了 Delta 快照的 NoClassDefError。
- [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。可能会返回错误的 AVERAGE 结果。如果 Divide 的结果类型与强制转换的类型相同，则会跳过在 Average 运算符中添加的 CAST。
- 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。当在针对缓存数据的查询筛选器中使用复杂数据类型时，Spark 始终返回一个空结果集。基于内存中统计信息的修剪生成了错误结果，原因是复杂类型的上限/下限设置为 null。解决方法是不对复杂类型使用基于内存中统计信息的修剪。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- 修复了命令部分成功时的机密管理器修订
2018 年 8 月 2 号
- [SPARK-24613][SQL] 采用 UDF 的缓存无法与后续的独立缓存匹配。使用 AnalysisBarrier 包装逻辑计划以在 CacheManager 中编译执行计划，目的是避免再次分析计划。这也是 Spark 2.3 的回归。
- 修复了 Synapse Analytics 连接器影响写入 DateType 数据的时区转换的问题。
- 修复了影响 Delta 检查点的问题。
- 修复了可能导致 mergeInto 命令产生错误结果的问题。
- [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。使用 DataFrameWriter 编写具有 UDF 的数据帧时，不使用 SQL 缓存。这是我们在 AnalysisBarrier 中所做的更改导致的回归，因为并非所有分析器规则都是幂等的。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
2018 年 7 月 11 日
- 修复了在查询执行过程中会导致聚合不同精度的十进制列在某些情况下返回不正确的结果的 bug。
- 修复了在高级聚合操作期间引发的 NullPointerException bug，如分组集。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 修复了影响代码生成的 bug。
- 修复了影响 Delta Lake 的 bug (java.lang.NoClassDefFoundError)。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 修复了一个 bug，该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。

Databricks Runtime 4.0

请参阅 Databricks Runtime 4.0 （EoL）。

2018 年 11 月 6 日
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响 Union 操作的 bug。
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的 NotSerializableException。
2018 年 9 月 11 日
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug，该 bug 会错误地删除条件评估为 null 的行。
2018 年 8 月 23 日
- 修复了 Parquet 读取器中的可为空映射问题。
- 修复了命令部分成功时的机密管理器修订
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 2 号
- [SPARK-24452]在整数加法或乘法中避免可能的溢出。
- [SPARK-24588]流式处理联接应需要来自子代的 HashClusteredPartitioning。
- 修复了可能导致 mergeInto 命令产生错误结果的问题。
- [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。使用 DataFrameWriter 编写具有 UDF 的数据帧时，不使用 SQL 缓存。这是我们在 AnalysisBarrier 中所做的更改导致的回归，因为并非所有分析器规则都是幂等的。
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 修复了 Databricks 机密管理的错误。
- 改进了读取存储在 Azure Data Lake 存储中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
2018 年 4 月 24 日
- 已将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8，以提高对 Azure Data Lake Store 的访问稳定性。
- 修复了当 spark.databricks.io.hive.fastwriter.enabled 为 false 时影响对分区 Hive 表插入重写的 bug。
- 修复了任务序列化失败的问题。
- 提升了 Delta Lake 的稳定性。
2018 年 3 月 14 日
- 在写入 Delta Lake 时防止不必要的元数据更新。
- 修复了由争用条件引起的问题，这种情况在极少数情况下可能导致某些输出文件丢失。

Databricks Runtime 3.5 长期支持版 (LTS)

请参阅 Databricks Runtime 3.5 LTS （EoL）。

2019 年 11 月 7 日
- [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true（如果其子级的 needCopyResult 为 true）
2019 年 10 月 8 日
- 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作（需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10）。
2019 年 9 月 10 日
- [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序
2019 年 4 月 9 日
- [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。
2019 年 2 月 12 日
- 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题（当 spark.network.crypto.enabled 设置为 true 时）。
2019 年 1 月 30 日
- 修复了一个问题，该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。
2018 年 12 月 18 日
- 启用 spark.sql.files.ignoreCorruptFiles 或 spark.sql.files.ignoreMissingFiles 标志时，仅在一次或多次重试后忽略损坏的文件。
- 修复了影响某些自联合查询的问题。
2018 年 11 月 20 日
- [SPARK-25816]修复了嵌套提取器中的属性解析。
2018 年 11 月 6 日
- [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。
2018 年 10 月 16 日
- 修复了影响 Union 操作的 bug。
2018 年 9 月 25 日
- [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。
- 修复了 Avro 数据源中的 NotSerializableException。
2018 年 9 月 11 日
- 筛选器精简版应正确处理 Null 值。
2018 年 8 月 28 日
- 修复了 Delta Lake Delete 命令中的 bug，该 bug 会错误地删除条件评估为 null 的行。
- [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。
2018 年 8 月 23 日
- [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。
- 修复了 Parquet 读取器中的可为空映射问题。
- [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。
- 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 28 日
- 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。
2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 改进了读取存储在 Azure Data Lake 存储中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
- 修复了影响流式处理查询中的某些聚合的 bug。
2018 年 4 月 24 日
- 已将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8，以提高对 Azure Data Lake Store 的访问稳定性。
- 修复了当 spark.databricks.io.hive.fastwriter.enabled 为 false 时影响对分区 Hive 表插入重写的 bug。
- 修复了任务序列化失败的问题。
2018 年 3 月 9 日
- 修复了由争用条件引起的问题，这种情况在极少数情况下可能导致某些输出文件丢失。
2018 年 3 月 1 日
- 提高了处理需要很长时间才能停止的流的效率。
- 修复了影响Python自动完成的问题。
- 应用了 Ubuntu 安全补丁。
- 修复了使用 Python UDF 和窗口函数影响某些查询的问题。
- 修复了在启用表访问控制的群集上影响 UDF 使用的问题。
2018 年 1 月 29 日
- 修复了影响Azure Blob 存储中存储的表的操作的问题。
- 修正了在空 DataFrame 上 dropDuplicate 后的聚合问题。

Databricks Runtime 3.4

请参阅 Databricks Runtime 3.4 （EoL）。

2018 年 6 月 7 日
- 修复了影响 Spark SQL 执行引擎的 bug。
- 改进了 Delta Lake 中的错误处理。
2018 年 5 月 17 日
- 改进了读取存储在 Azure Data Lake 存储中的数据的稳定性。
- 修复了影响 RDD 缓存的 bug。
- 修复了 Spark SQL 中影响 NULL 安全相等的错误。
2018 年 4 月 24 日
- 修复了当 spark.databricks.io.hive.fastwriter.enabled 为 false 时影响对分区 Hive 表插入重写的 bug。
2018 年 3 月 9 日
- 修复了由争用条件引起的问题，这种情况在极少数情况下可能导致某些输出文件丢失。
2017 年 12 月 13 日
- 修复了影响 Scala 中 UDF 的问题。
- 修复了影响在非 DBFS 路径中存储的数据源表上使用数据跳过索引的问题。
2017 年 12 月 7 日
- 改进了随机稳定性。

不支持的 Databricks Runtime 版本

对于原始发行说明，请按照副标题下方的链接进行操作。

Last updated on 2026-04-06