Databricks Runtime 维护更新
本文列出了支持的 Databricks Runtime 版本的维护更新。 要向现有群集添加维护更新,请重新启动群集。 有关支持的 Databricks Runtime 版本的维护更新,请参阅 Databricks Runtime 的维护更新(已存档)。
注意
发布分阶段进行。 Azure Databricks 帐户在初始发布日期后的几天内可能不会更新。
Databricks Runtime 版本
维护更新(按版本):
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
请参阅 Databricks Runtime 15.4 LTS。
- 2024 年 10 月 22 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时,当索引超出边界时改进错误消息
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化(正确性修复)
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- [SPARK-49443][SQL][PYTHON] 实现 to_variant_object 表达式,并使 schema_of_variant 表达式为变量对象打印 OBJECT
- [SPARK-49615] Bug 修复:使 ML 列架构验证符合 spark 配置
spark.sql.caseSensitive
。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- [SPARK-49460][SQL] 跟进:修复潜在的 NPE 风险
- 2024 年 9 月 25 日
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- [SPARK-49017][SQL] 当使用多个参数时,插入语句失败
- [SPARK-49451] 允许 parse_json 中存在重复键。
- 其他 Bug 修复。
- 2024 年 9 月 17 日
- [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] 支持 ArtifactManager 中的 Windows 样式路径
- 还原“[SPARK-48482][PYTHON] dropDuplicates 和 dropDuplicatesWIthinWatermark 应接受可变长度参数”
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- [SPARK-49018][SQL]修复 approx_count_distinct 无法正常使用排序规则的问题
- [SPARK-49460][SQL]从 EmptyRelationExec 中删除
cleanupResource()
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- 2024 年 8 月 29 日
SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。- 在配置了共享访问模式的计算中,Kafka 批量读取和写入现在具有与结构化流相同的限制。 请参阅 Unity Catalog 共享访问模式的流式处理限制和要求。
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-49074][SQL] 使用
df.cache()
修复变体 - [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-48955][SQL] 包含 15.4 中的 ArrayCompact 更改
- [SPARK-48937][SQL] 增加对 StringToMap 字符串表达式的排序规则支持
- [SPARK-48929] 修复视图内部错误并清理分析程序异常上下文
- [SPARK-49125][SQL] 允许在 CSV 写入中重复列名
- [SPARK-48934][SS] Python 日期/时间类型转换错误,无法在 applyInPandasWithState 中设置超时
- [SPARK-48843] 使用 BindParameters 防止无限循环
- [SPARK-48981] 针对排序规则,修复 pyspark 中 StringType 的 simpleString 方法以进行排序
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48725][SQL] 将 CollationAwareUTF8String.lowerCaseCodePoints 集成到字符串表达式
- [SPARK-48978][SQL] 在 UTF8_LCASE 的排序规则支持中实现 ASCII 快速路径
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- [SPARK-48977][SQL] 优化 UTF8_LCASE 排序规则下的字符串搜索
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- [SPARK-48954] try_mod() 替换 try_remainder()
- 操作系统安全更新。
Databricks Runtime 15.3
- 2024 年 10 月 22 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- [SPARK-49867][SQL] 在调用 GetColumnByOrdinal 时,当索引超出边界时改进错误消息
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化(正确性修复)
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
- 2024 年 10 月 10 日
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- 操作系统安全更新。
- 2024 年 9 月 25 日
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的
RegrSlope
和RegrIntercept
计算 bug - 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT][15.3.5] 支持 ArtifactManager 中的 Windows 样式路径
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- 操作系统安全更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用
_proto_to_string
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- [SPARK-48954] try_mod() 替换 try_remainder()
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
- 2024 年 8 月 1 日
[中断性变更]在 Databricks Runtime 15.3 及更高版本中,调用使用
VARIANT
类型作为参数或返回值的任何 Python 用户定义函数 (UDF)、用户定义聚合函数(UDAF)或用户定义表函数 (UDTF) 将引发异常。 进行此更改是为了防止由于其中一个函数返回的无效值而可能发生的问题。 若要了解有关VARIANT
类型的详细信息,请参阅使用 VARIANT 存储半结构化数据。在配置了共享访问模式的计算中,Kafka 批量读取和写入现在具有与结构化流相同的限制。 请参阅 Unity Catalog 共享访问模式的流式处理限制和要求。
SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。[SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
[SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
[SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
[SPARK-48713][SQL] 当 baseObject 为字节数组时,为 UnsafeRow.pointTo 添加索引范围检查
[SPARK-48834][SQL] 在查询编译期间禁用对 Python 标量 UDF、UDTF、UDAF 的变体输入/输出
[SPARK-48934][SS] Python 日期/时间类型转换错误,无法在 applyInPandasWithState 中设置超时
[SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
[SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
[SPARK-48889][SS] testStream 在完成之前卸载状态存储
[SPARK-49054][SQL] 列默认值应支持 current_* 函数
[SPARK-48653][PYTHON] 修复无效的 Python 数据源错误类引用
[SPARK-48463] 使 StringIndexer 支持嵌套输入列
[SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性,在会话已被服务器关闭的情况下不会失败
[SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
操作系统安全更新。
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 要在读取数据、基于文件的数据源(如 Parquet、ORC、CSV 或 JSON)时忽略无效的分区,可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。 例如:spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。 也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。 但数据源选项优先于 SQL 配置。 默认情况下,此设置为 false。
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- 还原“[SPARK-47406][SQL] 处理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME”
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48503][14.3-15.3][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48556][SQL] 修复了指向 UNSUPPORTED_GROUPING_EXPRESSION 的不正确的错误消息
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
Databricks Runtime 15.2
- 2024 年 10 月 22 日
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止无限循环
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化(正确性修复)
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- 操作系统安全更新。
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- 操作系统安全更新。
- 2024 年 9 月 25 日
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的 RegrSlope 和 RegrIntercept 计算 bug
- [SPARK-49458][CONNECT][PYTHON]通过 ReattachExecute 提供服务器端会话 ID
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- 操作系统安全更新。
- 2024 年 8 月 29 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用
_proto_to_string
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- [SPARK-48740][SQL] 及早发现缺少窗口规范错误
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49047][PYTHON][CONNECT] 截断信息以便记录
- 2024 年 8 月 1 日
- 在配置了共享访问模式的计算中,Kafka 批量读取和写入现在具有与结构化流相同的限制。 请参阅 Unity Catalog 共享访问模式的流式处理限制和要求。
SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-48047][SQL] 减少空 TreeNode 标记的内存压力
- [SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性,在会话已被服务器关闭的情况下不会失败
- [SPARK-48873][SQL] 在 JSON 分析程序中使用 UnsafeRow。
- [SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-48713][SQL] 当 baseObject 为字节数组时,为 UnsafeRow.pointTo 添加索引范围检查
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
- [SPARK-48934][SS] Python 日期/时间类型转换错误,无法在 applyInPandasWithState 中设置超时
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 在无服务器笔记本和作业上,将会默认启用 ANSI SQL 模式,并支持短名称
- 要在读取数据、基于文件的数据源(如 Parquet、ORC、CSV 或 JSON)时忽略无效的分区,可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。 例如:spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)`。 也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。 但数据源选项优先于 SQL 配置。 默认情况下,此设置为 false。
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48286] 修复了使用 exists 默认表达式的列的分析 - 添加面向用户的错误
- [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写
- [SPARK-48556][SQL] 修复了指向 UNSUPPORTED_GROUPING_EXPRESSION 的不正确的错误消息
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48566][PYTHON] 修复了当 UDTF analyze() 同时使用 select 和 partitionColumns 时分区索引不正确的 bug
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-47463][SQL] 使用 V2Predicate 包装返回类型为布尔的表达式
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
applyInPandasWithState()
在共享群集上可用。- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- 修复了 try_divide() 函数中的 bug,其中包含小数的输入导致意外异常。
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-48276][PYTHON][CONNECT] 为
SQLExpression
添加缺少的__repr__
方法 - [SPARK-48014][SQL] 将 EvaluatePython 中的 makeFromJava 错误更改为面向用户的错误
- [SPARK-48016][SQL] 修复了使用十进制时 try_divide 函数中的 bug
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48056][CONNECT][PYTHON] 如果引发 SESSION_NOT_FOUND 错误,并且未收到部分响应,则重新执行计划
- [SPARK-48172][SQL] 修复了向后移植到 15.2 的 JDBCDialects 中的转义问题
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48288] 为连接器强制转换表达式添加源数据类型
- [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- 还原“[SPARK-47406][SQL] 处理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME”
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理随机依赖项
- [SPARK-47921][CONNECT] 修复 ExecuteHolder 中的 ExecuteJobTag 创建
- [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
- [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
- [SPARK-48180][SQL] 改进了使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY exprs 周围的括号时的错误
- 操作系统安全更新。
Databricks Runtime 14.3
请参阅 Databricks Runtime 14.3 LTS。
- 2024 年 10 月 22 日
- [SPARK-48843] 使用 BindParameters 防止无限循环
- [SPARK-49863][SQL]修复 NormalizeFloatingNumbers 以保留嵌套结构的可为 Null 性
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- [SPARK-46632][SQL] 修复当等效三元表达式具有不同的子表达式时的子表达式消除
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] 为 Foreach 接收器用户函数错误的错误类分类
- [SPARK-49829] 修改在流联接中将输入添加到状态存储的优化(正确性修复)
- 操作系统安全更新。
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- [SPARK-49688][CONNECT] 修复中断和执行计划之间的数据争用
- 2024 年 9 月 25 日
- [SPARK-48810][CONNECT] 会话 stop() API 应具有幂等性,在会话已被服务器关闭的情况下不会失败
- [SPARK-48719][SQL]修复 RegrS 的计算 bug...
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-49492][CONNECT] 在非活动 ExecutionHolder 上尝试重新附加
- 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT] 截断 protobuf 消息时限制嵌套级别
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- [SPARK-49409][CONNECT] 调整 CONNECT_SESSION_PLAN_CACHE_SIZE 的默认值
- [SPARK-49366][CONNECT] 将 Union 节点视为数据帧列解析中的叶
- 2024 年 8 月 29 日
- [SPARK-49146][SS] 将追加模式流查询中有关缺少水印的断言错误移至错误框架
- [SPARK-48862][PYTHON][CONNECT] 避免在未启用 INFO 级别时调用
_proto_to_string
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48934][SS] Python 日期/时间类型转换错误,无法在 applyInPandasWithState 中设置超时
- 2024 年 8 月 1 日
- 此版本包括对 Spark Java 接口中的
ColumnVector
和ColumnarArray
类的错误修复。 在修复之前,当其中一个类的实例包含null
值时,可能会抛出ArrayIndexOutOfBoundsException
或返回不正确的数据。 - 在配置了共享访问模式的计算中,Kafka 批量读取和写入现在具有与结构化流相同的限制。 请参阅 Unity Catalog 共享访问模式的流式处理限制和要求。
SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48889][SS] testStream 在完成之前卸载状态存储
- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-48047][SQL] 减少空 TreeNode 标记的内存压力
- [SPARK-48544][SQL] 减少空 TreeNode BitSet 的内存压力
- [SPARK-46957][CORE] 停用迁移的 shuffle 文件应该能够从执行程序中进行清理
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- [SPARK-47713][SQL][CONNECT] 修复自联接失败
- 操作系统安全更新。
- 此版本包括对 Spark Java 接口中的
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - Snowflake JDBC 驱动程序已更新到版本 3.16.1。
- 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- 要在读取数据、基于文件的数据源(如 Parquet、ORC、CSV 或 JSON)时忽略无效的分区,可以将 ignoreInvalidPartitionPaths 数据源选项设置为 true。 例如: spark.read.format("parquet").option("ignoreInvalidPartitionPaths", "true").load(…)。 也可以使用 SQL 配置 spark.sql.files.ignoreInvalidPartitionPaths。 但数据源选项优先于 SQL 配置。 默认情况下,此设置为 false。
- [SPARK-48648][PYTHON][CONNECT] 正确地将 SparkConnectClient.tags 设为 threadlocal
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48252][SQL] 必要时更新 CommonExpressionRef
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
applyInPandasWithState()
在共享群集上可用。- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48310][PYTHON][CONNECT] 缓存的属性必须返回副本
- [SPARK-48276][PYTHON][CONNECT] 为
SQLExpression
添加缺少的__repr__
方法 - [SPARK-48294][SQL] 处理 nestedTypeMissingElementTypeError 中的小写
- 操作系统安全更新。
- 2024 年 5 月 21 日
- (行为更改)
dbutils.widgets.getAll()
现在支持获取笔记本中的所有小组件值。 - 修复了 try_divide() 函数中的 bug,其中包含小数的输入导致意外异常。
- [SPARK-48056][CONNECT][PYTHON] 如果引发 SESSION_NOT_FOUND 错误,并且未收到部分响应,则重新执行计划
- [SPARK-48146][SQL] 修复 With 表达式子断言中的聚合函数
- [SPARK-47986][CONNECT][PYTHON] 服务器关闭默认会话时无法创建新会话
- [SPARK-48180][SQL] 改进了使用 TABLE 参数的 UDTF 调用忘记多个 PARTITION/ORDER BY exprs 周围的括号时的错误
- [SPARK-48016][SQL] 修复了使用十进制时 try_divide 函数中的 bug
- [SPARK-48197][SQL] 避免无效 lambda 函数的断言错误
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- (行为更改)
- 2024 年 5 月 9 日
- (行为更改)
applyInPandas
和mapInPandas
UDF 类型现在在运行 Databricks Runtime 14.3 及更高版本的共享访问模式计算上受支持。 - [SPARK-47739][SQL] 注册逻辑 avro 类型
- [SPARK-47941] [SS] [Connect] 将 ForeachBatch 辅助角色初始化错误传播给 PySpark 用户
- [SPARK-48010][SQL] 避免在 resolveExpression 中重复调用 conf.resolver
- [SPARK-48044][PYTHON][CONNECT] 缓存
DataFrame.isStreaming
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-47543][CONNECT][PYTHON] 从 Pandas DataFrame 将 dict 推断为 Mapype 以允许创建 DataFrame
- [SPARK-47819][CONNECT][Cherry-pick-14.3] 使用异步回调进行执行清理
- [SPARK-47764][CORE][SQL] 基于 ShuffleCleanupMode 清理随机依赖项
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47839][SQL] 修复 RewriteWithExpression 中的聚合 bug
- [SPARK-47371][SQL] XML:忽略 CDATA 中找到的行标记
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
- (行为更改)
- 2024 年 4 月 25 日
- [SPARK-47543][CONNECT][PYTHON] 将
dict
推断为来自 Pandas 数据帧的MapType
,以允许创建数据帧 - [SPARK-47694][CONNECT] 使最大消息大小在客户端可配置
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] 使用缓存架构验证列名称
- [SPARK-47862][PYTHON][CONNECT] 修复 proto 文件生成错误
- 还原“[SPARK-47543][CONNECT][PYTHON] 从 Pandas 数据帧将
dict
推理为MapType
以允许创建数据帧” - [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后,JSON 分析失败,并出现“java.lang.ClassCastException”
- [SPARK-47812][CONNECT] 支持 ForEachBatch 辅助角色的 SparkSession 序列化
- [SPARK-47818][CONNECT][Cherry-pick-14.3] 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失败并出现计划无效错误 - 操作系统安全更新。
- [SPARK-47543][CONNECT][PYTHON] 将
- 2024 年 4 月 11 日
- (行为变更)为了确保各种计算类型实现一致的行为,共享群集上的 PySpark UDF 现在与无隔离群集和已分配群集上的 UDF 行为相一致。 此更新包括以下可能会中断现有代码的更改:
- 具有
string
返回类型的 UDF 不再隐式地将非string
值转换为string
值。 以前,具有str
返回类型的 UDF 会使用str()
函数包装返回值,而不考虑该返回值的实际数据类型。 - 具有
timestamp
返回类型的 UDF 不再对具有timezone
的timestamp
隐式应用转换。 - Spark 群集配置
spark.databricks.sql.externalUDF.*
不再应用于共享群集上的 PySpark UDF。 - Spark 群集配置
spark.databricks.safespark.externalUDF.plan.limit
不再影响 PySpark UDF,从而消除了 PySpark UDF 的每个查询具有 5 个 UDF 的公共预览版限制。 - Spark 群集配置
spark.databricks.safespark.sandbox.size.default.mib
不再应用于共享群集上的 PySpark UDF。 相反,将使用系统上的可用内存。 若要限制 PySpark UDF 的内存,请使用最小值为100m
的spark.databricks.pyspark.udf.isolation.memoryLimit
。
- 具有
- 现在支持将
TimestampNTZ
数据类型用作具有 liquid 聚类分析的聚类分析列。 请参阅对 Delta 表使用 liquid 聚类分析。 - [SPARK-47511][SQL] 通过重新分配 ID 来规范化 With 表达式
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- 操作系统安全更新。
- (行为变更)为了确保各种计算类型实现一致的行为,共享群集上的 PySpark UDF 现在与无隔离群集和已分配群集上的 UDF 行为相一致。 此更新包括以下可能会中断现有代码的更改:
- 2024 年 3 月 14 日
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-47121][CORE] 在 StandaloneSchedulerBackend 关闭期间避免 RejectedExecutionExceptions
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier 应包括表达式树中的其他表达式
- [SPARK-47129][CONNECT][SQL] 正确制定
ResolveRelations
缓存连接计划 - [SPARK-47241][SQL] 修复 ExtractGenerator 的规则顺序问题
- [SPARK-47035][SS][CONNECT] 客户端侦听器的协议
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- [SPARK-47071][SQL] 内联 With 表达式(如果它包含特殊表达式)
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
- [SPARK-46993][SQL] 修复会话变量的常数折叠
- 操作系统安全更新。
- 2024 年 1 月 3 日
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- [SPARK-46954] XML:用 BufferedReader 包装 InputStreamReader。
- [SPARK-46655] 跳过
DataFrame
方法中的查询上下文捕获。 - [SPARK-44815] 缓存 df.schema 以避免额外的 RPC。
- [SPARK-46952] XML:限制损坏记录的大小。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46736] protobuf 连接器中保留空消息字段。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46414] 使用 prependBaseUri 呈现 javascript 导入。
- [SPARK-46383] 通过减短
TaskInfo.accumulables()
的生存期来减少驱动程序堆使用量。 - [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46954] XML:优化架构索引查找。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46644] 更改 SQLMetric 中的添加和合并以使用 isZero。
- [SPARK-46731] 按状态数据源管理状态存储提供程序实例 - 读取器。
- [SPARK-46677] 修复
dataframe["*"]
分辨率。 - [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46227] 回溯移植到 14.3。
- [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString。
- 操作系统安全更新。
Databricks Runtime 14.1
- 2024 年 10 月 22 日
- [SPARK-49782][SQL] ResolveDataFrameDropColumns 规则解析具有子输出的 UnresolvedAttribute
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS] 为 FlatMapGroupsWithState 用户函数错误的错误类分类
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- 操作系统安全更新。
- 2024 年 9 月 25 日
- [SPARK-49628][SQL]在计算之前,ConstantFolding 应复制有状态表达式
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-48719][SQL]修复 RegrS 的计算 bug...
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- 操作系统安全更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect python 客户端:一致处理布尔 DataFrame 读取器选项
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- 2024 年 8 月 14 日
- [SPARK-48706][PYTHON] 高阶函数中的 Python UDF 不应抛出内部错误
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48050][SS] 查询开始时记录逻辑计划
- 2024 年 8 月 1 日
- 此版本包括对 Spark Java 接口中的
ColumnVector
和ColumnarArray
类的错误修复。 在修复之前,当其中一个类的实例包含null
值时,可能会抛出ArrayIndexOutOfBoundsException
或返回不正确的数据。 SHOW CREATE TABLE
语句的输出现在包括在具体化视图或流式处理表上定义的任何行筛选器或列掩码。 请参阅 SHOW CREATE TABLE。 有关行筛选器和列掩码的详细信息,请参阅使用行筛选器和列掩码筛选敏感表数据。- [SPARK-48705][PYTHON] 当 worker_main 通过 pyspark 启动时显式使用 worker_main
- [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- 操作系统安全更新。
- 此版本包括对 Spark Java 接口中的
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48100][SQL] 修复了跳过架构中未选择的嵌套结构字段时出现的问题
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
- 修复了使用 Photon TopK 的排名窗口优化错误地处理包含结构的分区的 bug。
- [SPARK-48276][PYTHON][CONNECT] 为
SQLExpression
添加缺少的__repr__
方法 - [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 操作系统安全更新。
- 2024 年 5 月 21 日
- (行为更改)
dbutils.widgets.getAll()
现在支持获取笔记本中的所有小组件值。 - [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-48173][SQL] CheckAnalysis 应看到整个查询计划
- 操作系统安全更新。
- (行为更改)
- 2024 年 5 月 9 日
- [SPARK-47371][SQL] XML:忽略 CDATA 中找到的行标记
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-48044][PYTHON][CONNECT] 缓存
DataFrame.isStreaming
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] 启用 spark.sql.json.enablePartialResults 后,JSON 分析失败,并出现“java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失败并出现计划无效错误 - 操作系统安全更新。
- 2024 年 4 月 11 日
- [SPARK-47638][PS][CONNECT] 跳过 PS 中的列名称验证
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- [SPARK-47309][SQL][XML] 添加架构推理单元测试
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- [SPARK-46990][SQL] 修复加载事件中心发出的空 Avro 文件的问题
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] 修复 PruneFilters,以正确标记 LocalRelation 的 isStreaming 标志(如果计划具有批处理和流式处理)
- [SPARK-47218][SQL] XML:忽略 XML tokenizer 中的注释行标记
- [SPARK-47300][SQL]
quoteIfNeeded
应该引用以数字开头的标识符 - [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-47322][PYTHON][CONNECT] 使
withColumnsRenamed
列名称重复处理与withColumnRenamed
保持一致 - [SPARK-47300] DecomposerSuite 的修补程序
- [SPARK-47218] [SQL] XML:已将 SchemaOfXml 更改为在 DROPMALFORMED 模式下失败
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- 操作系统安全更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47129][CONNECT][SQL] 正确制定
ResolveRelations
缓存连接计划 - 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- 现在可以使用自动加载程序、read_files、COPY INTO、DLT 和 DBSQL 引入 XML 文件。 XML 文件支持可以自动推断和改进架构、采用类型不匹配的救援数据、使用 XSD 验证 XML、支持 SQL 表达式(如from_xml、schema_of_xml 和 to_xml)。 有关更多详细信息,请参阅 XML 文件支持。 如果以前曾使用过外部 spark-xml 包,请参阅此处以获取迁移指导。
- [SPARK-46248][SQL] XML:支持 ignoreCorruptFiles 和 ignoreMissingFiles 选项
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的错误上下文
- [SPARK-46954][SQL] XML:使用 BufferedReader 包装 InputStreamReader
- [SPARK-46954][SQL] XML:优化架构索引查找
- [SPARK-46630][SQL] XML:写入时验证 XML 元素名称
- 操作系统安全更新。
- 2024 年 2 月 8 日
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
APPLY CHANGES
表进行 CDF 查询。 Databricks Runtime 14.0 及更早版本中的 Unity Catalog 流式处理表不支持 CDF 查询。 - [SPARK-46952] XML:限制损坏记录的大小。
- [SPARK-45182] 在重试由校验和确定的父不确定阶段后忽略旧阶段的任务完成。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-45582] 确保在输出模式流式处理聚合中调用提交后不使用存储实例。
- [SPARK-46930] 添加对 Avro 中联合类型字段的自定义前缀的支持。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46822] 在 jdbc 中将 jdbc 类型转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString。
- [SPARK-45957] 避免为非可执行命令生成执行计划。
- 操作系统安全更新。
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
- 2024 年 1 月 31 日
- [SPARK-46684] 修复 CoGroup.applyInPandas/Arrow 以正确传递参数。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- [SPARK-45498] 跟进:忽略旧阶段尝试的任务完成。
- [SPARK-46382] XML:更新
ignoreSurroundingSpaces
文档。 - [SPARK-46383] 通过减短
TaskInfo.accumulables()
的生存期来减少驱动程序堆使用量。 - [SPARK-46382] XML:默认 ignoreSurroundingSpaces 为 true。
- [SPARK-46677] 修复
dataframe["*"]
分辨率。 - [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46633] 修复 Avro 读取器以处理零长度块。
- [SPARK-45912] XSDToSchema API 增强:更改为 HDFS API 以实现云存储空间辅助功能。
- [SPARK-46599] XML:使用 TypeCoercion.findTightestCommonType 进行兼容性检查。
- [SPARK-46382] XML:捕获混杂在元素之间的值。
- [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
- [SPARK-45964] 删除 catalyst 包下 XML 和 JSON 包中的专用 sql 访问器。
- 还原 [SPARK-46769] 优化与时间戳相关的架构推理。
- [SPARK-45962] 删除
treatEmptyValuesAsNulls
并使用 XML 中的nullValue
选项。 - [SPARK-46541] 修复自联接中的不明确列引用。
- 操作系统安全更新。
- 2024 年 1 月 17 日
- Photon 查询返回的解释计划的
shuffle
节点已更新为在随机读取(广播联接的一部分)期间发生内存不足错误时添加causedBroadcastJoinBuildOOM=true
标志。 - 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,不返回失败。
- [SPARK-46484] 使
resolveOperators
帮助程序函数保留计划 ID。 - [SPARK-46153] XML:添加 TimestampNTZType 支持。
- [SPARK-46152] XML:在 XML 架构推理中添加 DecimalType 支持。
- [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不引发异常。
- [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。 - [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- [SPARK-46587] XML:修复 XSD 大整数转换。
- [SPARK-45814] 使 ArrowConverters.createEmptyArrowBatch 调用 close() 以避免内存泄漏。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46355] XML:在读取完成时关闭 InputStreamReader。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46261]
DataFrame.withColumnsRenamed
应保留 dict/map 排序。 - [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46260]
DataFrame.withColumnsRenamed
应遵循 dict 顺序。 - [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- Photon 查询返回的解释计划的
- 2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-45509] 修复 Spark Connect 的 df 列引用行为。
- [SPARK-45844] 实现 XML 不区分大小写。
- [SPARK-46141] 将 spark.sql.legacy.ctePrecedencePolicy 的默认值更改为 CORRECTED。
- [SPARK-46028] 使
Column.__getitem__
接受输入列。 - [SPARK-46255] 支持复杂类型 -> 字符串转换。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-45316] 向
HadoopRDD
和NewHadoopRDD
添加新参数ignoreCorruptFiles
/ignoreMissingFiles
。 - [SPARK-45852] 正常处理日志记录期间的递归错误。
- [SPARK-45920] 按序号分组应是幂等的。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - 使用自动加载程序或流式处理表引入 CSV 数据时,大型 CSV 文件现在可拆分,并且可以在架构推理和数据处理期间并行处理。
- [SPARK-45892] 重构优化器计划验证,以分离
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45620] 与 Python UDF 相关的 API 现在使用驼峰拼写法。
- [SPARK-44790] 为 Python、Spark Connect 和 SQL 添加了
to_xml
实现和绑定。 - [SPARK-45770] 修复了
Dataframe.drop
的DataFrameDropColumns
的列分辨率问题。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-44784] 使 SBT 测试具有封闭性。
- 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 10 日
- [SPARK-45545]
SparkTransportConf
在创建时继承SSLOptions
。 - [SPARK-45250] 添加了禁用动态分配时对 yarn 群集的阶段级任务资源配置文件的支持。
- [SPARK-44753] 添加了 PySpark SQL 的 XML 数据帧读取器和编写器。
- [SPARK-45396] 添加了
PySpark.ml.connect
模块的文档条目。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45541] 添加了 SSLFactory。
- [SPARK-45577] 修复了
UserDefinedPythonTableFunctionAnalyzeRunner
以从命名参数传递折叠值。 - [SPARK-45562] 已使“rowTag”成为必需选项。
- [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-43380] 修复了 Avro 读取速度变慢的问题。
- [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45386] 修复了
StorageLevel.NONE
错误返回 0 的问题。 - [SPARK-44219] 为优化重写添加了每规则验证检查。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时
InferWindowGroupLimit
会导致问题的问题。 - 操作系统安全更新。
- [SPARK-45545]
- 2023 年 9 月 27 日
- [SPARK-44823] 已将
black
更新为 23.9.1,并修复了错误检查。 - [SPARK-45339] PySpark 现在会记录重试的错误。
- 还原 [SPARK-42946] 编辑嵌套在变量替换下的敏感数据。
- [SPARK-44551] 编辑了注释以与 OSS 同步。
- [SPARK-45360] Spark 会话生成器支持从
SPARK_REMOTE
初始化。 - [SPARK-45279] 已将
plan_id
附加到所有逻辑计划。 - [SPARK-45425] 已将
TINYINT
映射到MsSqlServerDialect
的ShortType
。 - [SPARK-45419] 删除了较高版本的文件版本映射条目,以避免重复使用
rocksdb
sst 文件 ID。 - [SPARK-45488] 添加了对
rowTag
元素中的值的支持。 - [SPARK-42205] 移除了
JsonProtocol
事件日志中Task/Stage
启动事件的Accumulables
日志记录。 - [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - [SPARK-45256]
DurationWriter
在写入的值超过初始容量时失败。 - [SPARK-43380] 修复了
Avro
数据类型转换问题,而不会导致性能回归。 - [SPARK-45182] 添加了对回滚随机映射阶段的支持,因此当阶段输出不确定时可以重试所有阶段任务。
- [SPARK-45399] 使用
newOption
添加了 XML 选项。 - 操作系统安全更新。
- [SPARK-44823] 已将
Databricks Runtime 13.3 LTS
请参阅 Databricks Runtime 13.3 LTS。
- 2024 年 10 月 22 日
- [SPARK-48843] 使用 BindParameters 防止无限循环
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] 为 Foreach 接收器用户函数错误的错误类分类
- [SPARK-49905] 将专用 ShuffleOrigin 用于有状态运算符,以防止从 AQE 修改随机
- 操作系统安全更新。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- [SPARK-48719][SQL] 修复了第一个参数为 null 时出现的 RegrSlope 和 RegrIntercept 计算 bug
- [SPARK-43242][CORE] 修复随机损坏诊断中抛出“BlockId 意外类型”
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- 操作系统安全更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支持 ArtifactManager 中的 Windows 样式路径
- [SPARK-48463][ML] 使 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支持嵌套输入列
- 操作系统安全更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- 2024 年 8 月 1 日
- 此版本包括对 Spark Java 接口中的
ColumnVector
和ColumnarArray
类的错误修复。 在修复之前,当其中一个类的实例包含null
值时,可能会抛出ArrayIndexOutOfBoundsException
或返回不正确的数据。 - [SPARK-47202][PYTHON] 修复导致包含 tzinfo 的日期/时间损坏的拼写错误
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- [SPARK-48463] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
- 此版本包括对 Spark Java 接口中的
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - 此版本包括的修补程序修复了在 Databricks 容器服务中运行时阻止 Spark UI“环境”选项卡正确显示的问题。
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-48292][CORE] 还原 [SPARK-39195][SQL] 当提交的文件与任务状态不一致时,Spark OutputCommitCoordinator 应中止暂存
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON] 优化 PySpark 中的 _get_jvm_function。
- [SPARK-48273][SQL] 修复了 PlanWithUnresolvedIdentifier 的后期重写
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 操作系统安全更新。
- 2024 年 5 月 21 日
- (行为更改)
dbutils.widgets.getAll()
现在支持获取笔记本中的所有小组件值。 - [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- [SPARK-47994][SQL] 修复了 SQLServer 中 CASE WHEN 列筛选器下推的 bug
- 操作系统安全更新。
- (行为更改)
- 2024 年 5 月 9 日
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-46822][SQL] 在 jdbc 中将 jdbc 类型强制转换为 catalyst 类型时,遵循 spark.sql.legacy.charVarcharAsString
- [SPARK-47895][SQL] group by all 应是幂等的
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- 操作系统安全更新。
- 2024 年 4 月 25 日
- [SPARK-44653][SQL] 非普通数据帧联合不应中断缓存
- 其他 Bug 修复。
- 2024 年 4 月 11 日
- [SPARK-47509][SQL] 阻止 lambda 和高阶函数中的子查询表达式
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-47385] 修复具有 Option 输入的元组编码器的问题。
- [SPARK-38708][SQL] 针对 Hive 3.1 将 Hive 元存储客户端升级到 Hive 3.1.3
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- [SPARK-47368][SQL] 删除 ParquetRowConverter 中的 inferTimestampNTZ 配置检查
- [SPARK-44252][SS] 定义新的错误类并应用于从 DFS 加载状态失败的情况
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-47300][SQL]
quoteIfNeeded
应该引用以数字开头的标识符 - [SPARK-47305][SQL] 修复 PruneFilters,以正确标记 LocalRelation 的 isStreaming 标志(如果计划具有批处理和流式处理)
- [SPARK-47070] 修复子查询重写后无效的聚合
- 操作系统安全更新。
- 2024 年 3 月 14 日
- [SPARK-47145][SQL] 将表标识符传递给 V2 策略的行数据源扫描 exec。
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- [SPARK-47044][SQL] 添加 JDBC 外部数据源的已执行查询以解释输出
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- 操作系统安全更新。
- 2024 年 2 月 8 日
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
APPLY CHANGES
表进行 CDF 查询。 Databricks Runtime 14.0 及更早版本中的 Unity Catalog 流式处理表不支持 CDF 查询。 - [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46933] 向使用 JDBCRDD 的连接器添加查询执行时间指标。
- [SPARK-45582] 确保在输出模式流式处理聚合中调用提交后不使用存储实例。
- [SPARK-46396] 时间戳推理不应引发异常。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46941] 如果包含 SizeBasedWindowFunction,则无法为 top-k 计算插入窗口组限制节点。
- 操作系统安全更新。
- 不支持对 Unity Catalog 具体化视图进行更改数据馈送 (CDF) 查询,并且尝试使用 Unity Catalog 具体化视图运行 CDF 查询将返回错误。 Unity Catalog 流式处理表支持对 Databricks Runtime 14.1 及更高版本中的非
- 2024 年 1 月 31 日
- [SPARK-46610] 当选项中没有键的值时,创建表应引发异常。
- [SPARK-46383] 通过缩短 TaskInfo.accumulables() 的生存期减少驱动程序堆使用量。
- [SPARK-46600] 将 SqlConf 和 SqlApiConf 之间的共享代码移动到 SqlApiConfHelper。
- [SPARK-46676] dropDuplicatesWithinWatermark 不应在计划的规范化时失败。
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- 操作系统安全更新。
- 2024 年 1 月 17 日
- Photon 查询返回的解释计划的
shuffle
节点已更新为在随机读取(广播联接的一部分)期间发生内存不足错误时添加causedBroadcastJoinBuildOOM=true
标志。 - 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46173] 在日期分析期间跳过 trimAll 调用。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46370] 修复更改列默认值后从表查询时的 bug。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指数爆炸。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作争用。
- [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,不返回失败。
- [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-46478] 将 SPARK-43049 还原为将 oracle varchar(255) 用于字符串。
- [SPARK-46250] 对 test_parity_listener 执行 deflake 操作。
- [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46056] 使用 byteArrayDecimalType 默认值修复 Parquet 矢量化读取 NPE。
- [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不引发异常。
- [SPARK-46466] 矢量化 parquet 读取器不应对时间戳 ntz 进行变基。
- Photon 查询返回的解释计划的
- 2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-45920] 按序号分组应是幂等的。
- [SPARK-44582] 在 SMJ 上跳过迭代器(如果已清理)。
- [SPARK-45433] 修正时间戳与指定的 timestampFormat 不匹配时的 CSV/JSON 架构推理。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - Spark-snowflake 连接器已升级到 2.12.0。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45892] 重构优化器计划验证,以分离
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 10 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- 更改了 Unity Catalog 流式处理表和具体化视图上的数据馈送查询以显示错误消息。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-44219] 为优化重写添加了额外的每规则验证。
- [SPARK-45543] 修复了当其他窗口函数没有与类似排名的函数相同的窗口帧时
InferWindowGroupLimit
会导致问题的问题。 - 操作系统安全更新。
- 2023 年 10 月 23 日
- [SPARK-45256] 修复了
DurationWriter
在写入的值超过初始容量时会失败的问题。 - [SPARK-45419] 通过移除较大版本的文件版本映射条目,避免重用不同
rocksdb
实例中的rocksdb sst
文件。 - [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 其他修复。
- [SPARK-45256] 修复了
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- 对于正索引和负索引,
array_insert
函数是从 1 开始的;而在以前,对于负索引,它是从于 0 开始的。 现在,它在索引 -1 的输入数组末尾插入新元素。 若要还原以前的行为,请将spark.sql.legacy.negativeIndexInArrayInsert
设置为true
。 - 修复了在使用自动加载程序进行 CSV 架构推理期间启用
ignoreCorruptFiles
时不忽略损坏的文件的问题。 - 还原 [SPARK-42946]。
- [SPARK-42205] 更新了 JSON 协议,以移除任务或阶段启动事件中的可累积日志记录。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-45316] 向
HadoopRDD
和NewHadoopRDD
添加新参数ignoreCorruptFiles
和ignoreMissingFiles
。 - [SPARK-44740] 修复了生成工件的元数据值。
- [SPARK-45360] 从
SPARK_REMOTE
初始化了 Spark 会话生成器配置。 - [SPARK-44551] 编辑了注释以与 OSS 同步。
- [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
- [SPARK-44658]
ShuffleStatus.getMapStatus
现在返回None
而不是Some(null)
。 - [SPARK-44840] 已使负索引的
array_insert()
从 1 开始。
- 2023 年 9 月 14 日
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
alter view
的支持。 - [SPARK-44878] 禁用了对
RocksDB
写入管理器的严格限制,以避免缓存完成时出现插入异常。
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
- 2023 年 8 月 30 日
- dbutils
cp
命令 (dbutils.fs.cp
) 经过优化,可以更快地进行复制。 有了这一改进,根据文件大小的不同,复制操作的速度可以提高 100 倍。 此功能可用于 Databricks 中可访问的所有云和文件系统,包括用于 Unity Catalog Volumes 和 DBFS 装载。 - [SPARK-44455] 在
SHOW CREATE TABLE
结果中用反引号引用标识符。 - [SPARK-44763] 修复了在带间隔的二进制算术中将字符串显示为双精度的问题。
- [SPARK-44871] 修复了
percentile_disc
行为。 - [SPARK-44714] 轻松限制有关查询的 LCA 解析。
- [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44505] 为 DSv2 扫描中的列式支持添加了替代。
- [SPARK-44479] 修复了从空结构类型进行的 protobuf 转换。
- [SPARK-44718] 将
ColumnVector
内存模式配置默认值与OffHeapMemoryMode
配置值匹配。 - [SPARK-42941] 添加了对 Python 中
StreamingQueryListener
的支持。 - [SPARK-44558] 导出 PySpark 的 Spark 连接日志级别。
- [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将 Null 作为第一列值的行。 - [SPARK-44643] 修复了字段为空行时的
Row.__repr__
。 - 操作系统安全更新。
- dbutils
Databricks Runtime 12.2 LTS
请参阅 Databricks Runtime 12.2 LTS。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL] 当修剪 GetArrayStructFields 时,OptimizeCsvJsonExpr 不应更改模式字段
- 2024 年 9 月 25 日
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- 其他 Bug 修复。
- 2024 年 9 月 17 日
- 操作系统安全更新。
- 2024 年 8 月 29 日
- 其他 Bug 修复。
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-49056][SQL] ErrorClassesJsonReader 无法正确处理 null
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
- 2024 年 8 月 1 日
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- 2024 年 8 月 1 日
- 为了应用所需的安全修补程序,Databricks Runtime 12.2 LTS 中的 Python 版本从 3.9.5 升级到 3.9.19。
- 2024 年 7 月 11 日
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
.checkpoint()
在 DataFrame 的整个生命周期中持久保存表状态。 - [SPARK-48481][SQL][SS] 不要针对流式处理数据集应用 OptimizeOneRowPlan
- [SPARK-47070] 修复子查询重写后无效的聚合
- [SPARK-42741][SQL] 当文本为 null 时,不要在二进制比较中将转换解包
- [SPARK-48445][SQL] 不要将 UDF 与昂贵的子级内联
- [SPARK-48503][SQL] 修复了在错误允许的非等效列上使用 group-by 的标量子查询无效的问题
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
- (行为变更)如果源表被覆盖,则针对 Delta 表源缓存的 DataFrame 现在将失效。 此更改意味着对 Delta 表的所有状态更改现在都会使缓存结果无效。 使用
- 2024 年 6 月 17 日
- [SPARK-48277] 改进 ErrorClassesJsonReader.getErrorMessage 的错误消息
- 其他 Bug 修复。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- 2024 年 5 月 9 日
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置可为 null
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-47956][SQL] 对未解析的 LCA 引用进行健全性检查
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- 操作系统安全更新。
- 2024 年 4 月 25 日
- 操作系统安全更新。
- 2024 年 4 月 11 日
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] 修复 PruneFilters,以正确标记 LocalRelation 的 isStreaming 标志(如果计划具有批处理和流式处理)
- [SPARK-44252][SS] 定义新的错误类并应用于从 DFS 加载状态失败的情况
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 操作系统安全更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 帮助程序函数
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 使用定义的位置创建架构现在要求用户对 ANY FILE 拥有 SELECT 和 MODIFY 特权。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
- 操作系统安全更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- 操作系统安全更新。
- 2024 年 1 月 31 日
- [SPARK-46763] 修复了重复属性的 ReplaceDeduplicateWithAggregate 中的断言失败。
- 操作系统安全更新。
- 2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-39440] 添加用于禁用事件时间线的配置。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46417] 调用 hive.getTable 且 throwException 为 false 时,不返回失败。
- [SPARK-43067] 更正 Kafka 连接器中错误类资源文件的位置。
- [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作争用。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46145] 找不到表或视图时,spark.catalog.listTables 不引发异常。
- [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-42852] 从 EquivalentExpressions 还原 NamedLambdaVariable 相关更改。
- 2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- [SPARK-44582] 在 SMJ 上跳过迭代器(如果已清理)。
- [SPARK-45920] 按序号分组应是幂等的。
- [SPARK-45655] 允许 CollectMetrics 的 AggregateFunctions 中的非确定性表达式。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-42205] 移除了
Stage
和Task
启动事件的可累积项日志记录。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- 操作系统安全更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 其他修复。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-42553] 确保间隔后至少有一个时间单位。
- [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志区分大小写。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。
- 2023 年 9 月 12 日
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
alter view
的支持。 - [SPARK-44718] 将
ColumnVector
内存模式配置默认值与OffHeapMemoryMode
配置值匹配。 - [SPARK-43799] 向 PySpark
Protobuf
API 添加了描述符二进制选项。 - 其他修复。
- [SPARK-44873] 在 Hive 客户端中添加了对带有嵌套列的
- 2023 年 8 月 30 日
- [SPARK-44485] 优化了
TreeNode.generateTreeString
。 - [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44871][11.3-13.0] 修复了
percentile_disc
行为。 - [SPARK-44714] 缓解了对查询的 LCA 解析的限制。
- 操作系统安全更新。
- [SPARK-44485] 优化了
- 2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 操作系统安全更新。
- 2023 年 7 月 29 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
dbutils.fs.ls()
返回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的问题。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - 操作系统安全更新。
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
- 2023 年 7 月 24 日
- [SPARK-44337] 修复了将任何字段设置为
Any.getDefaultInstance
会导致分析错误的问题。 - [SPARK-44136] 修复了
StateManager
可能会在FlatMapGroupsWithStateExec
中的执行程序而不是驱动程序中具体化的问题。 - 操作系统安全更新。
- [SPARK-44337] 修复了将任何字段设置为
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数错误测试。 - 操作系统安全更新。
- 已光子化
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413][11.3-13.0] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43522] 修复了使用数组索引创建结构列名的问题。
- [SPARK-43541] 在解析表达式和缺失列时传播所有
Project
标记。 - [SPARK-43527] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43123] 内部字段元数据不再泄漏到目录。
- [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。
- [SPARK-42444]
DataFrame.drop
现在可正确处理重复的列。 - [SPARK-42937]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - [SPARK-43286] 更新了
aes_encrypt
CBC 模式以生成随机 IV。 - [SPARK-43378] 正确关闭
deserializeFromChunkedBuffer
中的流对象。
- 2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Avro 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 自动加载程序现在会执行以下操作。
- 正确读取,并且不再补救
Integer
、Short
和Byte
类型(如果提供了这些类型之一),但 Avro 文件建议使用其它两种类型之一。 - 防止将间隔类型读取为日期或时间戳类型,以避免获取损坏的日期。
- 防止读取精度较低的
Decimal
类型。
- 正确读取,并且不再补救
- [SPARK-43172] 从 Spark 连接客户端公开主机和令牌。
- [SPARK-43293] 会在常规列中忽略
__qualified_access_only
。 - [SPARK-43098] 修复了按子句对标量子查询进行分组时的正确性
COUNT
bug。 - [SPARK-43085] 支持多部件表名称的列
DEFAULT
分配。 - [SPARK-43190]
ListQuery.childOutput
现在与辅助输出保持一致。 - [SPARK-43192] 移除了用户代理字符集验证。
- 操作系统安全更新。
- 2023 年 4 月 25 日
- 如果仅使用
failOnUnknownFields
选项或者在failOnNewColumns
架构演化模式下使用自动加载程序读取 Parquet 文件,则具有不同数据类型的列将被读取为null
,而不是引发一个错误,指出该文件不可读取。 这些读取操作现在会失败并建议用户使用rescuedDataColumn
选项。 - 如果提供了其中某种数据类型,自动加载程序现在可以正确读取,而不再补救
Integer
、Short
和Byte
类型。 Parquet 文件建议使用其他两种类型之一。 如果先前已启用补救数据列,则数据类型不匹配会导致补救列,即使这些列是可读的。 - [SPARK-43009] 使用
Any
常数参数化sql()
- [SPARK-42406] 通过删除字段来终止 Protobuf 递归字段
- [SPARK-43038] 通过
aes_encrypt()
/aes_decrypt()
支持 CBC 模式 - [SPARK-42971] 当工作器处理
WorkDirCleanup
事件时,如果appDirs
为 null,则更改为输出workdir
- [SPARK-43018] 修复带时间戳文本的 INSERT 命令的 bug
- 操作系统安全更新。
- 如果仅使用
- 2023 年 4 月 11 日
- 在
SYNC
命令中支持旧数据源格式。 - 修复存储库外部的笔记本中的 %autoreload 行为问题。
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42928] 使
resolvePersistentFunction
同步。 - [SPARK-42936] 修复当子句可以直接由其子聚合解析时的 LCan 问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的
SparkListenerTaskStart.stageAttemptId
。 - 操作系统安全更新。
- 在
- 2023 年 3 月 29 日
Databricks SQL 现在支持在创建表时或之后为 Delta Lake 表的列指定默认值。 后续的
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用显式DEFAULT
关键字引用任何列的默认值。 此外,如果任何INSERT
赋值具有列比目标表更少的显式列表,则相应的列默认值将替换其余列(如果未指定默认值,则替换为 NULL)。例如:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
自动加载程序现在对
Trigger.AvailableNow
流启动至少一个同步 RocksDB 日志清理操作,以检查是否可以定期清理检查点,以快速运行自动加载程序流。 这可能会导致某些流在关闭之前花费更长时间,但会节省存储成本并改善将来的运行的自动加载程序体验。现在可以使用
DeltaTable.addFeatureSupport(feature_name)
修改 Delta 表以添加表功能的支持。[SPARK-42794] 将 lockAcquireTimeoutMs 增加到 2 分钟以获取结构流式处理中的 RocksDB 状态存储
[SPARK-42521] 使用列数量少于目标表的用户指定列表为 INSERT 添加 NULL
[SPARK-42702][SPARK-42623] 在子查询和 CTE 中支持参数化查询
[SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
[SPARK-42403] JsonProtocol 应处理 null JSON 字符串
- 2023 年 3 月 8 日
- 错误消息“无法初始化配置”已得到改进,将为客户提供更多上下文。
- 使用表属性向 Delta 表添加功能的术语发生了变化。 首选语法现在是
'delta.feature.featureName'='supported'
而不是'delta.feature.featureName'='enabled'
。 为了实现后向兼容性,现在仍可使用'delta.feature.featureName'='enabled'
,并且今后可继续使用。 - 从此版本开始,可以使用附加表属性
delta.ignoreProtocolDefaults
创建/替换表,以忽略与协议相关的 Spark 配置,其中包括默认读取器和写入器版本,以及默认支持的表功能。 - [SPARK-42070] 将 Mask 函数参数的默认值从 -1 更改为 NULL
- [SPARK-41793] 范围子句针对较大小数定义的时间范围结果不正确
- [SPARK-42484] 改进了 UnsafeRowUtils 错误消息
- [SPARK-42516] 在创建视图时始终捕获会话时区配置
- [SPARK-42635] 修复 TimestampAdd 表达式。
- [SPARK-42622] 禁用了值的替换
- [SPARK-42534] 修复 DB2Dialect Limit 子句
- [SPARK-42121] 添加内置表值函数 posexplode、posexplode_outer、json_tuple 和 stack
- [SPARK-42045] ANSI SQL 模式:Round/Bround 应在微型/小型/大型整数溢出时返回错误
- 操作系统安全更新。
Databricks Runtime 11.3 LTS
请参阅 Databricks Runtime 11.3 LTS。
- 2024 年 10 月 10 日
- 其他 Bug 修复。
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- 其他 Bug 修复。
- 2024 年 9 月 17 日
- 操作系统安全更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
- 操作系统安全更新。
- 2024 年 8 月 1 日
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- 2024 年 8 月 1 日
- 为了应用所需的安全修补程序,Databricks Runtime 11.3 LTS 中的 Python 版本从 3.9.5 升级到 3.9.19。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- [SPARK-47070] 修复子查询重写后无效的聚合
- 操作系统安全更新。
- 2024 年 6 月 17 日
- 操作系统安全更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置可为 null
- 操作系统安全更新。
- 2024 年 4 月 25 日
- 操作系统安全更新。
- 2024 年 4 月 11 日
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-44252][SS] 定义新的错误类并应用于从 DFS 加载状态失败的情况
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 操作系统安全更新。
- 2024 年 3 月 14 日
- [SPARK-47167][SQL] 为 JDBC 匿名关系添加实际类别
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
- 2024 年 2 月 13 日
- [SPARK-46794] 从 LogicalRDD 约束中删除子查询。
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- 操作系统安全更新。
- 2024 年 1 月 31 日
- 操作系统安全更新。
- 2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46602] 当视图/表不存在时在视图创建中传播
allowExisting
。 - [SPARK-46394] 修复
spark.sql.legacy.keepCommandOutputSchema
设置为 true 时具有特殊字符的架构的 spark.catalog.listDatabases() 问题。 - [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-39440] 添加用于禁用事件时间线的配置。
- [SPARK-46249] 需要实例锁来获取 RocksDB 指标,以防止与后台操作争用。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- 2023 年 12 月 14 日
- 修复了源自 JDBC 或 ODBC 客户端的 getColumns 操作中的转义下划线被错误处理并解释为通配符的问题。
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - 修复了源自 JDBC 或 ODBC 客户端的
getColumns
操作中的转义下划线被错误解释为通配符的问题。 - [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 14 日
- Delta Lake 流式处理查询上的分区筛选器会向下推送,然后再进行速率限制,从而实现更高的利用率。
- [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - 还原 [SPARK-33861]。
- [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45430]
FramelessOffsetWindowFunction
在IGNORE NULLS
和offset > rowCount
时不再失败。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - 操作系统安全更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 其他修复。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- Snowflake-jdbc 依赖项从 3.13.29 升级到 3.13.33。
- [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。 - [SPARK-45346] 在合并架构时,Parquet 架构推理采用的标志现在区分大小写。
- 操作系统安全更新。
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - [SPARK-44871][11.3-13.0] 修复了
percentile_disc
行为。 - 操作系统安全更新。
- [SPARK-44818] 修复了初始化
- 2023 年 8 月 15 日
- [SPARK-44485] 优化了
TreeNode.generateTreeString
。 - [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-44464] 修复了
applyInPandasWithStatePythonRunner
以输出将Null
作为第一列值的行。 - 操作系统安全更新。
- [SPARK-44485] 优化了
- 2023 年 7 月 27 日
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
dbutils.fs.ls()
返回INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的问题。 - [SPARK-44199]
CacheManager
不再不必要地刷新fileIndex
。 - 操作系统安全更新。
- 修复了在调用与其他外部或托管存储位置存在冲突的存储位置路径时
- 2023 年 7 月 24 日
- [SPARK-44136] 修复了 StateManager 可能会在 FlatMapGroupsWithStateExec 中的执行程序而不是驱动程序中具体化的问题。
- 操作系统安全更新。
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- 已光子化
approx_count_distinct
。 - Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43779]
ParseToDate
现在会在主线程中加载EvalMode
。 - [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数 bug 测试。 - [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- 操作系统安全更新。
- 已光子化
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 使用
SHALLOW CLONE
Iceberg 和 Parquet 提高增量更新的性能。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404]跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43527] 修复了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43413][11.3-13.0] 修复了
IN
子查询ListQuery
的为 Null 性。 - [SPARK-43340] 修复了事件日志中堆栈跟踪字段缺失的问题。
Databricks Runtime 10.4 LTS
请参阅 Databricks Runtime 10.4 LTS。
- 2024 年 10 月 22 日
- 操作系统安全更新。
- 2024 年 10 月 10 日
- 操作系统安全更新。
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE] 修复 handleStatusMessage 中的日志错误
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- 操作系统安全更新。
- 2024 年 9 月 17 日
- 操作系统安全更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- 2024 年 8 月 14 日
- [SPARK-48597][SQL] 在逻辑计划的文本表示形式中引入 isStreaming 属性的标记
- [SPARK-48941][SPARK-48970] 向后移植 ML 写入器/读取器修复
- [SPARK-48463][ML] 使 StringIndexer 支持嵌套输入列
- 2024 年 8 月 1 日
- [SPARK-48896] [SPARK-48909] [SPARK-48883] 向后移植 Spark ML 写入器修复
- 操作系统安全更新。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] 针对 Kafka 的 startOffset 选项中的不匹配分区引发更好的错误
- 操作系统安全更新。
- 2024 年 6 月 17 日
- 操作系统安全更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] 修复引发 KafkaException.couldNotReadOffsetRange 时导致缺少参数错误的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置可为 null
- 操作系统安全更新。
- 2024 年 4 月 25 日
- 操作系统安全更新。
- 2024 年 4 月 11 日
- 操作系统安全更新。
- 2024 年 4 月 1 日
- [SPARK-47135][SS] 实现 Kafka 数据丢失异常的错误类
- [SPARK-44252][SS] 定义新的错误类并应用于从 DFS 加载状态失败的情况
- [SPARK-47200][SS] Foreach 批处理接收器用户函数错误的错误类
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- 操作系统安全更新。
- 2024 年 3 月 14 日
- [SPARK-47125][SQL] 如果 Univocity 从不触发分析,则返回 null
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- [SPARK-45582][SS] 确保在输出模式流式处理聚合中调用提交后不使用存储实例
- 操作系统安全更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- 操作系统安全更新。
- 2024 年 1 月 31 日
- 操作系统安全更新。
- 2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-46538] 修复
ALSModel.transform
中的不明确列引用问题。 - [SPARK-39440] 添加用于禁用事件时间线的配置。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- 2023 年 12 月 14 日
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-43718] 修复了
USING
联接中键的为 Null 性。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之后的复杂分组表达式。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 14 日
- [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - 还原 [SPARK-33861]。
- 操作系统安全更新。
- [SPARK-45541] 添加了
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 操作系统安全更新。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- [SPARK-45084]
StateOperatorProgress
将使用准确、够用的随机分区号。 - [SPARK-45178] 回退到运行源不受支持的
Trigger.AvailableNow
的单个批处理,而不是使用包装器。 - 操作系统安全更新。
- [SPARK-45084]
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- [SPARK-44818] 修复了初始化
taskThread
之前发出的挂起任务中断的争用。 - 操作系统安全更新。
- [SPARK-44818] 修复了初始化
- 2023 年 8 月 15 日
- [SPARK-44504] 维护任务在停止错误时清理已加载的提供程序。
- [SPARK-43973] 结构化流式处理 UI 现在正确显示失败的查询。
- 操作系统安全更新。
- 2023 年 6 月 23 日
- 操作系统安全更新。
- 2023 年 6 月 15 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
- [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询
- [SPARK-43156][SPARK-43098] 扩展了禁用
decorrelateInnerQuery
时的标量子查询计数测试。 - 操作系统安全更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 修复了 JSON 补救数据分析中的问题,以防止出现
UnknownFieldException
。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-43404] 跳过对相同版本的 RocksDB 状态存储重用 sst 文件,以避免出现 ID 不匹配错误。
- [SPARK-43413] 修复了
IN
子查询ListQuery
的为 Null 性。 - 操作系统安全更新。
- 2023 年 5 月 17 日
- 通过动态调整批大小来扫描结构异常的文件时,Parquet 扫描现在对 OOM 具有强大的性能。 对文件元数据进行分析文件,以抢先降低批大小,并在任务重试时再次降低,作为最终的安全网。
- [SPARK-41520] 拆分
AND_OR
树模式以区分AND
和OR
。 - [SPARK-43190]
ListQuery.childOutput
现在与辅助输出保持一致。 - 操作系统安全更新。
- 2023 年 4 月 25 日
- [SPARK-42928] 使
resolvePersistentFunction
同步。 - 操作系统安全更新。
- [SPARK-42928] 使
- 2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42937]
PlanSubqueries
现在会将InSubqueryExec#shouldBroadcast
设置为 true。 - [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- [SPARK-42668] 尝试关闭 HDFSStateStoreProvider 中的压缩流停止时捕获异常
- [SPARK-42635] 修复 …
- 操作系统安全更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 修复使用聚合的自联接的反联接和半联接
- [SPARK-33206] 修复对小型索引文件的随机索引缓存权重计算
- [SPARK-42484] 改进了
UnsafeRowUtils
错误消息 - 其他修复。
- 2023 年 2 月 28 日
- 支持 yyyy-MM-dd date_format 的生成列。 此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 支持 yyyy-MM-dd date_format 的生成列。 此更改支持 yyyy-MM-dd 的分区修剪作为生成的列中的 date_format。
- 操作系统安全更新。
- 2023 年 2 月 16 日
- [SPARK-30220] 支持在 Filter 节点外部使用 Exists/In 子查询
- 操作系统安全更新。
- 2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- 2023 年 1 月 18 日
- Azure Synapse 连接器会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
。 - [SPARK-38277] 在 RocksDB 状态存储提交后清除写入批
- [SPARK-41199] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
- [SPARK-41198] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标。
- [SPARK-41339] 关闭并重新创建 RocksDB 写入批而不是仅仅清除。
- [SPARK-41732] 对 SessionWindowing 规则应用基于树模式的修剪。
- 操作系统安全更新。
- Azure Synapse 连接器会在列名称包含无效字符(例如空格或分号)时返回更具描述性的错误消息。 在这种情况下,将返回以下消息:
- 2022 年 11 月 29 日
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
csvignoreleadingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中移除前导空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。csvignoretrailingwhitespace
,设置为true
时,如果tempformat
设置为CSV
或CSV GZIP
,则会在写入期间从值中移除尾随空格。 当 config 设置为false
时保留空格。 默认情况下,该值为true
。
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。 - 操作系统安全更新。
- 在使用 Redshift 连接器写入数据时,用户可以配置前导和尾部空格的行为。 已添加以下选项来控制空格处理:
- 2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- [SPARK-40646] 已修复对结构、映射和数组的 JSON 分析,当记录的一部分与架构不匹配时,记录的其余部分仍可正常分析,而不会返回 null。 若要选择启用改进的行为,请将
spark.sql.json.enablePartialResults
设置为true
。 默认已禁用该标志以保留原始行为。 - [SPARK-40292] 修复了从嵌套结构中引用数组时
arrays_zip
函数中的列名 - 操作系统安全更新。
- 2022 年 11 月 1 日
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,会错误地为该列中的数据填充 NULL 值。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40697] 添加读取端字符填充以包括外部数据文件
- [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 修复了以下问题:如果 Delta 表包含名为
- 2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- [SPARK-40468] 修复选中
_corrupt_record
时 CSV 中的列修剪。 - 操作系统安全更新。
- [SPARK-40468] 修复选中
- 2022 年 9 月 22 日
- 用户可以将 spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) 设置为在 ADLS Gen2 上为自动加载程序重新启用内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。 - [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40213] 支持拉丁语 - 1 字符的 ASCII 值转换
- [SPARK-40380] 修复 InvokeLike 的常量折叠,以避免计划中嵌入不可序列化的文本
- [SPARK-38404] 当嵌套 CTE 引用外部 CTE 时改进 CTE 解析
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 用户可以将 spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步。
- [SPARK-40218] GROUPING SETS 应保留分组列。
- [SPARK-39976] ArrayIntersect 应正确处理左表达式中的 null。
- [SPARK-40053] 将
assume
添加到需要 Python 运行时环境的动态取消案例。 - [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载。
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证。
- 2022 年 8 月 24 日
- [SPARK-39983] 不要在驱动程序上缓存未序列化的广播关系。
- [SPARK-39775] 禁用在分析 Avro 架构时验证默认值。
- [SPARK-39962] 当组属性为空时应用投影
- [SPARK-37643] 当 charVarcharAsString 为 True 时,对于 char 数据类型谓词查询,应跳过 rpadding 规则。
- 操作系统安全更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 修复调用方线程中断时 RocksDBLoader.loadLibrary() 中的争用条件
- [SPARK-39731] 修复了在使用 CORRECTED 时间分析程序策略分析“yyyyMMdd”格式的日期时 CSV 和 JSON 数据源中出现的问题
- 操作系统安全更新。
- 2022 年 7 月 27 日
- [SPARK-39625] 添加 Dataset.as(StructType)。
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的
lineSep
。 - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 应该是线程安全的。
- [SPARK-39570] 内联表应该允许带有别名的表达式。
- [SPARK-39702] 通过使用共享 byteRawChannel 减少 TransportCipher$EncryptedMessage 的内存开销。
- [SPARK-39575] 在 AvroDeserializer 中的 ByteBuffer#get 之后添加 ByteBuffer#rewind。
- [SPARK-39476] 从 Long 转换为 Float/Double 或从 Integer 转换为 Float 时禁用展开强制转换优化。
- [SPARK-38868] 优化外部联接时不要传播来自筛选器谓词的异常。
- 操作系统安全更新。
- 2022 年 7 月 20 日
- 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39355] 单列使用引号构造 UnresolvedAttribute。
- [SPARK-39548] 具有窗口子句查询的 CreateView 命令遇到“找不到错误的窗口定义”问题。
- [SPARK-39419] 修复在比较运算符返回 null 时引发异常的 ArraySort 问题。
- 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
- 操作系统安全更新。
- 2022 年 7 月 5 日
- [SPARK-39376] 隐藏 NATURAL/USING JOIN 中子查询别名的星号扩展中的重复列
- 操作系统安全更新。
- 2022 年 6 月 15 日
- [SPARK-39283] 修复 TaskMemoryManager 和 UnsafeExternalSorter.SpillableIterator 之间的死锁。
- [SPARK-39285] 读取文件时,Spark 不应检查字段名称。
- [SPARK-34096] 提高偏移窗口上 nth_value ignore nulls 的性能。
- [SPARK-36718] 修复 CollapseProject 中的
isExtractOnly
检查。
- 2022 年 6 月 2 日
- [SPARK-39093] 避免在将年-月间隔或日期-时间间隔除以整数时出现 codegen 生成编译错误。
- [SPARK-38990] 避免在评估 date_trunc/trunc 格式作为绑定引用时出现 NullPointerException。
- 操作系统安全更新。
- 2022 年 5 月 18 日
- 修复自动加载程序中潜在的内置泄漏。
- [SPARK-38918] 嵌套列修剪应筛除不属于当前关系的属性。
- [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,则通过 LONG_ARRAY_OFFSET 减少默认页面大小。
- [SPARK-39084] 通过使用 TaskContext 在任务完成时停止迭代器来修复 df.rdd.isEmpty()。
- [SPARK-32268] 在 injectBloomFilter 中添加 ColumnPruning。
- [SPARK-38974] 在列表函数中使用给定的数据库名称筛选已注册的函数。
- [SPARK-38931] 在第一个检查点上为 RocksDBFileManager 创建根 dfs 目录,其密钥数未知。
- 操作系统安全更新。
- 2022 年 4 月 19 日
- 将 Java AWS SDK 从版本 1.11.655 升级到了 1.12.1899。
- 修复了笔记本范围的库在批处理流作业中无法正常工作的问题。
- [SPARK-38616] 跟踪 Catalyst TreeNode 中的 SQL 查询文本
- 操作系统安全更新。
- 2022 年 4 月 6 日
- 以下 Spark SQL 函数现已在此版本中提供:
timestampadd()
和dateadd()
:将指定单位的持续时间添加到时间戳表达式。timestampdiff()
和datediff()
:以指定单位计算两个时间戳表达式之间的时间差。
- Parquet-MR 已升级到 1.12.2
- 改进了对 parquet 文件中的综合架构的支持
- [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中进行提取。
- [SPARK-38509][SPARK-38481] 挑拣三个
timestmapadd/diff
更改。 - [SPARK-38523] 修复从 CSV 引用损坏的记录列的问题。
- [SPARK-38237] 允许
ClusteredDistribution
要求完整的群集密钥。 - [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化。
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上强制转换表达式。
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合。
- 操作系统安全更新。
- 以下 Spark SQL 函数现已在此版本中提供:
Databricks Runtime 9.1 LTS
请参阅 Databricks Runtime 9.1 LTS。
- 2024 年 10 月 22 日
- 操作系统安全更新。
- 2024 年 10 月 10 日
- 操作系统安全更新。
- 2024 年 9 月 25 日
- [SPARK-49000][SQL] 通过展开RewriteDistinctAggregates 来修复“select count(distinct 1) from t”,其中 t 为空表
- 操作系统安全更新。
- 2024 年 9 月 6 日
- 操作系统安全更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] 在旧格式化程序/分析程序中变基必须支持非 JVM 默认时区
- 2024 年 8 月 14 日
- 2024 年 8 月 1 日
- 操作系统安全更新。
- 2024 年 7 月 11 日
- 操作系统安全更新。
- 2024 年 6 月 17 日
- 操作系统安全更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修复了状态存储卸载和快照之间的争用条件
- 操作系统安全更新。
- 2024 年 5 月 9 日
- [SPARK-47973][CORE] 在 SparkContext.stop() 中以及稍后在 SparkContext.assertNotStopped() 中记录调用站点
- [SPARK-44251][SQL] 在完全外部 USING 联接中的联合联接键上正确设置可为 null
- 操作系统安全更新。
- 2024 年 4 月 25 日
- 其他 Bug 修复。
- 2024 年 4 月 11 日
- 操作系统安全更新。
- 2024 年 4 月 1 日
- 还原“[SPARK-46861][CORE] 避免 DAGScheduler 中的死锁”
- 操作系统安全更新。
- 2024 年 3 月 14 日
- 操作系统安全更新。
- 2024 年 2 月 29 日
- 修复了在 MERGE 命令中使用本地集合作为源可能会导致操作指标 numSourceRows 报告将正确的行数加倍的问题。
- 操作系统安全更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的死锁。
- 操作系统安全更新。
- 2024 年 1 月 31 日
- 操作系统安全更新。
- 2023 年 12 月 25 日
- 为了避免在通过 TLSv1.3 通信时增加延迟,此维护版本包括 JDK 8 安装的修补程序,以修复 JDK bug JDK-8293562。
- [SPARK-46058] 为 privateKeyPassword 添加单独的标志。
- [SPARK-39440] 添加用于禁用事件时间线的配置。
- [SPARK-46132] 支持用于 RPC SSL 的 JKS 密钥的密钥密码。
- 2023 年 12 月 14 日
- 操作系统安全更新。
- 2023 年 11 月 29 日
- 安装了一个新包
pyarrow-hotfix
以修正 PyArrow RCE 漏洞。 - [SPARK-45859] 将
ml.functions
中的 UDF 对象设为惰性。 - [SPARK-45544] 向
TransportContext
中集成了 SSL 支持。 - [SPARK-45730] 改进了
ReloadingX509TrustManagerSuite
的时间限制。 - 操作系统安全更新。
- 安装了一个新包
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
将在创建时继承SSLOptions
。 - [SPARK-45429] 为 SSL RPC 通信添加了帮助程序类。
- [SPARK-45427] 向
SSLOptions
和SparkTransportConf
添加了 RPC SSL 设置。 - [SPARK-45584] 修复了
TakeOrderedAndProjectExec
子查询运行失败的问题。 - [SPARK-45541] 添加了
SSLFactory
。 - [SPARK-42205] 移除了“阶段”和“任务”启动事件的可累积项日志记录。
- 操作系统安全更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426] 添加了对
ReloadingX509TrustManager
的支持。 - 操作系统安全更新。
- [SPARK-45426] 添加了对
- 2023 年 10 月 13 日
- 操作系统安全更新。
- 2023 年 9 月 10 日
- 其他修复。
- 2023 年 8 月 30 日
- 操作系统安全更新。
- 2023 年 8 月 15 日
- 操作系统安全更新。
- 2023 年 6 月 23 日
- Snowflake-jdbc 库已升级到 3.13.29 以解决安全问题。
- 操作系统安全更新。
- 2023 年 6 月 15 日
- [SPARK-43098] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug。
- [SPARK-43156][SPARK-43098] 扩展禁用
decorrelateInnerQuery
时的标量子查询计数 bug 测试。 - [SPARK-40862]支持 RewriteCorrelatedScalarSubquery 中的非聚合子查询。
- 操作系统安全更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式下的 JSON 分析程序丢弃DROPMALFORMED
模式下的记录,并在FAILFAST
模式下直接失败。- 修复了 JSON 补救数据分析中的问题,以防止出现
UnknownFieldException
。 - 修复了自动加载程序中当提供的架构不包含推断的分区时,不同的源文件格式不一致的问题。 在读取推断的分区架构中缺少列的文件时,此问题可能会导致意外失败。
- [SPARK-37520] 添加
startswith()
和endswith()
字符串函数 - [SPARK-43413] 修复了
IN
子查询ListQuery
的为 Null 性。 - 操作系统安全更新。
- 2023 年 5 月 17 日
- 操作系统安全更新。
- 2023 年 4 月 25 日
- 操作系统安全更新。
- 2023 年 4 月 11 日
- 修复了在嵌套 JSON 对象的架构中检测到新列时,自动加载程序架构演变可能会进入无限失败循环的问题。
- [SPARK-42967] 修复在阶段取消后启动任务时的 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- 操作系统安全更新。
- 2023 年 3 月 14 日
- [SPARK-42484] 改进了
UnsafeRowUtils
的错误消息。 - 其他修复。
- [SPARK-42484] 改进了
- 2023 年 2 月 28 日
- 用户现在可以使用 Databricks Runtime 9.1 LTS 或更高版本读取和写入需要读取器版本 3 和写入器版本 7 的特定 Delta 表。 要使操作成功,当前版本的 Databricks Runtime 必须支持表协议中列出的表功能。
- 操作系统安全更新。
- 2023 年 2 月 16 日
- 操作系统安全更新。
- 2023 年 1 月 31 日
- JDBC 表的表类型现在默认为 EXTERNAL。
- 2023 年 1 月 18 日
- 操作系统安全更新。
- 2022 年 11 月 29 日
- 修复了当所有列保留为字符串(
cloudFiles.inferColumnTypes
未设置或设置为false
)且 JSON 包含嵌套对象时自动加载程序中出现的 JSON 分析问题。 - 操作系统安全更新。
- 修复了当所有列保留为字符串(
- 2022 年 11 月 15 日
- 已将 Apache commons-text 升级到 1.10.0。
- 操作系统安全更新。
- 其他修复。
- 2022 年 11 月 1 日
- 修复了以下问题:如果 Delta 表包含名为
_change_type
的用户定义列,但在该表上禁用了更改数据馈送,则在运行MERGE
时,会错误地为该列中的数据填充 NULL 值。 - 修复了自动加载程序的以下问题:启用
allowOverwrites
时,文件可能在同一个微批中复制 - [SPARK-40596] 使用 ExecutorDecommissionInfo 中的消息填充 ExecutorDecommission
- 操作系统安全更新。
- 修复了以下问题:如果 Delta 表包含名为
- 2022 年 10 月 18 日
- 操作系统安全更新。
- 2022 年 10 月 5 日
- 其他修复。
- 操作系统安全更新。
- 2022 年 9 月 22 日
- 用户可以设置 spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true"),来为 ADLS Gen2 上的自动加载程序重新启用内置列表。 内置列表以前因性能问题关闭,但可能已导致客户的存储成本增加。
- [SPARK-40315] 为 ArrayBasedMapData 的文本添加 hashCode()
- [SPARK-40089] 修复某些十进制类型的排序问题
- [SPARK-39887] RemoveRedundantAliases 应保留那些使投影节点的输出独一无二的别名
- 2022 年 9 月 6 日
- [SPARK-40235] 在 Executor.updateDependencies() 中使用可中断锁而不是同步
- [SPARK-35542] 修复:为具有参数 splitsArray、inputCols 和 outputCols 的多个列创建的 Bucketizer 在保存后无法加载
- [SPARK-40079] 为空输入案例添加 Imputer inputCols 验证
- 2022 年 8 月 24 日
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
spark.sql.codegen.factoryMode
- [SPARK-39962] 当组属性为空时应用投影
- 操作系统安全更新。
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以遵循
- 2022 年 8 月 9 日
- 操作系统安全更新。
- 2022 年 7 月 27 日
- 当源具有不确定性时,使 Delta MERGE 操作结果保持一致。
- [SPARK-39689] 在 CSV 数据源中支持 2 个字符的
lineSep
- [SPARK-39575] 在
AvroDeserializer
中的ByteBuffer#get
之后添加了ByteBuffer#rewind
。 - [SPARK-37392] 修复了 Catalyst 优化器的性能错误。
- 操作系统安全更新。
- 2022 年 7 月 13 日
- [SPARK-39419]
ArraySort
将在比较器返回 null 时引发异常。 - 禁止了自动加载程序对 Azure 上的目录列表使用内置的云 API。
- 操作系统安全更新。
- [SPARK-39419]
- 2022 年 7 月 5 日
- 操作系统安全更新。
- 其他修复。
- 2022 年 6 月 15 日
- [SPARK-39283] 修复
TaskMemoryManager
和UnsafeExternalSorter.SpillableIterator
之间的死锁。
- [SPARK-39283] 修复
- 2022 年 6 月 2 日
- [SPARK-34554] 在
ColumnarMap
中实现copy()
方法。 - 操作系统安全更新。
- [SPARK-34554] 在
- 2022 年 5 月 18 日
- 修复了自动加载程序中潜在的内置泄漏。
- 将 AWS SDK 版本从 1.11.655 升级到 1.11.678。
- [SPARK-38918] 嵌套列修剪应筛除属于当前关系的属性
- [SPARK-39084] 通过使用
TaskContext
在任务完成时停止迭代器来修复df.rdd.isEmpty()
- 操作系统安全更新。
- 2022 年 4 月 19 日
- 操作系统安全更新。
- 其他修复。
- 2022 年 4 月 6 日
- [SPARK-38631] 使用基于 Java 的实现在 Utils.unpack 中进行提取。
- 操作系统安全更新。
- 2022 年 3 月 22 日
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,活动目录是
/databricks/driver
。 - [SPARK-38437] 对数据源中的日期/时间进行宽松的序列化
- [SPARK-38180] 允许在相关的相等谓词中使用安全的向上转换表达式
- [SPARK-38155] 禁止在包含不受支持的谓词的横向子查询中使用非重复聚合
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
- 更改了高并发群集上的笔记本的当前工作目录,对用户的主目录启用表访问控制或凭据直通。 以前,活动目录是
- 2022 年 3 月 14 日
- [SPARK-38236] 在创建/更改表中指定的绝对文件路径被视为相对路径
- [SPARK-34069] 在本地属性
SPARK_JOB_INTERRUPT_ON_CANCEL
设置为 true 时中断任务线程。
- 2022 年 2 月 23 日
- [SPARK-37859] 使用 Spark 3.1 通过 JDBC 创建的 SQL 表无法通过 Spark 3.2 读取。
- 2022 年 2 月 8 日
- [SPARK-27442] 移除了在 Parquet 中读取或写入数据时的检查字段。
- 操作系统安全更新。
- 2022 年 2 月 1 日
- 操作系统安全更新。
- 2022 年 1 月 26 日
- 修复了在某些极少数情况下,Delta 表上的并发事务可能会以不可序列化的顺序提交的问题。
- 修复了启用 ANSI SQL 方言时
OPTIMIZE
命令可能失败的问题。
- 2022 年 1 月 19 日
- 小问题修复和安全增强。
- 操作系统安全更新。
- 2021 年 11 月 4 日
- 修复了可能导致结构化流式处理数据流失败并显示
ArrayIndexOutOfBoundsException
的问题。 - 修复了一个争用条件,它可能会导致查询失败并显示 IOException(例如
java.io.IOException: No FileSystem for scheme
),或导致sparkContext.hadoopConfiguration
被修改且在查询中不生效。 - 用于增量共享的 Apache Spark 连接器已升级为 0.2.0。
- 修复了可能导致结构化流式处理数据流失败并显示
- 2021 年 10 月 20 日
- 已将 BigQuery 连接器从 0.18.1 升级为 0.22.2。 这添加了对 BigNumeric 类型的支持。