Databricks 运行时维护更新Databricks runtime maintenance updates

此页列出了为 Databricks Runtime 版本发布的维护更新。This page lists maintenance updates issued for Databricks Runtime releases. 要向现有群集添加维护更新,请重新启动群集。To add a maintenance update to an existing cluster, restart the cluster.

Databricks Runtime 7.2 Databricks Runtime 7.2

请参阅 Databricks Runtime 7.2See Databricks Runtime 7.2.

  • 2020 年 9 月 24 日Sep 24, 2020
    • [SPARK-32764][SQL] - 0.0 应等于 0.0[SPARK-32764][SQL] -0.0 should be equal to 0.0
    • [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点[SPARK-32753][SQL] Only copy tags to node with no tags when transforming plans
    • [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题[SPARK-32659][SQL] Fix the data issue of inserted Dynamic Partition Pruning on non-atomic type
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.

Databricks Runtime 7.1 Databricks Runtime 7.1

请参阅 Databricks Runtime 7.1See Databricks Runtime 7.1.

  • 2020 年 9 月 24 日Sep 24, 2020
    • [SPARK-32764][SQL] - 0.0 应等于 0.0[SPARK-32764][SQL] -0.0 should be equal to 0.0
    • [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点[SPARK-32753][SQL] Only copy tags to node with no tags when transforming plans
    • [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题[SPARK-32659][SQL] Fix the data issue of inserted Dynamic Partition Pruning on non-atomic type
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
  • 2020 年 8 月 25 日Aug 25, 2020
    • [SPARK-32159][SQL] 修复 Aggregator[Array[_], _, _]UnresolvedMapObjects 之间的集成[SPARK-32159][SQL] Fix integration between Aggregator[Array[_], _, _] and UnresolvedMapObjects
    • [SPARK-32559][SQL] 修复 UTF8String.toInt/toLong 中的剪裁逻辑,该逻辑未正确处理非 ASCII 字符[SPARK-32559][SQL] Fix the trim logic in UTF8String.toInt/toLong, which didn’t handle non-ASCII characters correctly
    • [SPARK-32543][R] 删除 SparkR 中的 arrow::as_tibble 用法[SPARK-32543][R] Remove arrow::as_tibble usage in SparkR
    • [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误[SPARK-32091][CORE] Ignore timeout error when removing blocks on the lost executor
    • 修复了 MSI 凭据影响 Azure Synapse 连接器的问题Fixed an issue affecting Azure Synapse connector with MSI credentials
    • 修复了自合并中不明确的属性解析Fixed ambiguous attribute resolution in self-merge
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化[SPARK-32594][SQL] Fix serialization of dates inserted to Hive tables
    • [SPARK-32237][SQL] 解决 CTE 中的提示[SPARK-32237][SQL] Resolve hint in CTE
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码[SPARK-32467][UI] Avoid encoding URL twice on https redirect
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
  • 2020 年 8 月 3 日Aug 3, 2020
    • 现在可以在启用了传递的群集上使用 LDA 转换函数。You can now use the LDA transform function on a passthrough-enabled cluster.

Databricks Runtime 7.0 Databricks Runtime 7.0

请参阅 Databricks Runtime 7.0See Databricks Runtime 7.0.

  • 2020 年 9 月 24 日Sep 24, 2020
    • [SPARK-32764][SQL] - 0.0 应等于 0.0[SPARK-32764][SQL] -0.0 should be equal to 0.0
    • [SPARK-32753][SQL] 仅在转换计划时才会将标记复制到没有标记的节点[SPARK-32753][SQL] Only copy tags to node with no tags when transforming plans
    • [SPARK-32659][SQL] 修复非原子类型上插入动态分区修剪的数据问题[SPARK-32659][SQL] Fix the data issue of inserted Dynamic Partition Pruning on non-atomic type
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
  • 2020 年 8 月 25 日Aug 25, 2020
    • [SPARK-32159][SQL] 修复 Aggregator[Array[_], _, _]UnresolvedMapObjects 之间的集成[SPARK-32159][SQL] Fix integration between Aggregator[Array[_], _, _] and UnresolvedMapObjects
    • [SPARK-32559][SQL] 修复 UTF8String.toInt/toLong 中的剪裁逻辑,该逻辑未正确处理非 ASCII 字符[SPARK-32559][SQL] Fix the trim logic in UTF8String.toInt/toLong, which didn’t handle non-ASCII characters correctly
    • [SPARK-32543][R] 删除 SparkR 中的 arrow::as_tibble 用法[SPARK-32543][R] Remove arrow::as_tibble usage in SparkR
    • [SPARK-32091][CORE] 删除丢失的执行程序上的块时忽略超时错误[SPARK-32091][CORE] Ignore timeout error when removing blocks on the lost executor
    • 修复了 MSI 凭据影响 Azure Synapse 连接器的问题Fixed an issue affecting Azure Synapse connector with MSI credentials
    • 修复了自合并中不明确的属性解析Fixed ambiguous attribute resolution in self-merge
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32594][SQL] 修复被插入到 Hive 表的日期序列化[SPARK-32594][SQL] Fix serialization of dates inserted to Hive tables
    • [SPARK-32237][SQL] 解决 CTE 中的提示[SPARK-32237][SQL] Resolve hint in CTE
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • [SPARK-32467][UI] 避免在 https 重定向时对 URL 进行两次编码[SPARK-32467][UI] Avoid encoding URL twice on https redirect
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
    • [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 只应重写冲突计划的上级节点的属性[SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight should only rewrite attributes for ancestor nodes of the conflict plan
    • [SPARK-32234][SQL] Spark SQL 命令在选择 ORC 表时失败[SPARK-32234][SQL] Spark SQL commands are failing on selecting the ORC tables
    • 现在可以在启用了传递的群集上使用 LDA 转换函数。You can now use the LDA transform function on a passthrough-enabled cluster.

Databricks Runtime 6.6 Databricks Runtime 6.6

请参阅 Databricks Runtime 6.6See Databricks Runtime 6.6.

  • 2020 年 9 月 24 日Sep 24, 2020
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
    • 将 Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-aliveUpdate Azure Storage SDK to 8.6.4 and enable TCP keep alive on connections made by the WASB driver
  • 2020 年 8 月 25 日Aug 25, 2020
    • 修复了自合并中不明确的属性解析Fixed ambiguous attribute resolution in self-merge
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
    • [SPARK-28676][CORE] 避免从 ContextCleaner 过度记录日志[SPARK-28676][CORE] Avoid Excessive logging from ContextCleaner
    • [SPARK-31967][UI] 降级到 vis.js 4.21.0 以修复作业 UI 加载时间回归[SPARK-31967][UI] Downgrade to vis.js 4.21.0 to fix Jobs UI loading time regression
  • 2020 年 8 月 3 日Aug 3, 2020
    • 现在可以在启用了传递的群集上使用 LDA 转换函数。You can now use the LDA transform function on a passthrough-enabled cluster.
    • 操作系统安全更新。Operating system security updates.

Databricks Runtime 6.5 Databricks Runtime 6.5

请参阅 Databricks Runtime 6.5See Databricks Runtime 6.5.

  • 2020 年 9 月 24 日Sep 24, 2020
    • 修复了之前的限制:标准群集上的直通仍然会限制用户使用的文件系统实现。Fixed a previous limitation where passthrough on standard cluster would still restrict the filesystem implementation user uses. 现在用户可以不受限制地访问本地文件系统。Now users would be able to access local filesystems without restrictions.
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
    • 将 Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-aliveUpdate Azure Storage SDK to 8.6.4 and enable TCP keep alive on connections made by the WASB driver
  • 2020 年 8 月 25 日Aug 25, 2020
    • 修复了自合并中不明确的属性解析Fixed ambiguous attribute resolution in self-merge
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
  • 2020 年 8 月 3 日Aug 3, 2020
    • 现在可以在启用了传递的群集上使用 LDA 转换函数。You can now use the LDA transform function on a passthrough-enabled cluster.
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 7 月 7 日Jul 7, 2020
    • 已将 Java 版本从 1.8.0_242 升级到 1.8.0_252。Upgraded Java version from 1.8.0_242 to 1.8.0_252.
  • 2020 年 4 月 21 日Apr 21, 2020
    • [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例[SPARK-31312][SQL] Cache Class instance for the UDF instance in HiveFunctionWrapper

Databricks Runtime 6.4 Databricks Runtime 6.4

请参阅 Databricks Runtime 6.4See Databricks Runtime 6.4.

  • 2020 年 9 月 24 日Sep 24, 2020
    • 修复了之前的限制:标准群集上的直通仍然会限制用户使用的文件系统实现。Fixed a previous limitation where passthrough on standard cluster would still restrict the filesystem implementation user uses. 现在用户可以不受限制地访问本地文件系统。Now users would be able to access local filesystems without restrictions.
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
    • 将 Azure 存储 SDK 更新到版本 8.6.4,并在 WASB 驱动程序建立的连接上启用 TCP keep-aliveUpdate Azure Storage SDK to 8.6.4 and enable TCP keep alive on connections made by the WASB driver
  • 2020 年 8 月 25 日Aug 25, 2020
    • 修复了自合并中不明确的属性解析Fixed ambiguous attribute resolution in self-merge
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
  • 2020 年 8 月 3 日Aug 3, 2020
    • 现在可以在启用了传递的群集上使用 LDA 转换函数。You can now use the LDA transform function on a passthrough-enabled cluster.
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 7 月 7 日Jul 7, 2020
    • 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。Upgraded Java version from 1.8.0_232 to 1.8.0_252.
  • 2020 年 4 月 21 日Apr 21, 2020
    • [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例[SPARK-31312][SQL] Cache Class instance for the UDF instance in HiveFunctionWrapper
  • 2020 年 4 月 7 日Apr 7, 2020
    • 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。To resolve an issue with pandas udf not working with PyArrow 0.15.0 and above, we added an environment variable (ARROW_PRE_0_15_IPC_FORMAT=1) to enable support for those versions of PyArrow. 请参阅 [SPARK-29367] 中的说明。See the instructions in [SPARK-29367].
  • 2020 年 3 月 10 日March 10, 2020
    • 现在默认在 Azure Databricks 高级计划中的全用途群集上使用优化后的自动缩放。Optimized autoscaling is now used by default on all-purpose clusters on the Azure Databricks Premium Plan.
    • Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。The Snowflake connector (spark-snowflake_2.11) included in Databricks Runtime is updated to version 2.5.9. snowflake-jdbc 已更新到版本 3.12.0。snowflake-jdbc is updated to version 3.12.0.

Databricks Runtime 6.3(不受支持) Databricks Runtime 6.3 (Unsupported)

请参阅 Databricks Runtime 6.3(不支持)See Databricks Runtime 6.3 (Unsupported).

  • 2020 年 7 月 7 日Jul 7, 2020
    • 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。Upgraded Java version from 1.8.0_232 to 1.8.0_252.
  • 2020 年 4 月 21 日Apr 21, 2020
    • [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例[SPARK-31312][SQL] Cache Class instance for the UDF instance in HiveFunctionWrapper
  • 2020 年 4 月 7 日Apr 7, 2020
    • 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。To resolve an issue with pandas udf not working with PyArrow 0.15.0 and above, we added an environment variable (ARROW_PRE_0_15_IPC_FORMAT=1) to enable support for those versions of PyArrow. 请参阅 [SPARK-29367] 中的说明。See the instructions in [SPARK-29367].
  • 2020 年 3 月 10 日Mar 10, 2020
    • Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。The Snowflake connector (spark-snowflake_2.11) included in Databricks Runtime is updated to version 2.5.9. snowflake-jdbc 已更新到版本 3.12.0。snowflake-jdbc is updated to version 3.12.0.
  • 2020 年 2 月 18 日Feb 18, 2020
    • 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。Credential passthrough with ADLS Gen2 has a performance degradation due to incorrect thread local handling when ADLS client prefetching is enabled. 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。This release disables ADLS Gen2 prefetching when credential passthrough is enabled until we have a proper fix.
  • 2020 年 2 月 11 日Feb 11, 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常[SPARK-24783][SQL] spark.sql.shuffle.partitions=0 should throw exception
    • [SPARK-30447][SQL] 常数传播为 Null 性问题[SPARK-30447][SQL] Constant propagation nullability issue
    • [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件[SPARK-28152][SQL] Add a legacy conf for old MsSqlServerDialect numeric mapping
    • 将重写函数列入了允许列表,以便 MLModels 扩展 MLWriter 可以调用该函数。Whitelisted the overwrite function so that the MLModels extends MLWriter could call the function.

Databricks Runtime 6.2(不受支持) Databricks Runtime 6.2 (Unsupported)

请参阅 Databricks Runtime 6.2(不受支持)See Databricks Runtime 6.2 (Unsupported).

  • 2020 年 4 月 21 日Apr 21, 2020
    • [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例[SPARK-31312][SQL] Cache Class instance for the UDF instance in HiveFunctionWrapper
  • 2020 年 4 月 7 日Apr 7, 2020
    • 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。To resolve an issue with pandas udf not working with PyArrow 0.15.0 and above, we added an environment variable (ARROW_PRE_0_15_IPC_FORMAT=1) to enable support for those versions of PyArrow. 请参阅 [SPARK-29367] 中的说明。See the instructions in [SPARK-29367].
  • 2020 年 3 月 25 日Mar 25, 2020
    • 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。Job output, such as log output emitted to stdout, is subject to a 20MB size limit. 如果总输出的大小较大,则将取消运行并标记为失败。If the total output has a larger size, the run will be canceled and marked as failed. 若要避免出现此限制,可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。To avoid encountering this limit, you can prevent stdout from being returned from the driver to by setting the spark.databricks.driver.disableScalaOutput Spark configuration to true. (默认情况下,标志值为 falseBy default the flag value is false. 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。The flag controls cell output for Scala JAR jobs and Scala notebooks. 如果启用该标志,Spark 不会将作业执行结果返回给客户端。If the flag is enabled, Spark does not return job execution results to the client. 该标志不影响写入群集日志文件中的数据。The flag does not affect the data that is written in the cluster’s log files. 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。Setting this flag is recommended only for automated clusters for JAR jobs, because it will disable notebook results.
  • 2020 年 3 月 10 日Mar 10, 2020
    • Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。The Snowflake connector (spark-snowflake_2.11) included in Databricks Runtime is updated to version 2.5.9. snowflake-jdbc 已更新到版本 3.12.0。snowflake-jdbc is updated to version 3.12.0.
  • 2020 年 2 月 18 日Feb 18, 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常[SPARK-24783][SQL] spark.sql.shuffle.partitions=0 should throw exception
    • 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。Credential passthrough with ADLS Gen2 has a performance degradation due to incorrect thread local handling when ADLS client prefetching is enabled. 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。This release disables ADLS Gen2 prefetching when credential passthrough is enabled until we have a proper fix.
  • 2020 年 1 月 28 日Jan 28, 2020
    • 对于启用凭据传递的群集,将 ML 模型编写器的重写函数列入了允许列表,以便 model save 可以在凭据传递群集上使用重写模式。Whitelisted ML Model Writers’ overwrite function for clusters enabled for credential passthrough, so that model save can use overwrite mode on credential passthrough clusters.
    • [SPARK-30447][SQL] 常数传播为 Null 性问题。[SPARK-30447][SQL] Constant propagation nullability issue.
    • [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。[SPARK-28152][SQL] Add a legacy conf for old MsSqlServerDialect numeric mapping.
  • 2020 年 1 月 14 日Jan 14, 2020
    • 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。Upgraded Java version from 1.8.0_222 to 1.8.0_232.
  • 2019 年 12 月 10 日Dec 10, 2019
    • [SPARK-29904][SQL] 通过 JSON/CSV 数据源以微秒精度解析时间戳。[SPARK-29904][SQL] Parse timestamps in microsecond precision by JSON/CSV data sources.

Databricks Runtime 6.1(不受支持) Databricks Runtime 6.1 (Unsupported)

请参阅 Databricks Runtime 6.1(不支持)See Databricks Runtime 6.1 (Unsupported).

  • 2020 年 4 月 7 日Apr 7, 2020
    • 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。To resolve an issue with pandas udf not working with PyArrow 0.15.0 and above, we added an environment variable (ARROW_PRE_0_15_IPC_FORMAT=1) to enable support for those versions of PyArrow. 请参阅 [SPARK-29367] 中的说明。See the instructions in [SPARK-29367].
  • 2020 年 3 月 25 日Mar 25, 2020
    • 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。Job output, such as log output emitted to stdout, is subject to a 20MB size limit. 如果总输出的大小较大,则将取消运行并标记为失败。If the total output has a larger size, the run will be canceled and marked as failed. 若要避免出现此限制,可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。To avoid encountering this limit, you can prevent stdout from being returned from the driver to by setting the spark.databricks.driver.disableScalaOutput Spark configuration to true. (默认情况下,标志值为 falseBy default the flag value is false. 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。The flag controls cell output for Scala JAR jobs and Scala notebooks. 如果启用该标志,Spark 不会将作业执行结果返回给客户端。If the flag is enabled, Spark does not return job execution results to the client. 该标志不影响写入群集日志文件中的数据。The flag does not affect the data that is written in the cluster’s log files. 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。Setting this flag is recommended only for automated clusters for JAR jobs, because it will disable notebook results.
  • 2020 年 3 月 10 日Mar 10, 2020
    • Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。The Snowflake connector (spark-snowflake_2.11) included in Databricks Runtime is updated to version 2.5.9. snowflake-jdbc 已更新到版本 3.12.0。snowflake-jdbc is updated to version 3.12.0.
  • 2020 年 2 月 18 日Feb 18, 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常[SPARK-24783][SQL] spark.sql.shuffle.partitions=0 should throw exception
    • 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。Credential passthrough with ADLS Gen2 has a performance degradation due to incorrect thread local handling when ADLS client prefetching is enabled. 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。This release disables ADLS Gen2 prefetching when credential passthrough is enabled until we have a proper fix.
  • 2020 年 1 月 28 日Jan 28, 2020
    • [SPARK-30447][SQL] 常数传播为 Null 性问题。[SPARK-30447][SQL] Constant propagation nullability issue.
    • [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。[SPARK-28152][SQL] Add a legacy conf for old MsSqlServerDialect numeric mapping.
  • 2020 年 1 月 14 日Jan 14, 2020
    • 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。Upgraded Java version from 1.8.0_222 to 1.8.0_232.
  • 2019 年 11 月 7 日Nov 7, 2019
  • 2019 年 11 月 5 日Nov 5, 2019
    • 修复了 DBFS FUSE 中处理装入点时在其路径中使用 // 的 bug。Fixed a bug in DBFS FUSE to handle mount points having // in its path.
    • [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用[SPARK-29081] Replace calls to SerializationUtils.clone on properties with a faster implementation
    • [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放[SPARK-29244][CORE] Prevent freed page in BytesToBytesMap free again
    • (6.1 ML) 库 mkl 2019.4 版本是无意安装的。(6.1 ML) Library mkl version 2019.4 was installed unintentionally. 我们已将其降级到 mkl 版本 2019.3,以匹配 Anaconda 发行版2019.03。We downgraded it to mkl version 2019.3 to match Anaconda Distribution 2019.03.

Databricks Runtime 6.0(不受支持) Databricks Runtime 6.0 (Unsupported)

请参阅 Databricks Runtime 6.0(不支持)See Databricks Runtime 6.0 (Unsupported).

  • 2020 年 3 月 25 日Mar 25, 2020
    • 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。Job output, such as log output emitted to stdout, is subject to a 20MB size limit. 如果总输出的大小较大,则将取消运行并标记为失败。If the total output has a larger size, the run will be canceled and marked as failed. 若要避免出现此限制,可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。To avoid encountering this limit, you can prevent stdout from being returned from the driver to by setting the spark.databricks.driver.disableScalaOutput Spark configuration to true. (默认情况下,标志值为 falseBy default the flag value is false. 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。The flag controls cell output for Scala JAR jobs and Scala notebooks. 如果启用该标志,Spark 不会将作业执行结果返回给客户端。If the flag is enabled, Spark does not return job execution results to the client. 该标志不影响写入群集日志文件中的数据。The flag does not affect the data that is written in the cluster’s log files. 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。Setting this flag is recommended only for automated clusters for JAR jobs, because it will disable notebook results.
  • 2020 年 2 月 18 日Feb 18, 2020
    • 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。Credential passthrough with ADLS Gen2 has a performance degradation due to incorrect thread local handling when ADLS client prefetching is enabled. 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。This release disables ADLS Gen2 prefetching when credential passthrough is enabled until we have a proper fix.
  • 2020 年 2 月 11 日Feb 11, 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常[SPARK-24783][SQL] spark.sql.shuffle.partitions=0 should throw exception
  • 2020 年 1 月 28 日Jan 28, 2020
    • [SPARK-30447][SQL] 常数传播为 Null 性问题。[SPARK-30447][SQL] Constant propagation nullability issue.
    • [SPARK-28152][SQL] 为旧的 MsSqlServerDialect 数字映射添加旧配置文件。[SPARK-28152][SQL] Add a legacy conf for old MsSqlServerDialect numeric mapping.
  • 2020 年 1 月 14 日Jan 14, 2020
    • 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。Upgraded Java version from 1.8.0_222 to 1.8.0_232.
  • 2019 年 11 月 19 日Nov 19, 2019
    • [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)[SPARK-29743] [SQL] sample should set needCopyResult to true if its child’s needCopyResult is true
  • 2019 年 11 月 5 日Nov 5, 2019
    • dbutils.tensorboard.start() 现在支持 TensorBoard 2.0(如果手动安装)。dbutils.tensorboard.start() now supports TensorBoard 2.0 (if installed manually).
    • 修复了 DBFS FUSE 中处理装入点时在其路径中使用 // 的 bug。Fixed a bug in DBFS FUSE to handle mount points having // in its path.
    • [SPARK-29081] 使用更快的实现替换对属性的 SerializationUtils.clone 的调用[SPARK-29081]Replace calls to SerializationUtils.clone on properties with a faster implementation
  • 2019 年 10 月 23 日Oct 23, 2019
    • [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放[SPARK-29244][CORE] Prevent freed page in BytesToBytesMap free again
  • 2019 年 10 月 8 日Oct 8, 2019
    • 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10)。Server side changes to allow Simba Apache Spark ODBC driver to reconnect and continue after a connection failure during fetching results (requires Simba Apache Spark ODBC driver version 2.6.10).
    • 修复了在启用表 ACL 的群集中影响使用 Optimize 命令的问题。Fixed an issue affecting using Optimize command with table ACL enabled clusters.
    • 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致 pyspark.ml 库失败的问题。Fixed an issue where pyspark.ml libraries would fail due to Scala UDF forbidden error on table ACL and credential passthrough enabled clusters.
    • 将用于凭据传递的 SerDe/SerDeUtil 方法列入了允许列表。Whitelisted SerDe/SerDeUtil methods for credential passthrough.
    • 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。Fixed NullPointerException when checking error code in the WASB client.
    • 修复了用户凭据未转发到 dbutils.notebook.run() 创建的作业的问题。Fixed the issue where user credentials were not forwarded to jobs created by dbutils.notebook.run().

Databricks Runtime 5.5 LTS Databricks Runtime 5.5 LTS

请参阅 Databricks Runtime 5.5 LTSSee Databricks Runtime 5.5 LTS.

  • 2020 年 9 月 24 日Sep 24, 2020
    • 操作系统安全更新。Operating system security updates.
  • 2020 年 9 月 8 日Sep 8, 2020
    • 为 Azure Synapse Analytics 创建了一个新参数 maxbinlengthA new parameter was created for Azure Synapse Analytics, maxbinlength. 此参数用于控制 BinaryType 列的列长度,并转换为 VARBINARY(maxbinlength)This parameter is used to control the column length of BinaryType columns, and is translated as VARBINARY(maxbinlength). 它可以使用 .option("maxbinlength", n) 进行设置,其中 0 < n <= 8000。It can be set using .option("maxbinlength", n), where 0 < n <= 8000.
  • 2020 年 8 月 18 日Aug 18, 2020
    • [SPARK-32431][SQL] 检查从内置数据源读取的重复嵌套列[SPARK-32431][SQL] Check duplicate nested columns in read from in-built datasources
    • 修复了使用 Trigger.Once 时 AQS 连接器中的争用条件。Fixed a race condition in the AQS connector when using Trigger.Once.
  • 2020 年 8 月 11 日Aug 11, 2020
  • 2020 年 8 月 3 日Aug 3, 2020
    • 操作系统安全更新Operating system security updates
  • 2020 年 7 月 7 日Jul 7, 2020
    • 已将 Java 版本从 1.8.0_232 升级到 1.8.0_252。Upgraded Java version from 1.8.0_232 to 1.8.0_252.
  • 2020 年 4 月 21 日Apr 21, 2020
    • [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 实例的缓存类实例[SPARK-31312][SQL] Cache Class instance for the UDF instance in HiveFunctionWrapper
  • 2020 年 4 月 7 日Apr 7, 2020
    • 为了解决 pandas UDF 无法在 PyArrow 0.15.0 及更高版本中运行的问题,我们添加了一个环境变量 (ARROW_PRE_0_15_IPC_FORMAT=1) 来启用对这些 PyArrow 版本的支持。To resolve an issue with pandas udf not working with PyArrow 0.15.0 and above, we added an environment variable (ARROW_PRE_0_15_IPC_FORMAT=1) to enable support for those versions of PyArrow. 请参阅 [SPARK-29367] 中的说明。See the instructions in [SPARK-29367].
  • 2020 年 3 月 25 日Mar 25, 2020
    • Databricks Runtime 中包含的 Snowflake 连接器 (spark-snowflake_2.11) 已更新到版本 2.5.9。The Snowflake connector (spark-snowflake_2.11) included in Databricks Runtime is updated to version 2.5.9. snowflake-jdbc 已更新到版本 3.12.0。snowflake-jdbc is updated to version 3.12.0.
  • 2020 年 3 月 10 日Mar 10, 2020
    • 作业输出(如发送到 stdout 的日志输出)的大小限制为 20MB。Job output, such as log output emitted to stdout, is subject to a 20MB size limit. 如果总输出的大小较大,则将取消运行并标记为失败。If the total output has a larger size, the run will be canceled and marked as failed. 若要避免出现此限制,可以通过将 spark.databricks.driver.disableScalaOutput Spark 配置设置为 true 来阻止从驱动程序返回 stdout。To avoid encountering this limit, you can prevent stdout from being returned from the driver to by setting the spark.databricks.driver.disableScalaOutput Spark configuration to true. (默认情况下,标志值为 falseBy default the flag value is false. 该标志控制 Scala JAR 作业和 Scala 笔记本的单元格输出。The flag controls cell output for Scala JAR jobs and Scala notebooks. 如果启用该标志,Spark 不会将作业执行结果返回给客户端。If the flag is enabled, Spark does not return job execution results to the client. 该标志不影响写入群集日志文件中的数据。The flag does not affect the data that is written in the cluster’s log files. 建议只对 JAR 作业的自动群集设置此标志,因为这将禁用笔记本结果。Setting this flag is recommended only for automated clusters for JAR jobs, because it will disable notebook results.
  • 2020 年 2 月 18 日Feb 18, 2020
    • [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 应引发异常[SPARK-24783][SQL] spark.sql.shuffle.partitions=0 should throw exception
    • 启用 ADLS 客户端预提取时,由于线程本地处理不正确,ADLS Gen2 的凭据传递性能降低。Credential passthrough with ADLS Gen2 has a performance degradation due to incorrect thread local handling when ADLS client prefetching is enabled. 此版本在启用凭证传递时禁用 ADLS Gen2 预提取,直到我们提供合适的修补程序。This release disables ADLS Gen2 prefetching when credential passthrough is enabled until we have a proper fix.
  • 2020 年 1 月 28 日Jan 28, 2020
  • 2020 年 1 月 14 日Jan 14, 2020
    • 已将 Java 版本从 1.8.0_222 升级到 1.8.0_232。Upgraded Java version from 1.8.0_222 to 1.8.0_232.
  • 2019 年 11 月 19 日Nov 19, 2019
    • [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)[SPARK-29743] [SQL] sample should set needCopyResult to true if its child’s needCopyResult is true
    • R 版本从 3.6.0 意外升级到了 3.6.1。R version was unintendedly upgraded to 3.6.1 from 3.6.0. 我们已将其降级回 3.6.0。We downgraded it back to 3.6.0.
  • 2019 年 11 月 5 日Nov 5, 2019
    • 已将 Java 版本从 1.8.0_212 升级到 1.8.0_222。Upgraded Java version from 1.8.0_212 to 1.8.0_222.
  • 2019 年 10 月 23 日Oct 23, 2019
    • [SPARK-29244][CORE] 防止 BytesToBytesMap 中已释放页再次释放[SPARK-29244][CORE] Prevent freed page in BytesToBytesMap free again
  • 2019 年 10 月 8 日Oct 8, 2019
    • 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序版本 2.6.10)。Server side changes to allow Simba Apache Spark ODBC driver to reconnect and continue after a connection failure during fetching results (requires Simba Apache Spark ODBC driver version 2.6.10).
    • 修复了在启用表 ACL 的群集中影响使用 Optimize 命令的问题。Fixed an issue affecting using Optimize command with table ACL enabled clusters.
    • 修复了在启用表 ACL 和凭据传递的群集上由于 Scala UDF 禁止错误而导致 pyspark.ml 库失败的问题。Fixed an issue where pyspark.ml libraries would fail due to Scala UDF forbidden error on table ACL and credential passthrough enabled clusters.
    • 将用于凭据传递的 SerDe/SerDeUtil 方法列入了允许列表。Whitelisted SerDe/SerDeUtil methods for credential passthrough.
    • 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。Fixed NullPointerException when checking error code in the WASB client.
  • 2019 年 9 月 24 日Sep 24, 2019
    • 提高了 Parquet 编写器的稳定性。Improved stability of Parquet writer.
    • 修复了在开始执行之前被取消的 Thrift 查询可能会停留在“已启动”状态的问题。Fixed the problem that Thrift query cancelled before it starts executing may stuck in STARTED state.
  • 2019 年 9 月 10 日Sep 10, 2019
    • 将线程安全迭代器添加到 BytesToBytesMapAdd thread safe iterator to BytesToBytesMap
    • [SPARK-27992][SPARK-28881]允许 Python 与连接线程联接以传播错误[SPARK-27992][SPARK-28881]Allow Python to join with connection thread to propagate errors
    • 修复了影响某些全局聚合查询的 bug。Fixed a bug affecting certain global aggregation queries.
    • 改进了凭据修订。Improved credential redaction.
    • [SPARK-27330][SS] 在 foreach 编写器中支持任务中止[SPARK-27330][SS] support task abort in foreach writer
    • [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据[SPARK-28642]Hide credentials in SHOW CREATE TABLE
    • [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序[SPARK-28699][SQL] Disable using radix sort for ShuffleExchangeExec in repartition case
  • 2019 年 8 月 27 日Aug 27, 2019
    • [SPARK-20906][SQL] 允许在具有架构注册表的 API to_avro 中使用用户指定的架构[SPARK-20906][SQL]Allow user-specified schema in the API to_avro with schema registry
    • [SPARK-27838][SQL] 支持用户为无任何空记录的可空 catalyst 架构提供不可为 null 的 avro 架构[SPARK-27838][SQL] Support user provided non-nullable avro schema for nullable catalyst schema without any null record
    • 对 Delta Lake 按时间顺序查看的改进Improvement on Delta Lake time travel
    • 修复了影响某个 transform 表达式的问题Fixed an issue affecting certain transform expression
    • 启用进程隔离时支持广播变量Supports broadcast variables when Process Isolation is enabled
  • 2019 年 8 月 13 日Aug 13, 2019
    • 增量流式处理源应检查表的最新协议Delta streaming source should check the latest protocol of a table
    • [SPARK-28260]将“CLOSED”状态添加到 ExecutionState[SPARK-28260]Add CLOSED state to ExecutionState
    • [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug[SPARK-28489][SS]Fix a bug that KafkaOffsetRangeCalculator.getRanges may drop offsets
  • 2019 年 7 月 30 日Jul 30, 2019
    • [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入[SPARK-28015][SQL] Check stringToDate() consumes entire input for the yyyy and yyyy-[m]m formats
    • [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分[SPARK-28308][CORE] CalendarInterval sub-second part should be padded before parsing
    • [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式[SPARK-27485]EnsureRequirements.reorder should handle duplicate expressions gracefully
    • [SPARK-28355][CORE] [PYTHON] 将 Spark conf 用作广播压缩 UDF 的阈值[SPARK-28355][CORE][PYTHON] Use Spark conf for threshold at which UDF is compressed by broadcast

Databricks Runtime 5.4 ML(不受支持) Databricks Runtime 5.4 ML (Unsupported)

请参阅 Databricks Runtime 5.4 ML(不受支持)See Databricks Runtime 5.4 ML (Unsupported).

  • 2019 年 6 月 18 日Jun 18, 2019
    • 改进了 Hyperopt 集成中对 MLflow 活动运行的处理Improved handling of MLflow active runs in Hyperopt integration
    • 改进了 Hyperopt 中的消息Improved messages in Hyperopt
    • 已将包 markdown 从 3.1 更新到 3.1.1Updated package markdown from 3.1 to 3.1.1

Databricks Runtime 5.4(不受支持) Databricks Runtime 5.4 (Unsupported)

请参阅 Databricks Runtime 5.4(不支持)See Databricks Runtime 5.4 (Unsupported).

  • 2019 年 11 月 19 日Nov 19, 2019
    • [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)[SPARK-29743] [SQL] sample should set needCopyResult to true if its child’s needCopyResult is true
  • 2019 年 10 月 8 日Oct 8, 2019
    • 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。Server side changes to allow Simba Apache Spark ODBC driver to reconnect and continue after a connection failure during fetching results (requires Simba Apache Spark ODBC driver update to version 2.6.10).
    • 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。Fixed NullPointerException when checking error code in the WASB client.
  • 2019 年 9 月 10 日Sep 10, 2019
    • 将线程安全迭代器添加到 BytesToBytesMapAdd thread safe iterator to BytesToBytesMap
    • 修复了影响某些全局聚合查询的 bug。Fixed a bug affecting certain global aggregation queries.
    • [SPARK-27330][SS] 在 foreach 编写器中支持任务中止[SPARK-27330][SS] support task abort in foreach writer
    • [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据[SPARK-28642]Hide credentials in SHOW CREATE TABLE
    • [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序[SPARK-28699][SQL] Disable using radix sort for ShuffleExchangeExec in repartition case
    • [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例[SPARK-28699][CORE] Fix a corner case for aborting indeterminate stage
  • 2019 年 8 月 27 日Aug 27, 2019
    • 修复了影响某个 transform 表达式的问题Fixed an issue affecting certain transform expressions
  • 2019 年 8 月 13 日Aug 13, 2019
    • 增量流式处理源应检查表的最新协议Delta streaming source should check the latest protocol of a table
    • [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug[SPARK-28489][SS]Fix a bug that KafkaOffsetRangeCalculator.getRanges may drop offsets
  • 2019 年 7 月 30 日Jul 30, 2019
    • [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入[SPARK-28015][SQL] Check stringToDate() consumes entire input for the yyyy and yyyy-[m]m formats
    • [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分[SPARK-28308][CORE] CalendarInterval sub-second part should be padded before parsing
    • [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式[SPARK-27485]EnsureRequirements.reorder should handle duplicate expressions gracefully
  • 2019 年 7 月 2 日Jul 2, 2019
    • 已将 snappy-java 从 1.1.7.1 升级到 1.1.7.3。Upgraded snappy-java from 1.1.7.1 to 1.1.7.3.
  • 2019 年 6 月 18 日Jun 18, 2019
    • 改进了 MLlib 集成中 MLflow 活动运行的处理Improved handling of MLflow active runs in MLlib integration
    • 改进了与使用 Delta 缓存相关的 Databricks 顾问消息Improved Databricks Advisor message related to using Delta cache
    • 修复了影响使用高阶函数的 bugFixed a bug affecting using higher order functions
    • 修复了影响增量元数据查询的 bugFixed a bug affecting Delta metadata queries

Databricks Runtime 5.3(不受支持) Databricks Runtime 5.3 (Unsupported)

请参阅 Databricks Runtime 5.3(不支持)See Databricks Runtime 5.3 (Unsupported).

  • 2019 年 11 月 7 日Nov 7, 2019
    • [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)[SPARK-29743][SQL] sample should set needCopyResult to true if its child’s needCopyResult is true
  • 2019 年 10 月 8 日Oct 8, 2019
    • 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。Server side changes to allow Simba Apache Spark ODBC driver to reconnect and continue after a connection failure during fetching results (requires Simba Apache Spark ODBC driver update to version 2.6.10).
    • 修复了在 WASB 客户端中检查错误代码时发生的 NullPointerException。Fixed NullPointerException when checking error code in the WASB client.
  • 2019 年 9 月 10 日Sep 10, 2019
    • 将线程安全迭代器添加到 BytesToBytesMapAdd thread safe iterator to BytesToBytesMap
    • 修复了影响某些全局聚合查询的 bug。Fixed a bug affecting certain global aggregation queries.
    • [SPARK-27330][SS] 在 foreach 编写器中支持任务中止[SPARK-27330][SS] support task abort in foreach writer
    • [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据[SPARK-28642]Hide credentials in SHOW CREATE TABLE
    • [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序[SPARK-28699][SQL] Disable using radix sort for ShuffleExchangeExec in repartition case
    • [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例[SPARK-28699][CORE] Fix a corner case for aborting indeterminate stage
  • 2019 年 8 月 27 日Aug 27, 2019
    • 修复了影响某个 transform 表达式的问题Fixed an issue affecting certain transform expressions
  • 2019 年 8 月 13 日Aug 13, 2019
    • 增量流式处理源应检查表的最新协议Delta streaming source should check the latest protocol of a table
    • [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug[SPARK-28489][SS]Fix a bug that KafkaOffsetRangeCalculator.getRanges may drop offsets
  • 2019 年 7 月 30 日Jul 30, 2019
    • [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入[SPARK-28015][SQL] Check stringToDate() consumes entire input for the yyyy and yyyy-[m]m formats
    • [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分[SPARK-28308][CORE] CalendarInterval sub-second part should be padded before parsing
    • [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式[SPARK-27485]EnsureRequirements.reorder should handle duplicate expressions gracefully
  • 2019 年 6 月 18 日Jun 18, 2019
    • 改进了与使用 Delta 缓存相关的 Databricks 顾问消息Improved Databricks Advisor message related to using Delta cache
    • 修复了影响使用高阶函数的 bugFixed a bug affecting using higher order functions
    • 修复了影响增量元数据查询的 bugFixed a bug affecting Delta metadata queries
  • 2019 年 5 月 28 日May 28, 2019
    • 提高了 Delta 的稳定性Improved the stability of Delta
    • 读取 Delta LAST_CHECKPOINT 文件时容许 IOExceptionTolerate IOExceptions when reading Delta LAST_CHECKPOINT file
      • 已将恢复添加到失败的库安装Added recovery to failed library installation
  • 2019 年 5 月 7 日May 7, 2019
    • 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-15778 (ABFS: Fix client side throttling for read) to Azure Data Lake Storage Gen2 connector
    • 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-16040 (ABFS: Bug fix for tolerateOobAppends configuration) to Azure Data Lake Storage Gen2 connector
    • 修复了影响表 Acl 的 bugFixed a bug affecting table ACLs
    • 修复了加载 Delta 日志校验和文件时的争用情况Fixed a race condition when loading a Delta log checksum file
    • 修复了 Delta 冲突检测逻辑,不将“插入 + 重写”标识为纯“追加”操作Fixed Delta conflict detection logic to not identify “insert + overwrite” as pure “append” operation
    • 确保在启用表 ACL 时未禁用 DBIO 缓存Ensure that DBIO cache is not disabled when Table ACLs are enabled
    • [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用[SPARK-27494][SS] Null keys/values don’t work in Kafka source v2
    • [SPARK-27446][R] 如果可用,请使用现有 Spark 配置文件。[SPARK-27446][R] Use existing spark conf if available.
    • [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败[SPARK-27454][SPARK-27454][ML][SQL] Spark image datasource fail when encounter some illegal images
    • [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType[SPARK-27160][SQL] Fix DecimalType when building orc filters
    • [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁[SPARK-27338][CORE] Fix deadlock between UnsafeExternalSorter and TaskMemoryManager

Databricks Runtime 5.2(不受支持) Databricks Runtime 5.2 (Unsupported)

请参阅 Databricks Runtime 5.2(不支持)See Databricks Runtime 5.2 (Unsupported).

  • 2019 年 9 月 10 日Sep 10, 2019
    • 将线程安全迭代器添加到 BytesToBytesMapAdd thread safe iterator to BytesToBytesMap
    • 修复了影响某些全局聚合查询的 bug。Fixed a bug affecting certain global aggregation queries.
    • [SPARK-27330][SS] 在 foreach 编写器中支持任务中止[SPARK-27330][SS] support task abort in foreach writer
    • [SPARK-28642]在 SHOW CREATE TABLE 中隐藏凭据[SPARK-28642]Hide credentials in SHOW CREATE TABLE
    • [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序[SPARK-28699][SQL] Disable using radix sort for ShuffleExchangeExec in repartition case
    • [SPARK-28699][CORE] 修复了中止不确定阶段的个别案例[SPARK-28699][CORE] Fix a corner case for aborting indeterminate stage
  • 2019 年 8 月 27 日Aug 27, 2019
    • 修复了影响某个 transform 表达式的问题Fixed an issue affecting certain transform expressions
  • 2019 年 8 月 13 日Aug 13, 2019
    • 增量流式处理源应检查表的最新协议Delta streaming source should check the latest protocol of a table
    • [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug[SPARK-28489][SS]Fix a bug that KafkaOffsetRangeCalculator.getRanges may drop offsets
  • 2019 年 7 月 30 日Jul 30, 2019
    • [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入[SPARK-28015][SQL] Check stringToDate() consumes entire input for the yyyy and yyyy-[m]m formats
    • [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分[SPARK-28308][CORE] CalendarInterval sub-second part should be padded before parsing
    • [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式[SPARK-27485]EnsureRequirements.reorder should handle duplicate expressions gracefully
  • 2019 年 7 月 2 日Jul 2, 2019
    • 读取 Delta LAST_CHECKPOINT 文件时容许 IOExceptionTolerate IOExceptions when reading Delta LAST_CHECKPOINT file
  • 2019 年 6 月 18 日Jun 18, 2019
    • 改进了与使用 Delta 缓存相关的 Databricks 顾问消息Improved Databricks Advisor message related to using Delta cache
    • 修复了影响使用高阶函数的 bugFixed a bug affecting using higher order functions
    • 修复了影响增量元数据查询的 bugFixed a bug affecting Delta metadata queries
  • 2019 年 5 月 28 日May 28, 2019
    • 已将恢复添加到失败的库安装Added recovery to failed library installation
  • 2019 年 5 月 7 日May 7, 2019
    • 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-15778 (ABFS: Fix client side throttling for read) to Azure Data Lake Storage Gen2 connector
    • 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-16040 (ABFS: Bug fix for tolerateOobAppends configuration) to Azure Data Lake Storage Gen2 connector
    • 修复了加载 Delta 日志校验和文件时的争用情况Fixed a race condition when loading a Delta log checksum file
    • 修复了 Delta 冲突检测逻辑,不将“插入 + 重写”标识为纯“追加”操作Fixed Delta conflict detection logic to not identify “insert + overwrite” as pure “append” operation
    • 确保在启用表 ACL 时未禁用 DBIO 缓存Ensure that DBIO cache is not disabled when Table ACLs are enabled
    • [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用[SPARK-27494][SS] Null keys/values don’t work in Kafka source v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败[SPARK-27454][SPARK-27454][ML][SQL] Spark image datasource fail when encounter some illegal images
    • [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType[SPARK-27160][SQL] Fix DecimalType when building orc filters
    • [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁[SPARK-27338][CORE] Fix deadlock between UnsafeExternalSorter and TaskMemoryManager
  • 2019 年 3 月 26 日Mar 26, 2019
    • 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量Avoid embedding platform-dependent offsets literally in whole-stage generated code
    • [SPARK-26665][CORE] 修复 BlockTransferService.fetchBlockSync 可能永远挂起的 bug。[SPARK-26665][CORE] Fix a bug that BlockTransferService.fetchBlockSync may hang forever.
    • [SPARK-27134][SQL] array_distinct 函数不能正确处理包含数组数组的列。[SPARK-27134][SQL] array_distinct function does not work correctly with columns containing array of array.
    • [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。[SPARK-24669][SQL] Invalidate tables in case of DROP DATABASE CASCADE.
    • [SPARK-26572][SQL] 修复聚合 codegen 结果计算。[SPARK-26572][SQL] fix aggregate codegen result evaluation.
    • 修复了影响某些 PythonUDF 的 bug。Fixed a bug affecting certain PythonUDFs.
  • 2019 年 2 月 26 日Feb 26, 2019
    • [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。[SPARK-26864][SQL] Query may return incorrect result when python udf is used as a left-semi join condition.
    • [SPARK-26887][PYTHON] 直接创建 datetime.date,而不是创建 datetime64 作为中间数据。[SPARK-26887][PYTHON] Create datetime.date directly instead of creating datetime64 as intermediate data.
    • 修复了影响 JDBC/ODBC 服务器的 bug。Fixed a bug affecting JDBC/ODBC server.
    • 修复了影响 PySpark 的 bug。Fixed a bug affecting PySpark.
    • 生成 HadoopRDD 时排除隐藏文件。Exclude the hidden files when building HadoopRDD.
    • 修复了 Delta 中导致序列化问题的 bug。Fixed a bug in Delta that caused serialization issues.
  • 2019 年 2 月 12 日Feb 12, 2019
    • 修复了影响使用 Delta 与 Azure ADLS Gen2 装入点的问题。Fixed an issue affecting using Delta with Azure ADLS Gen2 mount points.
    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019
    • 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。Fixed the StackOverflowError when putting skew join hint on cached relation.
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
    • [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence[SPARK-26706][SQL] Fix illegalNumericPrecedence for ByteType.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。[SPARK-26709][SQL] OptimizeMetadataOnlyQuery does not handle empty records correctly.
    • 在推断架构时,CSV/JSON 数据源应避免使用文件名代换路径。CSV/JSON data sources should avoid globbing paths when inferring schema.
    • 修复了窗口运算符的约束推理。Fixed constraint inference on Window operator.
    • 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。Fixed an issue affecting installing egg libraries with clusters having table ACL enabled.

Databricks Runtime 5.1(不受支持) Databricks Runtime 5.1 (Unsupported)

请参阅 Databricks Runtime 5.1(不支持)See Databricks Runtime 5.1 (Unsupported).

  • 2019 年 8 月 13 日Aug 13, 2019
    • 增量流式处理源应检查表的最新协议Delta streaming source should check the latest protocol of a table
    • [SPARK-28489][SS] 修复了 KafkaOffsetRangeCalculator.getRanges 可能会删除偏移量的 bug[SPARK-28489][SS]Fix a bug that KafkaOffsetRangeCalculator.getRanges may drop offsets
  • 2019 年 7 月 30 日Jul 30, 2019
    • [SPARK-28015][SQL] 检查 stringToDate() 使用 yyyy 和 yyyy-[m]m 格式的全部输入[SPARK-28015][SQL] Check stringToDate() consumes entire input for the yyyy and yyyy-[m]m formats
    • [SPARK-28308][CORE] 解析 CalendarInterval 之前应填充其子部分[SPARK-28308][CORE] CalendarInterval sub-second part should be padded before parsing
    • [SPARK-27485]EnsureRequirements.reorder 应妥善处理重复表达式[SPARK-27485]EnsureRequirements.reorder should handle duplicate expressions gracefully
  • 2019 年 7 月 2 日Jul 2, 2019
    • 读取 Delta LAST_CHECKPOINT 文件时容许 IOExceptionTolerate IOExceptions when reading Delta LAST_CHECKPOINT file
  • 2019 年 6 月 18 日Jun 18, 2019
    • 修复了影响使用高阶函数的 bugFixed a bug affecting using higher order functions
    • 修复了影响增量元数据查询的 bugFixed a bug affecting Delta metadata queries
  • 2019 年 5 月 28 日May 28, 2019
    • 已将恢复添加到失败的库安装Added recovery to failed library installation
  • 2019 年 5 月 7 日May 7, 2019
    • 端口 HADOOP-15778(ABFS:修复客户端读取限制)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-15778 (ABFS: Fix client side throttling for read) to Azure Data Lake Storage Gen2 connector
    • 端口 HADOOP-16040(ABFS:对 TolerateObappens 配置 Bug 修复)到 Azure Data Lake Storage Gen2 连接器Port HADOOP-16040 (ABFS: Bug fix for tolerateOobAppends configuration) to Azure Data Lake Storage Gen2 connector
    • 修复了加载 Delta 日志校验和文件时的争用情况Fixed a race condition when loading a Delta log checksum file
    • 修复了 Delta 冲突检测逻辑,不将“插入 + 重写”标识为纯“追加”操作Fixed Delta conflict detection logic to not identify “insert + overwrite” as pure “append” operation
    • [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用[SPARK-27494][SS] Null keys/values don’t work in Kafka source v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败[SPARK-27454][SPARK-27454][ML][SQL] Spark image datasource fail when encounter some illegal images
    • [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType[SPARK-27160][SQL] Fix DecimalType when building orc filters
    • [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁[SPARK-27338][CORE] Fix deadlock between UnsafeExternalSorter and TaskMemoryManager
  • 2019 年 3 月 26 日Mar 26, 2019
    • 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量Avoid embedding platform-dependent offsets literally in whole-stage generated code
    • 修复了影响某些 PythonUDF 的 bug。Fixed a bug affecting certain PythonUDFs.
  • 2019 年 2 月 26 日Feb 26, 2019
    • [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。[SPARK-26864][SQL] Query may return incorrect result when python udf is used as a left-semi join condition.
    • 修复了影响 JDBC/ODBC 服务器的 bug。Fixed a bug affecting JDBC/ODBC server.
    • 生成 HadoopRDD 时排除隐藏文件。Exclude the hidden files when building HadoopRDD.
  • 2019 年 2 月 12 日Feb 12, 2019
    • 修复了影响安装 egg 库并启用了表 ACL 的群集的问题。Fixed an issue affecting installing egg libraries with clusters having table ACL enabled.
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
    • [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence[SPARK-26706][SQL] Fix illegalNumericPrecedence for ByteType.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。[SPARK-26709][SQL] OptimizeMetadataOnlyQuery does not handle empty records correctly.
    • 修复了窗口运算符的约束推理。Fixed constraint inference on Window operator.
    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019
    • 修复了一个问题,该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。Fixed an issue that can cause df.rdd.count() with UDT to return incorrect answer for certain cases.
    • 修复了影响安装 wheelhouses 的问题。Fixed an issue affecting installing wheelhouses.
    • [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。[SPARK-26267]Retry when detecting incorrect offsets from Kafka.
    • 修复了影响流式查询中多个文件流源的 bug。Fixed a bug that affects multiple file stream sources in a streaming query.
    • 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。Fixed the StackOverflowError when putting skew join hint on cached relation.
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
  • 2019 年 1 月 8 日Jan 8, 2019
    • 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。Fixed issue that causes the error org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted.
    • [SPARK-26352]联接重新排序不应更改输出属性的顺序。[SPARK-26352]join reordering should not change the order of output attributes.
    • [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。[SPARK-26366]ReplaceExceptWithFilter should consider NULL as False.
    • Delta Lake 的稳定性改进。Stability improvement for Delta Lake.
    • 已启用 Delta Lake。Delta Lake is enabled.
    • Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。Databricks IO Cache is now enabled for Ls series worker instance types for all pricing tiers.

Databricks Runtime 5.0(不受支持) Databricks Runtime 5.0 (Unsupported)

请参阅 Databricks Runtime 5.0(不支持)See Databricks Runtime 5.0 (Unsupported).

  • 2019 年 6 月 18 日Jun 18, 2019
    • 修复了影响使用高阶函数的 bugFixed a bug affecting using higher order functions
  • 2019 年 5 月 7 日May 7, 2019
    • 修复了加载 Delta 日志校验和文件时的争用情况Fixed a race condition when loading a Delta log checksum file
    • 修复了 Delta 冲突检测逻辑,不将“插入 + 重写”标识为纯“追加”操作Fixed Delta conflict detection logic to not identify “insert + overwrite” as pure “append” operation
    • [SPARK-27494][SS] 空键/值在 Kafka source v2 中不起作用[SPARK-27494][SS] Null keys/values don’t work in Kafka source v2
    • [SPARK-27454][SPARK-27454][ML][SQL] Spark 图像数据源遇到一些非法图像时失败[SPARK-27454][SPARK-27454][ML][SQL] Spark image datasource fail when encounter some illegal images
    • [SPARK-27160][SQL] 修复构建 orc 筛选器时出现的 DecimalType[SPARK-27160][SQL] Fix DecimalType when building orc filters
      • [SPARK-27338][CORE] 修复 UnsafeeExternalSorter 和 TaskMemoryManager 之间的死锁[SPARK-27338][CORE] Fix deadlock between UnsafeExternalSorter and TaskMemoryManager
  • 2019 年 3 月 26 日Mar 26, 2019
    • 避免在整个阶段生成的代码中直接嵌入依赖于平台的偏移量Avoid embedding platform-dependent offsets literally in whole-stage generated code
    • 修复了影响某些 PythonUDF 的 bug。Fixed a bug affecting certain PythonUDFs.
  • 2019 年 3 月 12 日Mar 12, 2019
    • [SPARK-26864][SQL] 如果 python udf 用作左半联接条件,则查询可能会返回不正确的结果。[SPARK-26864][SQL] Query may return incorrect result when python udf is used as a left-semi join condition.
  • 2019 年 2 月 26 日Feb 26, 2019
    • 修复了影响 JDBC/ODBC 服务器的 bug。Fixed a bug affecting JDBC/ODBC server.
    • 生成 HadoopRDD 时排除隐藏文件。Exclude the hidden files when building HadoopRDD.
  • 2019 年 2 月 12 日Feb 12, 2019
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
    • [SPARK-26706][SQL] 修复 ByteType 的 illegalNumericPrecedence[SPARK-26706][SQL] Fix illegalNumericPrecedence for ByteType.
    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。[SPARK-26709][SQL] OptimizeMetadataOnlyQuery does not handle empty records correctly.
    • 修复了窗口运算符的约束推理。Fixed constraint inference on Window operator.
    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019
    • 修复了一个问题,该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。Fixed an issue that can cause df.rdd.count() with UDT to return incorrect answer for certain cases.
    • [SPARK-26267]检测到来自 Kafka 的错误偏移时重试。[SPARK-26267]Retry when detecting incorrect offsets from Kafka.
    • 修复了影响流式查询中多个文件流源的 bug。Fixed a bug that affects multiple file stream sources in a streaming query.
    • 修复了在缓存关系上放置倾斜联接提示时的 StackOverflowError。Fixed the StackOverflowError when putting skew join hint on cached relation.
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
  • 2019 年 1 月 8 日Jan 8, 2019
    • 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。Fixed issue that caused the error org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted.
    • [SPARK-26352]联接重新排序不应更改输出属性的顺序。[SPARK-26352]join reordering should not change the order of output attributes.
    • [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。[SPARK-26366]ReplaceExceptWithFilter should consider NULL as False.
    • Delta Lake 的稳定性改进。Stability improvement for Delta Lake.
    • 已启用 Delta Lake。Delta Lake is enabled.
    • Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。Databricks IO Cache is now enabled for Ls series worker instance types for all pricing tiers.
  • 2018 年 12 月 18 日Dec 18, 2018
    • [SPARK-26293]子查询中有 Python UDF 时发生强制转换异常[SPARK-26293]Cast exception when having Python UDF in subquery
    • 修复了影响使用联接和限制查询的问题。Fixed an issue affecting certain queries using Join and Limit.
    • 根据 Spark UI 中的 RDD 名称修订了凭据Redacted credentials from RDD names in Spark UI
  • 2018 年 12 月 6 日Dec 6, 2018
    • 修复了使用 orderBy 后接 groupBy 并将 group by key 作为 sort-by key 的前导部分时导致错误查询结果的问题。Fixed an issue that caused incorrect query result when using orderBy followed immediately by groupBy with group-by key as the leading part of the sort-by key.
    • 已将 Spark 的 Snowflake 连接器从 2.4.9.2-spark_2.4_pre_release 升级到 2.4.10。Upgraded Snowflake Connector for Spark from 2.4.9.2-spark_2.4_pre_release to 2.4.10.
    • 启用 spark.sql.files.ignoreCorruptFilesspark.sql.files.ignoreMissingFiles 标志时,仅在一次或多次重试后忽略损坏的文件。Only ignore corrupt files after one or more retries when spark.sql.files.ignoreCorruptFiles or spark.sql.files.ignoreMissingFiles flag is enabled.
    • 修复了影响某些自联合查询的问题。Fixed an issue affecting certain self union queries.
    • 修复了 thrift 服务器的一个 bug,即取消会话时,会话有时会泄漏。Fixed a bug with the thrift server where sessions are sometimes leaked when cancelled.
    • [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。[SPARK-26307]Fixed CTAS when INSERT a partitioned table using Hive SerDe.
    • [SPARK-26147]即使只使用联接的一侧的列,处于联接条件下的 Python udf 也会失败[SPARK-26147]Python UDFs in join condition fail even when using columns from only one side of join
    • [SPARK-26211]修复二进制的 InSet,以及带有 null 的结构和数组。[SPARK-26211]Fix InSet for binary, and struct and array with null.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 方法不正确。[SPARK-26181]the hasMinMaxStats method of ColumnStatsMap is not correct.
    • 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。Fixed an issue affecting installing Python Wheels in environments without Internet access.
  • 2018 年 11 月 20 日Nov 20, 2018
    • 修复了取消流式处理查询后导致笔记本无法使用的问题。Fixed an issue that caused a notebook not usable after cancelling a streaming query.
    • 修复了影响使用窗口函数的某些查询的问题。Fixed an issue affecting certain queries using window functions.
    • 修复了影响来自 Delta 的流的多个架构更改的问题。Fixed an issue affecting a stream from Delta with multiple schema changes.
    • 修复了影响使用左半/反联接的某些聚合查询的问题。Fixed an issue affecting certain aggregation queries with Left Semi/Anti joins.

Databricks Runtime 4.3(不受支持) Databricks Runtime 4.3 (Unsupported)

请参阅 Databricks Runtime 4.3See Databricks Runtime 4.3.

  • 2019 年 4 月 9 日Apr 9, 2019

    • [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。[SPARK-26665][CORE] Fix a bug that can cause BlockTransferService.fetchBlockSync to hang forever.
    • [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 时使表无效。[SPARK-24669][SQL] Invalidate tables in case of DROP DATABASE CASCADE.
  • 2019 年 3 月 12 日Mar 12, 2019

    • 修复了影响代码生成的 bug。Fixed a bug affecting code generation.
    • 修复了影响 Delta 的 bug。Fixed a bug affecting Delta.
  • 2019 年 2 月 26 日Feb 26, 2019

    • 修复了影响 JDBC/ODBC 服务器的 bug。Fixed a bug affecting JDBC/ODBC server.
  • 2019 年 2 月 12 日Feb 12, 2019

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。[SPARK-26709][SQL] OptimizeMetadataOnlyQuery does not handle empty records correctly.
    • 生成 HadoopRDD 时排除隐藏文件。Excluding the hidden files when building HadoopRDD.
    • 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。Fixed Parquet Filter Conversion for IN predicate when its value is empty.
    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019

    • 修复了一个问题,该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。Fixed an issue that can cause df.rdd.count() with UDT to return incorrect answer for certain cases.
    • 修复了 SQL 缓存的缓存 RDD 与其物理计划之间的不一致,这会导致不正确的结果。Fixed the inconsistency between a SQL cache’s cached RDD and its physical plan, which causes incorrect result.
  • 2019 年 1 月 8 日Jan 8, 2019

    • 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。Fixed the issue that causes the error org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted.
    • 根据 Spark UI 中的 RDD 名称修订了凭据Redacted credentials from RDD names in Spark UI
    • [SPARK-26352]联接重新排序不应更改输出属性的顺序。[SPARK-26352]join reordering should not change the order of output attributes.
    • [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。[SPARK-26366]ReplaceExceptWithFilter should consider NULL as False.
    • 已启用 Delta Lake。Delta Lake is enabled.
    • Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。Databricks IO Cache is now enabled for Ls series worker instance types for all pricing tiers.
  • 2018 年 12 月 18 日Dec 18, 2018

    • [SPARK-25002]Avro:修改输出记录命名空间。[SPARK-25002]Avro: revise the output record namespace.
    • 修复了影响使用联接和限制查询的问题。Fixed an issue affecting certain queries using Join and Limit.
    • [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。[SPARK-26307]Fixed CTAS when INSERT a partitioned table using Hive SerDe.
    • 启用 spark.sql.files.ignoreCorruptFilesspark.sql.files.ignoreMissingFiles 标志时,仅在一次或多次重试后忽略损坏的文件。Only ignore corrupt files after one or more retries when spark.sql.files.ignoreCorruptFiles or spark.sql.files.ignoreMissingFiles flag is enabled.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 方法不正确。[SPARK-26181]the hasMinMaxStats method of ColumnStatsMap is not correct.
    • 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。Fixed an issue affecting installing Python Wheels in environments without Internet access.
    • 修复了查询分析器中的性能问题。Fixed a performance issue in query analyzer.
    • 修复了 PySpark 中导致 DataFrame 操作失败并出现“连接被拒绝”错误的问题。Fixed an issue in PySpark that caused DataFrame actions failed with “connection refused” error.
    • 修复了影响某些自联合查询的问题。Fixed an issue affecting certain self union queries.
  • 2018 年 11 月 20 日Nov 20, 2018

    • [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。[SPARK-17916][SPARK-25241]Fix empty string being parsed as null when nullValue is set.
    • [SPARK-25387]修复了由错误的 CSV 输入导致的 NPE。[SPARK-25387]Fix for NPE caused by bad CSV input.
    • 修复了影响使用左半/反联接的某些聚合查询的问题。Fixed an issue affecting certain aggregation queries with Left Semi/Anti joins.
  • 2018 年 11 月 6 日Nov 6, 2018

    • [SPARK-25741]长 URL 在 Web UI 中未正确呈现。[SPARK-25741]Long URLs are not rendered properly in web UI.
    • [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。[SPARK-25714]Fix Null Handling in the Optimizer rule BooleanSimplification.
    • 修复了在 Synapse Analytics 连接器中影响临时对象清除的问题。Fixed an issue affecting temporary objects cleanup in Synapse Analytics connector.
    • [SPARK-25816]修复嵌套提取器中的属性解析。[SPARK-25816]Fix attribute resolution in nested extractors.
  • 2018 年 10 月 16 日Oct 16, 2018

    • 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。Fixed a bug affecting the output of running SHOW CREATE TABLE on Delta tables.
    • 修复了影响 Union 操作的 bug。Fixed a bug affecting Union operation.
  • 2018 年 9 月 25 日Sep 25, 2018

    • [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。[SPARK-25368][SQL] Incorrect constraint inference returns wrong result.
    • [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。[SPARK-25402][SQL] Null handling in BooleanSimplification.
    • 修复了 Avro 数据源中的 NotSerializableExceptionFixed NotSerializableException in Avro data source.
  • 2018 年 9 月 11 日Sep 11, 2018

    • [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。[SPARK-25214][SS] Fix the issue that Kafka v2 source may return duplicated records when failOnDataLoss=false.
    • [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。[SPARK-24987][SS] Fix Kafka consumer leak when no new offsets for articlePartition.
    • 筛选器精简版应正确处理 Null 值。Filter reduction should handle null value correctly.
    • 提高了执行引擎的稳定性。Improved stability of execution engine.
  • 2018 年 8 月 28 日Aug 28, 2018

    • 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。Fixed a bug in Delta Lake Delete command that would incorrectly delete the rows where the condition evaluates to null.
    • [SPARK-25142]添加了 Python 辅助角色无法打开 _load_from_socket 中的套接字的错误消息。[SPARK-25142]Add error messages when Python worker could not open socket in _load_from_socket.
  • 2018 年 8 月 23 日Aug 23, 2018

    • [SPARK-23935]mapEntry 引发 org.codehaus.commons.compiler.CompileException[SPARK-23935]mapEntry throws org.codehaus.commons.compiler.CompileException.
    • 修复了 Parquet 读取器中的可为空映射问题。Fixed nullable map issue in Parquet reader.
    • [SPARK-25051][SQL] FixNullability 不应在 AnalysisBarrier 上停止。[SPARK-25051][SQL] FixNullability should not stop on AnalysisBarrier.
    • [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。[SPARK-25081]Fixed a bug where ShuffleExternalSorter may access a released memory page when spilling fails to allocate memory.
    • 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。Fixed an interaction between Databricks Delta and Pyspark which could cause transient read failures.
    • [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。[SPARK-25084]”distribute by” on multiple columns (wrap in brackets) may lead to codegen issue.
    • [SPARK-25096]如果强制转换为可强制为空,则放宽可空性。[SPARK-25096]Loosen nullability if the cast is force-nullable.
    • 减少了 Delta Lake Optimize 命令使用的默认线程数,从而减少了内存开销并提升了数据提交的速度。Lowered the default number of threads used by the Delta Lake Optimize command, reducing memory overhead and committing data faster.
    • [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。[SPARK-25114]Fix RecordBinaryComparator when subtraction between two words is divisible by Integer.MAX_VALUE.
    • 修复了命令部分成功时的机密管理器修订。Fixed secret manager redaction when command partially succeed.

Databricks Runtime 4.2(不受支持) Databricks Runtime 4.2 (Unsupported)

请参阅 Databricks Runtime 4.2See Databricks Runtime 4.2.

  • 2019 年 2 月 26 日Feb 26, 2019

    • 修复了影响 JDBC/ODBC 服务器的 bug。Fixed a bug affecting JDBC/ODBC server.
  • 2019 年 2 月 12 日Feb 12, 2019

    • [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 无法正确处理空记录。[SPARK-26709][SQL] OptimizeMetadataOnlyQuery does not handle empty records correctly.
    • 生成 HadoopRDD 时排除隐藏文件。Excluding the hidden files when building HadoopRDD.
    • 修复了 IN 谓词的值为空时的 Parquet 筛选器转换。Fixed Parquet Filter Conversion for IN predicate when its value is empty.
    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019

    • 修复了一个问题,该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。Fixed an issue that can cause df.rdd.count() with UDT to return incorrect answer for certain cases.
  • 2019 年 1 月 8 日Jan 8, 2019

    • 修复了导致错误 org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted 的问题。Fixed issue that causes the error org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted.
    • 根据 Spark UI 中的 RDD 名称修订了凭据Redacted credentials from RDD names in Spark UI
    • [SPARK-26352]联接重新排序不应更改输出属性的顺序。[SPARK-26352]join reordering should not change the order of output attributes.
    • [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。[SPARK-26366]ReplaceExceptWithFilter should consider NULL as False.
    • 已启用 Delta Lake。Delta Lake is enabled.
    • Databricks IO Cache 现在为所有定价层的 Ls 系列辅助角色实例类型启用。Databricks IO Cache is now enabled for Ls series worker instance types for all pricing tiers.
  • 2018 年 12 月 18 日Dec 18, 2018

    • [SPARK-25002]Avro:修改输出记录命名空间。[SPARK-25002]Avro: revise the output record namespace.
    • 修复了影响使用联接和限制查询的问题。Fixed an issue affecting certain queries using Join and Limit.
    • [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。[SPARK-26307]Fixed CTAS when INSERT a partitioned table using Hive SerDe.
    • 启用 spark.sql.files.ignoreCorruptFilesspark.sql.files.ignoreMissingFiles 标志时,仅在一次或多次重试后忽略损坏的文件。Only ignore corrupt files after one or more retries when spark.sql.files.ignoreCorruptFiles or spark.sql.files.ignoreMissingFiles flag is enabled.
    • [SPARK-26181]ColumnStatsMaphasMinMaxStats 方法不正确。[SPARK-26181]the hasMinMaxStats method of ColumnStatsMap is not correct.
    • 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。Fixed an issue affecting installing Python Wheels in environments without Internet access.
    • 修复了查询分析器中的性能问题。Fixed a performance issue in query analyzer.
    • 修复了 PySpark 中导致 DataFrame 操作失败并出现“连接被拒绝”错误的问题。Fixed an issue in PySpark that caused DataFrame actions failed with “connection refused” error.
    • 修复了影响某些自联合查询的问题。Fixed an issue affecting certain self union queries.
  • 2018 年 11 月 20 日Nov 20, 2018

    • [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。[SPARK-17916][SPARK-25241]Fix empty string being parsed as null when nullValue is set.
    • 修复了影响使用左半/反联接的某些聚合查询的问题。Fixed an issue affecting certain aggregation queries with Left Semi/Anti joins.
  • 2018 年 11 月 6 日Nov 6, 2018

    • [SPARK-25741]长 URL 在 Web UI 中未正确呈现。[SPARK-25741]Long URLs are not rendered properly in web UI.
    • [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。[SPARK-25714]Fix Null Handling in the Optimizer rule BooleanSimplification.
  • 2018 年 10 月 16 日Oct 16, 2018

    • 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。Fixed a bug affecting the output of running SHOW CREATE TABLE on Delta tables.
    • 修复了影响 Union 操作的 bug。Fixed a bug affecting Union operation.
  • 2018 年 9 月 25 日Sep 25, 2018

    • [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。[SPARK-25368][SQL] Incorrect constraint inference returns wrong result.
    • [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。[SPARK-25402][SQL] Null handling in BooleanSimplification.
    • 修复了 Avro 数据源中的 NotSerializableExceptionFixed NotSerializableException in Avro data source.
  • 2018 年 9 月 11 日Sep 11, 2018

    • [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。[SPARK-25214][SS] Fix the issue that Kafka v2 source may return duplicated records when failOnDataLoss=false.
    • [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。[SPARK-24987][SS] Fix Kafka consumer leak when no new offsets for articlePartition.
    • 筛选器精简版应正确处理 Null 值。Filter reduction should handle null value correctly.
  • 2018 年 8 月 28 日Aug 28, 2018

    • 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。Fixed a bug in Delta Lake Delete command that would incorrectly delete the rows where the condition evaluates to null.
  • 2018 年 8 月 23 日Aug 23, 2018

    • 修复了 Delta 快照的 NoClassDefErrorFixed NoClassDefError for Delta Snapshot
    • [SPARK-23935]mapEntry 引发 org.codehaus.commons.compiler.CompileException[SPARK-23935]mapEntry throws org.codehaus.commons.compiler.CompileException.
    • [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。[SPARK-24957][SQL] Average with decimal followed by aggregation returns wrong result. 可能会返回错误的 AVERAGE 结果。The incorrect results of AVERAGE might be returned. 如果 Divide 的结果类型与强制转换的类型相同,则会跳过在 Average 运算符中添加的 CAST。The CAST added in the Average operator will be bypassed if the result of Divide is the same type which it is casted to.
    • [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。[SPARK-25081]Fixed a bug where ShuffleExternalSorter may access a released memory page when spilling fails to allocate memory.
    • 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。Fixed an interaction between Databricks Delta and Pyspark which could cause transient read failures.
    • [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。[SPARK-25114]Fix RecordBinaryComparator when subtraction between two words is divisible by Integer.MAX_VALUE.
    • [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。[SPARK-25084]”distribute by” on multiple columns (wrap in brackets) may lead to codegen issue.
    • [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。[SPARK-24934][SQL] Explicitly whitelist supported types in upper/lower bounds for in-memory partition pruning. 当在针对缓存数据的查询筛选器中使用复杂数据类型时,Spark 始终返回一个空结果集。When complex data types are used in query filters against cached data, Spark always returns an empty result set. 基于内存中统计信息的修剪生成了错误结果,原因是复杂类型的上限/下限设置为 null。The in-memory stats-based pruning generates incorrect results, because null is set for upper/lower bounds for complex types. 解决方法是不对复杂类型使用基于内存中统计信息的修剪。The fix is to not use in-memory stats-based pruning for complex types.
    • 修复了命令部分成功时的机密管理器修订。Fixed secret manager redaction when command partially succeed.
    • 修复了 Parquet 读取器中的可为空映射问题。Fixed nullable map issue in Parquet reader.
  • 2018 年 8 月 2 日Aug 2, 2018

    • 在 Python 中添加了 writeStream.table API。Added writeStream.table API in Python.
    • 修复了影响 Delta 检查点的问题。Fixed an issue affecting Delta checkpointing.
    • [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。[SPARK-24867][SQL] Add AnalysisBarrier to DataFrameWriter. 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。SQL cache is not being used when using DataFrameWriter to write a DataFrame with UDF. 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。This is a regression caused by the changes we made in AnalysisBarrier, since not all the Analyzer rules are idempotent.
    • 修复了可能导致 mergeInto 命令产生错误结果的问题。Fixed an issue that could cause mergeInto command to produce incorrect results.
    • [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。[SPARK-24809]Serializing LongHashedRelation in executor may result in data error.
    • [SPARK-24878][SQL] 针对包含 null 的基元类型的数组类型修复 reverse 函数。[SPARK-24878][SQL] Fix reverse function for array type of primitive type containing null.
  • 2018 年 7 月 11 日July 11, 2018

    • 修复了查询执行中的 bug,该 bug 会导致具有不同精度的十进制列上的聚合在某些情况下返回不正确的结果。Fixed a bug in query execution that would cause aggregations on decimal columns with different precisions to return incorrect results in some cases.
    • 修复了在高级聚合操作期间引发的 NullPointerException bug,如分组集。Fixed a NullPointerException bug that was thrown during advanced aggregation operations like grouping sets.

Databricks Runtime 4.1 ML(不受支持) Databricks Runtime 4.1 ML (Unsupported)

请参阅 Databricks Runtime 4.1 ML(Beta 版本)See Databricks Runtime 4.1 ML (Beta).

  • 2018 年 7 月 31 日July 31, 2018
    • 将 Azure Synapse Analytics 添加到了 ML 运行时 4.1Added Azure Synapse Analytics to ML Runtime 4.1
    • 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。Fixed a bug that could cause incorrect query results when the name of a partition column used in a predicate differs from the case of that column in the schema of the table.
    • 修复了影响 Spark SQL 执行引擎的 bug。Fixed a bug affecting Spark SQL execution engine.
    • 修复了影响代码生成的 bug。Fixed a bug affecting code generation.
    • 修复了影响 Delta Lake 的 bug (java.lang.NoClassDefFoundError)。Fixed a bug (java.lang.NoClassDefFoundError) affecting Delta Lake.
    • 改进了 Delta Lake 中的错误处理。Improved error handling in Delta Lake.
    • 修复了一个 bug,该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。Fixed a bug that caused incorrect data skipping statistics to be collected for string columns 32 characters or greater.

Databricks Runtime 4.1(不受支持) Databricks Runtime 4.1 (Unsupported)

请参阅 Databricks Runtime 4.1See Databricks Runtime 4.1.

  • 2019 年 1 月 8 日Jan 8, 2019

    • [SPARK-26366]ReplaceExceptWithFilter 应将 NULL 视为 False。[SPARK-26366]ReplaceExceptWithFilter should consider NULL as False.
    • 已启用 Delta Lake。Delta Lake is enabled.
  • 2018 年 12 月 18 日Dec 18, 2018

    • [SPARK-25002]Avro:修改输出记录命名空间。[SPARK-25002]Avro: revise the output record namespace.
    • 修复了影响使用联接和限制查询的问题。Fixed an issue affecting certain queries using Join and Limit.
    • [SPARK-26307]修复了使用 Hive SerDe 插入分区表时的 CTA。[SPARK-26307]Fixed CTAS when INSERT a partitioned table using Hive SerDe.
    • 启用 spark.sql.files.ignoreCorruptFilesspark.sql.files.ignoreMissingFiles 标志时,仅在一次或多次重试后忽略损坏的文件。Only ignore corrupt files after one or more retries when spark.sql.files.ignoreCorruptFiles or spark.sql.files.ignoreMissingFiles flag is enabled.
    • 修复了在没有 Internet 访问的环境中影响安装 Python Wheel 的问题。Fixed an issue affecting installing Python Wheels in environments without Internet access.
    • 修复了 PySpark 中导致 DataFrame 操作失败并出现“连接被拒绝”错误的问题。Fixed an issue in PySpark that caused DataFrame actions failed with “connection refused” error.
    • 修复了影响某些自联合查询的问题。Fixed an issue affecting certain self union queries.
  • 2018 年 11 月 20 日Nov 20, 2018

    • [SPARK-17916][SPARK-25241]修复当设置 nullValue 了时空字符串被分析为 null 的问题。[SPARK-17916][SPARK-25241]Fix empty string being parsed as null when nullValue is set.
    • 修复了影响使用左半/反联接的某些聚合查询的问题。Fixed an issue affecting certain aggregation queries with Left Semi/Anti joins.
  • 2018 年 11 月 6 日Nov 6, 2018

    • [SPARK-25741]长 URL 在 Web UI 中未正确呈现。[SPARK-25741]Long URLs are not rendered properly in web UI.
    • [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。[SPARK-25714]Fix Null Handling in the Optimizer rule BooleanSimplification.
  • 2018 年 10 月 16 日Oct 16, 2018

    • 修复了影响在 Delta 表上运行 SHOW CREATE TABLE 的输出的 bug。Fixed a bug affecting the output of running SHOW CREATE TABLE on Delta tables.
    • 修复了影响 Union 操作的 bug。Fixed a bug affecting Union operation.
  • 2018 年 9 月 25 日Sep 25, 2018

    • [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。[SPARK-25368][SQL] Incorrect constraint inference returns wrong result.
    • [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。[SPARK-25402][SQL] Null handling in BooleanSimplification.
    • 修复了 Avro 数据源中的 NotSerializableExceptionFixed NotSerializableException in Avro data source.
  • 2018 年 9 月 11 日Sep 11, 2018

    • [SPARK-25214][SS] 修复 Kafka v2 源在 failOnDataLoss=false 时可能返回重复记录的问题。[SPARK-25214][SS] Fix the issue that Kafka v2 source may return duplicated records when failOnDataLoss=false.
    • [SPARK-24987][SS] 修复了当 articlePartition 没有新的偏移量时 Kafka 使用者泄漏问题。[SPARK-24987][SS] Fix Kafka consumer leak when no new offsets for articlePartition.
    • 筛选器精简版应正确处理 Null 值。Filter reduction should handle null value correctly.
  • 2018 年 8 月 28 日Aug 28, 2018

    • 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。Fixed a bug in Delta Lake Delete command that would incorrectly delete the rows where the condition evaluates to null.
    • [SPARK-25084]多个列上的“distribute by”(在括号中换行)可能会导致 codegen 问题。[SPARK-25084]”distribute by” on multiple columns (wrap in brackets) may lead to codegen issue.
    • [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。[SPARK-25114]Fix RecordBinaryComparator when subtraction between two words is divisible by Integer.MAX_VALUE.
  • 2018 年 8 月 23 日Aug 23, 2018

    • 修复了 Delta 快照的 NoClassDefError。Fixed NoClassDefError for Delta Snapshot.
    • [SPARK-24957][SQL] 后跟聚合的带小数的平均值返回了错误结果。[SPARK-24957][SQL] Average with decimal followed by aggregation returns wrong result. 可能会返回错误的 AVERAGE 结果。The incorrect results of AVERAGE might be returned. 如果 Divide 的结果类型与强制转换的类型相同,则会跳过在 Average 运算符中添加的 CAST。The CAST added in the Average operator will be bypassed if the result of Divide is the same type which it is casted to.
    • 修复了 Parquet 读取器中的可为空映射问题。Fixed nullable map issue in Parquet reader.
    • [SPARK-24934][SQL] 在内存中分区修剪的上限/下限中将支持的类型显式加入允许列表。[SPARK-24934][SQL] Explicitly whitelist supported types in upper/lower bounds for in-memory partition pruning. 当在针对缓存数据的查询筛选器中使用复杂数据类型时,Spark 始终返回一个空结果集。When complex data types are used in query filters against cached data, Spark always returns an empty result set. 基于内存中统计信息的修剪生成了错误结果,原因是复杂类型的上限/下限设置为 null。The in-memory stats-based pruning generates incorrect results, because null is set for upper/lower bounds for complex types. 解决方法是不对复杂类型使用基于内存中统计信息的修剪。The fix is to not use in-memory stats-based pruning for complex types.
    • [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。[SPARK-25081]Fixed a bug where ShuffleExternalSorter may access a released memory page when spilling fails to allocate memory.
    • 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。Fixed an interaction between Databricks Delta and Pyspark which could cause transient read failures.
    • 修复了命令部分成功时的机密管理器修订Fixed secret manager redaction when command partially succeed
  • 2018 年 8 月 2 日Aug 2, 2018

    • [SPARK-24613][SQL] 采用 UDF 的缓存无法与后续的独立缓存匹配。[SPARK-24613][SQL] Cache with UDF could not be matched with subsequent dependent caches. 使用 AnalysisBarrier 包装逻辑计划以在 CacheManager 中编译执行计划,目的是避免再次分析计划。Wraps the logical plan with a AnalysisBarrier for execution plan compilation in CacheManager, in order to avoid the plan being analyzed again. 这也是 Spark 2.3 的回归。This is also a regression of Spark 2.3.
    • 修复了 Synapse Analytics 连接器影响写入 DateType 数据的时区转换的问题。Fixed a Synapse Analytics connector issue affecting timezone conversion for writing DateType data.
    • 修复了影响 Delta 检查点的问题。Fixed an issue affecting Delta checkpointing.
    • 修复了可能导致 mergeInto 命令产生错误结果的问题。Fixed an issue that could cause mergeInto command to produce incorrect results.
    • [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。[SPARK-24867][SQL] Add AnalysisBarrier to DataFrameWriter. 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。SQL cache is not being used when using DataFrameWriter to write a DataFrame with UDF. 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。This is a regression caused by the changes we made in AnalysisBarrier, since not all the Analyzer rules are idempotent.
    • [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。[SPARK-24809]Serializing LongHashedRelation in executor may result in data error.
  • 2018 年 7 月 11 日July 11, 2018

    • 修复了在查询执行过程中会导致聚合不同精度的十进制列在某些情况下返回不正确的结果的 bug。Fixed a bug in query execution that would cause aggregations on decimal columns with different precisions to return incorrect results in some cases.
    • 修复了在高级聚合操作期间引发的 NullPointerException bug,如分组集。Fixed a NullPointerException bug that was thrown during advanced aggregation operations like grouping sets.
  • 2018 年 6 月 28 日June 28, 2018

    • 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。Fixed a bug that could cause incorrect query results when the name of a partition column used in a predicate differs from the case of that column in the schema of the table.
  • 2018 年 6 月 7 日June 7, 2018

    • 修复了影响 Spark SQL 执行引擎的 bug。Fixed a bug affecting Spark SQL execution engine.
    • 修复了影响代码生成的 bug。Fixed a bug affecting code generation.
    • 修复了影响 Delta Lake 的 bug (java.lang.NoClassDefFoundError)。Fixed a bug (java.lang.NoClassDefFoundError) affecting Delta Lake.
    • 改进了 Delta Lake 中的错误处理。Improved error handling in Delta Lake.
  • 2018 年 5 月 17 日May 17, 2018

    • 修复了一个 bug,该 bug 导致为字符串列 32 个或更长的字符收集不正确的数据跳过统计信息。Fixed a bug that caused incorrect data skipping statistics to be collected for string columns 32 characters or greater.

Databricks Runtime 4.0(不受支持) Databricks Runtime 4.0 (Unsupported)

请参阅 Databricks Runtime 4.0See Databricks Runtime 4.0.

  • 2018 年 11 月 6 日Nov 6, 2018

    • [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。[SPARK-25714]Fix Null Handling in the Optimizer rule BooleanSimplification.
  • 2018 年 10 月 16 日Oct 16, 2018

    • 修复了影响 Union 操作的 bug。Fixed a bug affecting Union operation.
  • 2018 年 9 月 25 日Sep 25, 2018

    • [SPARK-25368][SQL] 不正确的约束推理返回错误的结果。[SPARK-25368][SQL] Incorrect constraint inference returns wrong result.
    • [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。[SPARK-25402][SQL] Null handling in BooleanSimplification.
    • 修复了 Avro 数据源中的 NotSerializableExceptionFixed NotSerializableException in Avro data source.
  • 2018 年 9 月 11 日Sep 11, 2018

    • 筛选器精简版应正确处理 Null 值。Filter reduction should handle null value correctly.
  • 2018 年 8 月 28 日Aug 28, 2018

    • 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。Fixed a bug in Delta Lake Delete command that would incorrectly delete the rows where the condition evaluates to null.
  • 2018 年 8 月 23 日Aug 23, 2018

    • 修复了 Parquet 读取器中的可为空映射问题。Fixed nullable map issue in Parquet reader.
    • 修复了命令部分成功时的机密管理器修订Fixed secret manager redaction when command partially succeed
    • 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。Fixed an interaction between Databricks Delta and Pyspark which could cause transient read failures.
    • [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。[SPARK-25081]Fixed a bug where ShuffleExternalSorter may access a released memory page when spilling fails to allocate memory.
    • [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。[SPARK-25114]Fix RecordBinaryComparator when subtraction between two words is divisible by Integer.MAX_VALUE.
  • 2018 年 8 月 2 日Aug 2, 2018

    • [SPARK-24452]在整数加法或乘法中避免可能的溢出。[SPARK-24452]Avoid possible overflow in int add or multiple.
    • [SPARK-24588]流式处理联接应需要来自子代的 HashClusteredPartitioning。[SPARK-24588]Streaming join should require HashClusteredPartitioning from children.
    • 修复了可能导致 mergeInto 命令产生错误结果的问题。Fixed an issue that could cause mergeInto command to produce incorrect results.
    • [SPARK-24867][SQL] 将 AnalysisBarrier 添加到 DataFrameWriter。[SPARK-24867][SQL] Add AnalysisBarrier to DataFrameWriter. 使用 DataFrameWriter 编写具有 UDF 的数据帧时,不使用 SQL 缓存。SQL cache is not being used when using DataFrameWriter to write a DataFrame with UDF. 这是我们在 AnalysisBarrier 中所做的更改导致的回归,因为并非所有分析器规则都是幂等的。This is a regression caused by the changes we made in AnalysisBarrier, since not all the Analyzer rules are idempotent.
    • [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。[SPARK-24809]Serializing LongHashedRelation in executor may result in data error.
  • 2018 年 6 月 28 日June 28, 2018

    • 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。Fixed a bug that could cause incorrect query results when the name of a partition column used in a predicate differs from the case of that column in the schema of the table.
  • 2018 年 6 月 7 日June 7, 2018

    • 修复了影响 Spark SQL 执行引擎的 bug。Fixed a bug affecting Spark SQL execution engine.
    • 改进了 Delta Lake 中的错误处理。Improved error handling in Delta Lake.
  • 2018 年 5 月 17 日May 17, 2018

    • 修复了 Databricks 机密管理的错误。Bug fixes for Databricks secret management.
    • 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。Improved stability on reading data stored in Azure Data Lake Store.
    • 修复了影响 RDD 缓存的 bug。Fixed a bug affecting RDD caching.
    • 修复了 Spark SQL 中影响 NULL 安全相等的错误。Fixed a bug affecting Null-safe Equal in Spark SQL.
  • 2018 年 4 月 24 日Apr 24, 2018

    • 将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8,以提高访问 Azure Data Lake Store 的稳定性。Upgraded Azure Data Lake Store SDK from 2.0.11 to 2.2.8 to improve the stability of access to Azure Data Lake Store.
    • 修复了当 spark.databricks.io.hive.fastwriter.enabledfalse 时影响对分区 Hive 表插入重写的 bug。Fixed a bug affecting the insertion of overwrites to partitioned Hive tables when spark.databricks.io.hive.fastwriter.enabled is false.
    • 修复了任务序列化失败的问题。Fixed an issue that failed task serialization.
    • 提升了 Delta Lake 的稳定性。Improved Delta Lake stability.
  • 2018 年 3 月 14 日Mar 14, 2018

    • 在写入 Delta Lake 时防止不必要的元数据更新。Prevent unnecessary metadata updates when writing into Delta Lake.
    • 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。Fixed an issue caused by a race condition that could, in rare circumstances, lead to loss of some output files.

Databricks Runtime 3.5 LTS(不受支持) Databricks Runtime 3.5 LTS (Unsupported)

请参阅 Databricks Runtime 3.5 LTS(不支持)See Databricks Runtime 3.5 LTS (Unsupported).

  • 2019 年 11 月 7 日Nov 7, 2019

    • [SPARK-29743][SQL] 示例应将 needCopyResult 设置为 true(如果其子级的 needCopyResult 为 true)[SPARK-29743][SQL] sample should set needCopyResult to true if its child’s needCopyResult is true
  • 2019 年 10 月 8 日Oct 8, 2019

    • 服务器端更改为允许 Simba Apache Spark ODBC 驱动程序在获取结果时连接失败后重新连接并继续操作(需要 Simba Apache Spark ODBC 驱动程序更新到版本 2.6.10)。Server side changes to allow Simba Apache Spark ODBC driver to reconnect and continue after a connection failure during fetching results (requires Simba Apache Spark ODBC driver update to version 2.6.10).
  • 2019 年 9 月 10 日Sep 10, 2019

    • [SPARK-28699][SQL] 禁止在重新分区情况下对 ShuffleExchangeExec 使用基数排序[SPARK-28699][SQL] Disable using radix sort for ShuffleExchangeExec in repartition case
  • 2019 年 4 月 9 日Apr 9, 2019

    • [SPARK-26665][CORE] 修复了可能导致 BlockTransferService.fetchBlockSync 永久挂起的 bug。[SPARK-26665][CORE] Fix a bug that can cause BlockTransferService.fetchBlockSync to hang forever.
  • 2019 年 2 月 12 日Feb 12, 2019

    • 修复了 Spark 低级网络协议在发送启用加密的大型 RPC 错误消息时可能被破坏的问题(当 spark.network.crypto.enabled 设置为 true 时)。Fixed an issue that Spark low level network protocol may be broken when sending large RPC error messages with encryption enabled (when spark.network.crypto.enabled is set to true).
  • 2019 年 1 月 30 日Jan 30, 2019

    • 修复了一个问题,该问题可能导致使用 UDT 的 df.rdd.count() 在某些情况下返回不正确的答案。Fixed an issue that can cause df.rdd.count() with UDT to return incorrect answer for certain cases.
  • 2018 年 12 月 18 日Dec 18, 2018

    • 启用 spark.sql.files.ignoreCorruptFilesspark.sql.files.ignoreMissingFiles 标志时,仅在一次或多次重试后忽略损坏的文件。Only ignore corrupt files after one or more retries when spark.sql.files.ignoreCorruptFiles or spark.sql.files.ignoreMissingFiles flag is enabled.
    • 修复了影响某些自联合查询的问题。Fixed an issue affecting certain self union queries.
  • 2018 年 11 月 20 日Nov 20, 2018

  • 2018 年 11 月 6 日Nov 6, 2018

    • [SPARK-25714]修复优化器规则 BooleanSimplification 中的 NULL 处理。[SPARK-25714]Fix Null Handling in the Optimizer rule BooleanSimplification.
  • 2018 年 10 月 16 日Oct 16, 2018

    • 修复了影响 Union 操作的 bug。Fixed a bug affecting Union operation.
  • 2018 年 9 月 25 日Sep 25, 2018

    • [SPARK-25402][SQL] BooleanSimplification 中的 NULL 处理。[SPARK-25402][SQL] Null handling in BooleanSimplification.
    • 修复了 Avro 数据源中的 NotSerializableExceptionFixed NotSerializableException in Avro data source.
  • 2018 年 9 月 11 日Sep 11, 2018

    • 筛选器精简版应正确处理 Null 值。Filter reduction should handle null value correctly.
  • 2018 年 8 月 28 日Aug 28, 2018

    • 修复了 Delta Lake Delete 命令中的 bug,该 bug 会错误地删除条件评估为 null 的行。Fixed a bug in Delta Lake Delete command that would incorrectly delete the rows where the condition evaluates to null.
    • [SPARK-25114]修复了两个数之间的减法可被 Integer.MAX_VALUE 整除时的 RecordBinaryComparator。[SPARK-25114]Fix RecordBinaryComparator when subtraction between two words is divisible by Integer.MAX_VALUE.
  • 2018 年 8 月 23 日Aug 23, 2018

    • [SPARK-24809]在执行程序中序列化 LongHashedRelation 可能会导致数据错误。[SPARK-24809]Serializing LongHashedRelation in executor may result in data error.
    • 修复了 Parquet 读取器中的可为空映射问题。Fixed nullable map issue in Parquet reader.
    • [SPARK-25081]修复了当溢出无法分配内存时 ShuffleExternalSorter 可能访问已释放内存页的 bug。[SPARK-25081]Fixed a bug where ShuffleExternalSorter may access a released memory page when spilling fails to allocate memory.
    • 修复了 Databricks Delta 和 Pyspark 之间可能导致瞬时读取失败的交互。Fixed an interaction between Databricks Delta and Pyspark which could cause transient read failures.
  • 2018 年 6 月 28 日June 28, 2018

    • 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。Fixed a bug that could cause incorrect query results when the name of a partition column used in a predicate differs from the case of that column in the schema of the table.
  • 2018 年 6 月 28 日June 28, 2018

    • 修复了当谓词中使用的分区列的名称与表架构中该列的大小写不同时可能导致错误查询结果的 bug。Fixed a bug that could cause incorrect query results when the name of a partition column used in a predicate differs from the case of that column in the schema of the table.
  • 2018 年 6 月 7 日June 7, 2018

    • 修复了影响 Spark SQL 执行引擎的 bug。Fixed a bug affecting Spark SQL execution engine.
    • 改进了 Delta Lake 中的错误处理。Improved error handling in Delta Lake.
  • 2018 年 5 月 17 日May 17, 2018

    • 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。Improved stability on reading data stored in Azure Data Lake Store.
    • 修复了影响 RDD 缓存的 bug。Fixed a bug affecting RDD caching.
    • 修复了 Spark SQL 中影响 NULL 安全相等的错误。Fixed a bug affecting Null-safe Equal in Spark SQL.
    • 修复了影响流式处理查询中的某些聚合的 bug。Fixed a bug affecting certain aggregations in streaming queries.
  • 2018 年 4 月 24 日Apr 24, 2018

    • 将 Azure Data Lake Store SDK 从 2.0.11 升级到 2.2.8,以提高访问 Azure Data Lake Store 的稳定性。Upgraded Azure Data Lake Store SDK from 2.0.11 to 2.2.8 to improve the stability of access to Azure Data Lake Store.
    • 修复了当 spark.databricks.io.hive.fastwriter.enabledfalse 时影响对分区 Hive 表插入重写的 bug。Fixed a bug affecting the insertion of overwrites to partitioned Hive tables when spark.databricks.io.hive.fastwriter.enabled is false.
    • 修复了任务序列化失败的问题。Fixed an issue that failed task serialization.
  • 2018 年 3 月 9 日Mar 09, 2018

    • 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。Fixed an issue caused by a race condition that could, in rare circumstances, lead to loss of some output files.
  • 2018 年 3 月 1 日Mar 01, 2018

    • 提高了处理需要很长时间才能停止的流的效率。Improved the efficiency of handling streams that can take a long time to stop.
    • 修复了影响 Python 自动补全的问题。Fixed an issue affecting Python autocomplete.
    • 应用了 Ubuntu 安全补丁。Applied Ubuntu security patches.
    • 修复了影响使用 Python UDF 和窗口函数的某些查询的问题。Fixed an issue affecting certain queries using Python UDFs and window functions.
    • 修复了在启用表访问控制的群集上影响 UDF 使用的问题。Fixed an issue affecting the use of UDFs on a cluster with table access control enabled.
  • 2018年 1 月 29 日Jan 29, 2018

    • 修复了影响对存储在 Azure Blob 存储中的表的操作的问题。Fixed an issue affecting the manipulation of tables stored in Azure Blob storage.
    • 修正了在空 DataFrame 上 dropDuplicate 后的聚合问题。Fixed aggregation after dropDuplicates on empty DataFrame.

Databricks Runtime 3.4(不受支持) Databricks Runtime 3.4 (Unsupported)

请参阅 Databricks Runtime 3.4See Databricks Runtime 3.4.

  • 2018 年 6 月 7 日June 7, 2018

    • 修复了影响 Spark SQL 执行引擎的 bug。Fixed a bug affecting Spark SQL execution engine.
    • 改进了 Delta Lake 中的错误处理。Improved error handling in Delta Lake.
  • 2018 年 5 月 17 日May 17, 2018

    • 提高了读取存储在 Azure data Lake Store 中的数据的稳定性。Improved stability on reading data stored in Azure Data Lake Store.
    • 修复了影响 RDD 缓存的 bug。Fixed a bug affecting RDD caching.
    • 修复了 Spark SQL 中影响 NULL 安全相等的错误。Fixed a bug affecting Null-safe Equal in Spark SQL.
  • 2018 年 4 月 24 日Apr 24, 2018

    • 修复了当 spark.databricks.io.hive.fastwriter.enabledfalse 时影响对分区 Hive 表插入重写的 bug。Fixed a bug affecting the insertion of overwrites to partitioned Hive tables when spark.databricks.io.hive.fastwriter.enabled is false.
  • 2018 年 3 月 9 日Mar 09, 2018

    • 修复了由争用条件引起的问题,这种情况在极少数情况下可能导致某些输出文件丢失。Fixed an issue caused by a race condition that could, in rare circumstances, lead to loss of some output files.
  • 2017 年 12 月 13 日Dec 13, 2017

    • 修复了影响 Scala 中 UDF 的问题。Fixed an issue affecting UDFs in Scala.
    • 修复了影响在非 DBFS 路径中存储的数据源表上使用数据跳过索引的问题。Fixed an issue affecting the use of Data Skipping Index on data source tables stored in non-DBFS paths.
  • 2017 年 12 月 7 日Dec 07, 2017

    • 改进了随机稳定性。Improved shuffle stability.