다음을 통해 공유

Databricks Runtime 17.0

以下发行说明提供有关由 Apache Spark 4.0.0 提供支持的 Databricks Runtime 17.0 的信息。

Databricks 于 2025 年 6 月发布了此版本。

小窍门

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。

新功能和改进

标准计算上的 Spark ML 支持

标准访问模式(以前共享访问模式)现在支持 PySpark 中的 Spark ML(pyspark.ml)和适用于 Spark 的 MLflow(mlflow.spark)。 对于超参数优化,Databricks 建议在标准计算上使用 Optuna 和 Joblib Spark。

SQL 过程支持

SQL 脚本现在可以被封装在 Unity Catalog 中的存储过程,作为可重用的资产。 可以使用 CREATE PROCEDURE 命令创建过程,然后使用 CALL 命令调用过程。

为 SQL Functions 设置默认排序规则

使用 DEFAULT COLLATION 命令中的新子句定义用于STRING参数、返回类型和STRING函数正文中的文本的默认排序规则。

递归通用表表达式 (rCTE) 支持

Azure Databricks 现在支持使用 递归通用表表达式(rCTE)导航分层数据。 使用自引用 CTE UNION ALL 来遵循递归关系。

默认情况下已启用 ANSI SQL

默认 SQL 方言现在是 ANSI SQL。 ANSI SQL 是一个完善的标准,可帮助保护用户免受意外或不正确结果的影响。 有关详细信息,请阅读 Databricks ANSI 启用指南

PySpark 和 Spark Connect 现在支持 DataFrames df.mergeInto API

PySpark 和 Spark Connect 现在支持 df.mergeInto API,该 API 以前仅适用于 Scala。

ALL CATALOGS SCHEMAS 中支持SHOW

SHOW SCHEMAS 语法已更新,现在接受以下语法:

SHOW SCHEMAS [ { FROM | IN } { catalog_name | ALL CATALOGS } ] [ [ LIKE ] pattern ]

在查询中指定ALL CATALOGS时,执行将循环访问所有支持命名空间且使用目录管理器(DsV2)的活动目录SHOW。 对于每个目录,其中包含顶级命名空间。

已对命令的输出属性和架构进行了修改,添加了一列,用于指示 catalog 对应命名空间的目录。 新列将添加到输出属性的末尾,如下所示:

上一个输出

| Namespace        |
|------------------|
| test-namespace-1 |
| test-namespace-2 |

新输出

| Namespace        | Catalog        |
|------------------|----------------|
| test-namespace-1 | test-catalog-1 |
| test-namespace-2 | test-catalog-2 |

液体聚类分析现在更高效地压缩删除矢量

OPTIMIZE 运行时,使用 Liquid 聚类的 Delta 表现在能够更有效地应用删除向量的物理更改。 有关详细信息,请参阅 对 Parquet 数据文件应用更改

允许在UPDATE操作的/INSERTMERGE列值中使用非确定性表达式

Azure Databricks 现在允许在MERGE操作的更新和插入列值中使用非确定性表达式。 但是,不支持语句条件 MERGE 中的非确定性表达式。

例如,现在可以为列生成动态值或随机值:

MERGE INTO target USING source
ON target.key = source.key
WHEN MATCHED THEN UPDATE SET target.value = source.value + rand()

这可以帮助数据隐私模糊化实际数据,同时保留数据属性(如平均值值或其他计算列)。

忽略并拯救自动加载程序引入的空结构(尤其是 Avro)

自动加载程序现在使用空架构拯救 Avro 数据类型,因为 Delta 表不支持引入空 struct类型数据。

更改 Delta MERGE Python 和 Scala API 以返回 DataFrame 而不是 Unit

Scala 和 Python MERGE API(例如 DeltaMergeBuilder)现在也返回与 SQL API 一样的数据帧,结果相同。

支持 VAR 关键字来声明和删除 SQL 变量

声明和删除变量的 SQL 语法现在还支持VARVARIABLE关键字。 此更改将所有变量相关作的语法统一,这可提高一致性,并减少在设置变量时已使用 VAR 的用户的混淆。

升级 Apache Parquet 软件库

Apache Parquet 库已从版本 1.13.1 升级到 1.15.1,以确保与 Spark 4.0 兼容。 此更新包括以下模块的性能改进、bug 修复和增强的 Parquet 功能支持:

  • parquet-column (Parquet列)
  • parquet-common
  • parquet-encoding
  • parquet-format-structures
  • parquet-hadoop
  • parquet-jackson

行为变更

不再支持 Databricks 文件系统 (DBFS) 自定义 CA 证书

作为在 DBFS 根和 DBFS 装载中弃用数据存储的持续努力的一部分,Databricks Runtime 17.0 及更高版本不支持 DBFS 自定义 CA 证书。 有关文件操作的建议,请参阅 在 Azure Databricks 上操作文件

自动加载程序增量目录列表选项的行为变化

弃用的自动加载程序 cloudFiles.useIncrementalListing 选项的值现在设置为默认值 false。 因此,此更改会导致自动加载器在每次运行时执行完整的目录列表。 以前,选项的 cloudFiles.useIncrementalListing 默认值是 auto,指示自动加载程序尽最大努力检测是否可以将增量列表与目录一起使用。

Databricks 不建议使用此选项。 而是将 文件通知模式与文件事件一起使用。 如果想要继续使用增量列表功能,请在代码中设置为cloudFiles.useIncrementalListingauto。 将此值 auto设置为时,自动加载程序会尽力尝试每七个增量列表执行一次完整列表,这与此选项在更改之前的行为匹配。

若要了解有关自动加载程序目录列表的详细信息,请参阅 具有目录列表模式的自动加载程序流

删除了 Spark UI 中的“真实缓存未命中”部分

此更改取消了对“缓存真正未命中大小”指标(适用于压缩缓存和未压缩缓存)的支持。 “缓存写入未命中”指标度量相同的信息。

使用numLocalScanTasks作为此指标的可行代理,以观察在将文件分配给正确的执行程序时缓存的性能。

删除了 Spark UI 中的“缓存元数据管理器峰值磁盘使用情况”指标

此更改从 Databricks Runtime 和 Spark UI 中删除对 cacheLocalityMgrDiskUsageInBytescacheLocalityMgrTimeMs 指标的支持。

删除了 Spark UI 中的“重新调度缓存未命中字节数”部分

从 DBR 中删除了缓存重新计划的未命中大小和缓存重新计划的未命中大小(未压缩)指标。 这样做是因为这会度量将文件分配给非首选执行程序时缓存的执行方式。 numNonLocalScanTasks 是此指标的良好代理。

CREATE VIEW 当子句仅适用于具体化视图时,列级子句现在将引发错误

CREATE VIEW 中指定了仅对特定 MATERIALIZED VIEWs 有效的列级子句的命令,现在会引发错误。 受影响的子句对于命令 CREATE VIEW 为:

  • NOT NULL
  • 指定的数据类型,例如 FLOATSTRING
  • DEFAULT
  • COLUMN MASK

图书馆升级

  • 升级后的 Python 库

    • azure-core 从 1.31.0 更新到 1.34.0
    • 黑色从 24.4.2 到 24.10.0
    • boto3 从 1.34.69 到 1.36.2
    • botocore 从 1.34.69 到 1.36.3
    • cachetools 从 5.3.3 到 5.5.1
    • certifi 从2024年6月2日到2025年1月31日
    • cffi 从 1.16.0 到 1.17.1
    • charset-normalizer 从 2.0.4 到 3.3.2
    • cloudpickle 从 2.2.1 到 3.0.0
    • 将 contourpy 从 1.2.0 升级到 1.3.1
    • 加密从 42.0.5 到 43.0.3
    • Cython 从 3.0.11 到 3.0.12
    • databricks-sdk 从 0.30.0 到 0.49.0
    • debugpy 从 1.6.7 到 1.8.11
    • 已在 1.2.13 到 1.2.14 版本中弃用
    • distlib 从 0.3.8 升级到 0.3.9
    • filelock 从 3.15.4 到 3.18.0
    • fonttools 从 4.51.0 到 4.55.3
    • GitPython 从 3.1.37 到 3.1.43
    • google-auth 从 2.35.0 到 2.40.0
    • google-cloud-core 从 2.4.1 到 2.4.3
    • google-cloud-storage 从 2.18.2 到 3.1.0
    • google-crc32c 从 1.6.0 到 1.7.1
    • grpcio 从 1.60.0 到 1.67.0
    • grpcio-status 从 1.60.0 到 1.67.0
    • importlib-metadata 从 6.0.0 到 6.6.0
    • 将 ipyflow-core 从 0.0.201 更新到 0.0.209
    • ipykernel 从 6.28.0 到 6.29.5
    • ipython 从 8.25.0 到 8.30.0
    • ipywidgets 从 7.7.2 到 7.8.1
    • jedi 从 0.19.1 到 0.19.2
    • jupyter_client 从 8.6.0 到 8.6.3
    • kiwisolver 从 1.4.4 到 1.4.8
    • matplotlib 从 3.8.4 到 3.10.0
    • matplotlib-inline 从 0.1.6 到 0.1.7
    • mlflow-skinny 版本从 2.19.0 更新到 2.22.0
    • numpy 从 1.26.4 到 2.1.3
    • opentelemetry-api 从 1.27.0 到 1.32.1
    • opentelemetry-sdk 从 1.27.0 到 1.32.1
    • opentelemetry-semantic-conventions,从 0.48b0 到 0.53b1
    • pandas 从 1.5.3 到 2.2.3
    • parso 从 0.8.3 升级到 0.8.4
    • patsy 从 0.5.6 到 1.0.1
    • 枕头从 10.3.0 到 11.1.0
    • 将 Plotly 从 5.22.0 升级到 5.24.1
    • pluggy 从 1.0.0 更新到 1.5.0
    • proto-plus 从 1.24.0 到 1.26.1
    • protobuf 从 4.24.1 到 5.29.4
    • pyarrow版本从15.0.2更新到19.0.1
    • pyccolo 从 0.0.65 到 0.0.71
    • pydantic 从版本 2.8.2 到版本 2.10.6
    • pydantic_core 2.20.1 到 2.27.2
    • PyJWT 从 2.7.0 到 2.10.1
    • pyodbc 从 5.0.1 到 5.2.0
    • pyparsing 从 3.0.9 到 3.2.0
    • pyright 从 1.1.294 到 1.1.394
    • python-lsp-server 从 1.10.0 到 1.12.0
    • PyYAML 从 6.0.1 到 6.0.2
    • pyzmq 从 25.1.2 到 26.2.0
    • 从 2.32.2 请求到 2.32.3
    • rsa 从 4.9 到 4.9.1
    • s3transfer 版本从 0.10.2 升级到 0.11.3
    • scikit-learn 从 1.4.2 到 1.6.1
    • scipy 从 1.13.1 到 1.15.1
    • sqlparse 从 0.5.1 到 0.5.3
    • statsmodels 从 0.14.2 到 0.14.4
    • 从 8.2.2 到 9.0.0 的顽强性
    • threadpoolctl 从 2.2.0 到 3.5.0
    • 龙卷风从 6.4.1 到 6.4.2
    • typing_extensions从版本 4.11.0 升级到 4.12.2
    • urllib3 从 1.26.16 到 2.3.0
    • virtualenv 从 20.26.2 到 20.29.3
    • wheel 从 0.43.0 到 0.45.1
    • wrapt 从 1.14.1 更新到 1.17.0
    • yapf 从 0.33.0 到 0.40.2
    • zipp 从 3.17.0 到 3.21.0
  • 升级后的 R 库

    • 箭头从 16.1.0 到 19.0.1
    • askpass 从 1.2.0 到 1.2.1
    • base 从“4.4.0”到“4.4.2”
    • bigD 从 0.2.0 到 0.3.0
    • bit 从 4.0.5 到 4.6.0
    • bit64 从 4.0.5 到 4.6.0-1
    • bitops 从 1.0-8 到 1.0-9
    • 将 broom 从 1.0.6 升级到 1.0.7
    • bslib 从 0.8.0 升级到 0.9.0
    • 插入版本从 6.0-94 更新到 7.0-1
    • chron 从 2.3-61 到 2.3-62
    • CLI 从 3.6.3 到 3.6.4
    • 从 0.7.1 到 0.7.2 的时钟
    • commonmark 从 1.9.1 到 1.9.5
    • 编译器从 4.4.0 到 4.4.2
    • cpp11 从 0.4.7 到 0.5.2
    • 凭据从 2.0.1 到 2.0.2
    • curl 从 5.2.1 到 6.2.1
    • data.table版本从1.15.4更新至1.17.0
    • 从 4.4.0 到 4.4.2 的数据集
    • 摘要,从 0.6.36 到 0.6.37
    • e1071 从 1.7-14 到 1.7-16
    • 从 0.24.0 评估到 1.0.3
    • fontawesome 从 0.5.2 到 0.5.3
    • fs 从 1.6.4 到 1.6.5
    • future.apply 从 1.11.2 到 1.11.3
    • gert 从 2.1.0 到 2.1.4
    • git2r 从 0.33.0 到 0.35.0
    • 粘附从 1.7.0 到 1.8.0
    • gower 从 1.0.1 到 1.0.2
    • 从 4.4.0 到 4.4.2 的图形
    • grDevices 从 4.4.0 到 4.4.2
    • 从 4.4.0 到 4.4.2 的网格
    • 从 0.11.0 到 0.11.1
    • 将 gtable 从 0.3.5 升级到 0.3.6
    • hardhat 从 1.4.0 到 1.4.1
    • httr2 从 1.0.2 到 1.1.1
    • 从 1.8.8 到 1.9.1 的 jsonlite
    • knitr 从 1.48 升级到 1.50
    • 稍后从版本 1.3.2 升级到版本 1.4.1
    • 熔岩从 1.8.0 到 1.8.1
    • lubridate 从 1.9.3 升级到 1.9.4
    • 方法从 4.4.0 到 4.4.2
    • mime 从 0.12 到 0.13
    • mlflow 从 2.14.1 到 2.20.4
    • nlme 从 3.1-165 到 3.1-164
    • openssl 从 2.2.0 到 2.3.2
    • 并行由 4.4.0 升级到 4.4.2
    • 并行从 1.38.0 到 1.42.0
    • 从 1.9.0 到 1.10.1 的支柱
    • pkgbuild 版本从 1.4.4 更新到 1.4.6
    • pkgdown 版本从 2.1.0 升级到 2.1.1
    • processx 从 3.8.4 到 3.8.6
    • profvis 从 0.3.8 到 0.4.0
    • progressr 从 0.14.0 升级到 0.15.1
    • 承诺从 1.3.0 到 1.3.2
    • ps 从 1.7.7 到 1.9.0
    • 将 purrr 从 1.0.2 升级到 1.0.4
    • R6 从 2.5.1 到 2.6.1
    • ragg版本从 1.3.2 到 1.3.3
    • randomForest 从 4.7-1.1 到 4.7-1.2
    • Rcpp 从 1.0.13 到 1.0.14
    • RcppEigen 从 0.3.4.0.0 到 0.3.4.0.2
    • reactR 从 0.6.0 到 0.6.1
    • readxl 从 1.4.3 到 1.4.5
    • 从 1.1.0 到 1.2.0 的食谱
    • rlang 从 1.1.4 到 1.1.5
    • rmarkdown 从 2.27 到 2.29
    • RODBC 从 1.3-23 到 1.3-26
    • Rserve 从 1.8-13 到 1.8-15
    • RSQLite 从 2.3.7 到 2.3.9
    • rstudioapi 从 0.16.0 到 0.17.1
    • sessioninfo版本从1.2.2更新到1.2.3
    • 将 shiny 从版本 1.9.1 更新到 1.10.0
    • sparklyr 从 1.8.6 到 1.9.0
    • 从 3.5.2 到 4.0.0 的 SparkR
    • 从 4.4.0 到 4.4.2 的样条曲线
    • 从 4.4.0 到 4.4.2 的统计信息
    • stats4 从 4.4.0 到 4.4.2
    • 从 3.6-4 到 3.5-8 的生存率变化
    • sys 从 3.4.2 到 3.4.3
    • 从 1.1.0 到 1.2.1 的 systemfonts
    • tcltk 从 4.4.0 到 4.4.2
    • testthat 从 3.2.1.1 到 3.2.3
    • 文本形状从 0.4.0 到 1.0.0
    • timeDate 从 4032.109 到 4041.110
    • tinytex 从 0.52 到 0.56
    • 工具从 4.4.0 到 4.4.2
    • tzdb 从 0.4.0 到 0.5.0
    • usethis 从 3.0.0 更新到 3.1.0
    • utils 从 4.4.0 升级到 4.4.2
    • V8 从 4.4.2 到 6.0.2
    • waldo 从 0.5.2 到 0.6.1
    • withr 从 3.0.1 到 3.0.2
    • xfun 从 0.46 到 0.51
    • xml2 从 1.3.6 到 1.3.8
    • zip 从 2.3.1 到 2.3.2
  • 升级后的 Java 库

    • com.clearspring.analytics.stream 从 2.9.6 到 2.9.8
    • com.esotericsoftware.kryo-shaded 从 4.0.2 到 4.0.3
    • com.fasterxml.classmate 从 1.3.4 到 1.5.1
    • com.fasterxml.jackson.core.jackson-annotations 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.core.jackson-core 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.core.jackson-databind 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.dataformat.jackson-dataformat-cbor 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.datatype.jackson-datatype-joda 从 2.15.2 到 2.18.2
    • com.fasterxml.jackson.datatype.jackson-datatype-jsr310 从 2.16.0 到 2.18.2
    • com.fasterxml.jackson.module.jackson-module-paranamer 从 2.15.2 到 2.18.2
    • com.github.luben.zstd-jni 从 1.5.5-4 到 1.5.6-10
    • com.google.code.gson.gson 从 2.10.1 到 2.11.0
    • com.google.crypto.tink.tink 从 1.9.0 到 1.16.0
    • com.google.errorprone.error_prone_annotations 从 2.10.0 到 2.36.0
    • com.google.flatbuffers.flatbuffers-java 从 23.5.26 到 24.3.25
    • com.google.guava.guava 从 15.0 到 33.4.0-jre
    • com.google.protobuf.protobuf-java 从 3.25.1 到 3.25.5
    • com.microsoft.azure.azure-data-lake-store-sdk 从 2.3.9 到 2.3.10
    • com.microsoft.sqlserver.mssql-jdbc 从 11.2.3.jre8 升级到 12.8.0.jre8
    • commons-cli.commons-cli 从 1.5.0 到 1.9.0
    • commons-codec.commons-codec 从 1.16.0 到 1.17.2
    • commons-io.commons-io 从 2.13.0 到 2.18.0
    • io.airlift.aircompressor 从 0.27 到 2.0.2
    • “io.dropwizard.metrics.metrics-annotation” 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-core 从 4.2.19 升级到 4.2.30
    • io.dropwizard.metrics.metrics-graphite 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-healthchecks 从版本 4.2.19 升级到 4.2.30
    • io.dropwizard.metrics.metrics-jetty9 从版本 4.2.19 升级到版本 4.2.30
    • 升级 io.dropwizard.metrics.metrics-jmx 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-json 从 4.2.19 到 4.2.30
    • io.dropwizard.metrics.metrics-jvm 版本从 4.2.19 更新至 4.2.30
    • io.dropwizard.metrics.metrics-servlets 从 4.2.19 到 4.2.30
    • io.netty.netty-all 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-buffer 从版本 4.1.108.Final 更新到 4.1.118.Final
    • io.netty.netty-codec 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-codec-http 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-codec-http2,从4.1.108.Final更新到4.1.118.Final
    • io.netty.netty-codec-socks 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-common,从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-handler 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-handler-proxy 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-resolver 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-tcnative-boringssl-static 从 2.0.61.Final-db-r16-windows-x86_64 到 2.0.70.Final-db-r0-windows-x86_64
    • io.netty.netty-tcnative-classes 从 2.0.61.Final 到 2.0.70.Final
    • io.netty.netty-transport 版本更新:从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-classes-epoll 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-classes-kqueue 从 4.1.108.Final 到 4.1.118.Final
    • io.netty.netty-transport-native-epoll 从 4.1.108.Final-linux-x86_64 到 4.1.118.Final-linux-x86_64
    • io.netty.netty-transport-native-kqueue 从 4.1.108.Final-osx-x86_64 到 4.1.118.Final-osx-x86_64
    • io.netty.netty-transport-native-unix-common 从 4.1.108.Final 到 4.1.118.Final
    • io.prometheus.jmx.collector 从 0.12.0 到 0.18.0
    • io.prometheus.simpleclient 从 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_common 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_dropwizard从 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_pushgateway 0.7.0 到 0.16.1-databricks
    • io.prometheus.simpleclient_servlet从 0.7.0 到 0.16.1-databricks
    • joda-time.joda-time 从 2.12.1 到 2.13.0
    • net.razorvine.pickle 从 1.3 到 1.5
    • org.antlr.antlr4-runtime 从 4.9.3 到 4.13.1
    • org.apache.arrow.arrow-format 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-memory-core 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-memory-netty 从 15.0.0 到 18.2.0
    • org.apache.arrow.arrow-vector 从 15.0.0 到 18.2.0
    • org.apache.avro.avro 从 1.11.4 到 1.12.0
    • org.apache.avro.avro-ipc 从 1.11.4 到 1.12.0
    • org.apache.avro.avro-mapred 从 1.11.4 到 1.12.0
    • org.apache.commons.commons-compress 从 1.23.0 升级到 1.27.1
    • org.apache.commons.commons-lang3 从 3.12.0 到 3.17.0
    • org.apache.commons.commons-text 从 1.10.0 到 1.13.0
    • org.apache.curator.curator-client 从 2.13.0 到 5.7.1
    • org.apache.curator.curator-framework 从 2.13.0 到 5.7.1
    • org.apache.curator.curator-recipes 从 2.13.0 到 5.7.1
    • org.apache.datasketches.datasketches-java 从 3.1.0 到 6.1.1
    • org.apache.datasketches.datasketches-memory 从 2.0.0 升级到 3.0.2
    • org.apache.hadoop.hadoop-client-runtime 从 3.3.6 到 3.4.1
    • org.apache.hive.hive-beeline 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-cli 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-jdbc 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-llap-client 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-llap-common 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-serde 从 2.3.9 到 2.3.10
    • org.apache.hive.hive-shims 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-0.23 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-common 从 2.3.9 到 2.3.10
    • org.apache.hive.shims.hive-shims-scheduler 从 2.3.9 到 2.3.10
    • org.apache.ivy.ivy,从 2.5.2 到 2.5.3
    • org.apache.logging.log4j.log4j-1.2-api 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-api 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-core 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-layout-template-json 从 2.22.1 到 2.24.3
    • org.apache.logging.log4j.log4j-slf4j2-impl 从 2.22.1 到 2.24.3
    • org.apache.orc.orc-core 从 1.9.2-shaded-protobuf 到 2.1.1-shaded-protobuf
    • org.apache.orc.orc-mapreduce 从 1.9.2-shaded-protobuf 到 2.1.1-shaded-protobuf
    • org.apache.orc.orc-shims 从 1.9.2 到 2.1.1
    • org.apache.thrift.libthrift 从 0.12.0 到 0.16.0
    • org.apache.ws.xmlschema.xmlschema-core 从 2.3.0 到 2.3.1
    • org.apache.xbean.xbean-asm9-shaded 从 4.23 到 4.26
    • org.apache.zookeeper.zookeeper,从 3.9.2 到 3.9.3
    • org.apache.zookeeper.zookeeper-jute 从 3.9.2 到 3.9.3
    • org.checkerframework.checker-qual 从 3.31.0 到 3.43.0
    • org.eclipse.jetty.jetty-client 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-continuation 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-http,从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-io 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-jndi 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-plus 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-proxy 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-security 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-server 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-servlet 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-servlets 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-util 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-util-ajax 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-webapp 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.jetty-xml 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-api 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-client 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-common,从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-server 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.eclipse.jetty.websocket.websocket-servlet 从 9.4.52.v20230823 到 9.4.53.v20231009
    • org.glassfish.jersey.containers.jersey-container-servlet 从 2.40 到 2.41
    • org.glassfish.jersey.containers.jersey-container-servlet-core 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-client 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-common 从 2.40 到 2.41
    • org.glassfish.jersey.core.jersey-server 从 2.40 到 2.41
    • org.glassfish.jersey.inject.jersey-hk2 从2.40到2.41
    • org.hibernate.validator.hibernate-validator 从 6.1.7.Final 到 6.2.5.Final
    • org.jboss.logging.jboss-logging 从 3.3.2.Final 到 3.4.1.Final
    • org.objenesis.objenesis 从 2.5.1 到 3.3
    • org.roaringbitmap.RoaringBitmap 从 0.9.45-databricks 升级到 1.2.1
    • org.rocksdb.rocksdbjni 从 9.2.1 到 9.8.4
    • org.scalatest.scalatest-compatible 从 3.2.16 到 3.2.19
    • org.slf4j.jcl-over-slf4j 从 2.0.7 到 2.0.16
    • org.slf4j.jul-to-slf4j 从 2.0.7 到 2.0.16
    • org.slf4j.slf4j-api 从 2.0.7 到 2.0.16
    • org.threeten.threeten-extra 从 1.7.1 到 1.8.0
    • org.tukaani.xz 从 1.9 到 1.10

Apache Spark

Databricks Runtime 14.x、15.x 和 16.x 中已经提供了许多功能,现在它们默认集成在 Runtime 17.0 中。

  • SPARK-52311 如果定位点输出重复,则重新定义 UnionLoop 输出不会重复
  • SPARK-50104 在 Connect 中支持 SparkSession.executeCommand
  • SPARK-51085 还原 SQLContext 伴随对象
  • SPARK-49698 为仅限经典的方法添加 ClassicOnly 注释。
  • SPARK-52026 默认情况下,在 ANSI 模式下阻止 Spark 上的 pandas API
  • SPARK-43415使用自定义KVGDS.agg函数实现mapValues
  • SPARK-50979 删除 .expr/.typedExpr 隐式
  • SPARK-49961 更正 Scala 和 Java 的转换类型签名
  • SPARK-51012 从 Connect Shims 中删除 SparkStrategy。
  • SPARK-50915getCondition中添加getErrorClass和弃用PySparkException
  • SPARK-51821 为避免可能死锁,在不持有 uninterruptibleLock 的情况下调用 interrupt()
  • SPARK-52192 MLCache 加载路径检查
  • SPARK-52122 修复 DefaultParamsReader RCE 漏洞
  • SPARK-52191 删除模型本地路径加载程序中的 Java 反序列化程序
  • SPARK-52051 将“启用内存控制时启用模型摘要”和“优化错误消息并隐藏内部 Spark 配置”这两个提交反向移植到 DBR 17.0.0
  • SPARK-51391 修复 SparkConnectClient 以遵循 SPARK_USERuser.name
  • SPARK-51416 启动 Spark Connect 服务器时删除SPARK_CONNECT_MODE
  • SPARK-51156 Spark Connect 中的静态令牌身份验证支持
  • SPARK-51279 避免在 Scala 中等待 Spark Connect 服务器持续睡眠
  • SPARK-51254 禁止在 Spark Connect URL 中使用 --master
  • SPARK-51267 匹配 Python 和 Scala 之间的本地 Spark Connect 服务器逻辑
  • SPARK-51212 默认情况下,为 Spark Connect 添加单独的 PySpark 包
  • SPARK-52017 在 rCTE 内的子查询中启用多重自引用和自引用
  • SPARK-52035 分离 LinearRegressionTrainingSummary 和 LinearRegressionModel
  • SPARK-50511 避免对 Python 数据源错误消息进行封装
  • SPARK-51974 限制模型大小和每会话模型缓存大小
  • SPARK-51947 Spark 连接模型缓存卸载
  • SPARK-49751 修复 SparkListenerConnectServiceStarted 事件的反序列化
  • SPARK-47952 支持在 Yarn 上运行时以编程方式检索实际的 SparkConnectService GRPC 地址和端口
  • SPARK-47587 Hive 模块:将带变量的 logWarn 迁移到结构化日志记录框架
  • SPARK-50768 引入 TaskContext.createResourceUninterruptibly 以避免任务中断导致流泄漏
  • SPARK-51818 将 QueryExecution 创建移动到 AnalyzeHandler,并且不对 AnalyzePlanRequests 执行
  • SPARK-51609 优化简单查询的递归 CTE 执行
  • SPARK-49748getCondition中添加getErrorClass并弃用SparkThrowable
  • SPARK-51867 针对本地文件系统路径创建支持保存/加载方法的 scala 模型
  • SPARK-51856 更新模型大小 API 以计算分布式数据帧大小
  • SPARK-51941 修复了在 -1.0 和 1.0 之间的输入为 BigDecimal 时 convertToCatalyst 的精度问题
  • SPARK-50605 支持 SQL API 模式,以便更轻松地迁移到 Spark Connect
  • SPARK-51849 重构 ResolveDDLCommandStringTypes
  • SPARK-51673 应用默认排序规则以更改视图查询
  • SPARK-51880 修复 ML 缓存对象 python 客户端引用
  • SPARK-51873 对于 OneVsRest 算法,允许使用保存/加载替换缓存
  • SPARK-51072 用于设置 Hadoop 云审核上下文的 CallerContext
  • SPARK-51790 将 UTF8String 注册到 KryoSerializer
  • SPARK-51022 删除 tableSampleClausebuild()MsSqlServerSQLQueryBuilder 方法中未使用的 DB2SQLQueryBuilder
  • SPARK-51219 修复 ShowTablesExec.isTempView 使其能与非V2SessionCatalog 目录兼容
  • SPARK-49700 用于连接和经典版的统一 Scala 接口
  • SPARK-50458 针对读取文件时不支持的文件系统进行正确的错误处理
  • SPARK-50666 支持从 JDBC 数据源读取的提示
  • SPARK-50131 重新应用“添加 IN 子查询 DataFrame...”
  • SPARK-51899 为 spark.catalog.listTables 实现错误处理规则()
  • SPARK-51820 通过序号方法解决新 group/order 的剩余问题
  • SPARK-48585 使 built-in JdbcDialect 的 classifyException 方法抛出 original 异常
  • SPARK-48387 Postgres:将 TimestampType 映射到 TIMESTAMP WITH TIME ZONE
  • SPARK-51820 在分析之前移动 UnresolvedOrdinal 构造,以避免按序号分组出现问题。
  • SPARK-48337 修复 JDBC TIME 值的精度损失
  • SPARK-51711 将活动远程 Spark 会话传播到新线程以修复 CrossValidator
  • SPARK-47515 在 MySQL 中将 TimestampNTZType 另存为 DATETIME
  • SPARK-48439 Derby:计算 DECIMAL 类型的合适精度和小数位数
  • SPARK-51820 为 SPARK-51820 codesync 准备编辑逻辑
  • SPARK-48323 DB2:将布尔类型映射到 BOOLEAN 而不是 CHAR(1)
  • SPARK-51635 合并 PushProjectionThroughLimit 和 PushProjectionThroughOffset
  • SPARK-48211 DB2:将 SMALLINT 读取为 ShortType
  • SPARK-51803 将外部引擎 JDBC 类型存储在 StructField 的元数据中
  • SPARK-51845 添加 proto 消息 CleanCacheGetCacheInfo
  • SPARK-49511 将格式规则应用于 sql/api
  • SPARK-47968 MsSQLServer:将 datatimeoffset 映射到 TimestampType
  • SPARK-51726 将 TableInfo 用于 Stage CREATE/REPLACE/CREATE OR REPLACE 表
  • SPARK-47967 确保 JdbcUtils.makeGetter 正确处理读取时间类型为 NTZ
  • SPARK-47989 MsSQLServer:修复 spark.sql.legacy.mssqlserver.numericMapping.enabled 的范围
  • SPARK-51193 将 Netty 升级到 4.1.118.Final,将 netty-tcnative 升级到 2.0.70.Final
  • SPARK-47882 createTableColumnTypes 需要映射到数据库类型,而不是直接使用
  • SPARK-47879 Oracle:将 VARCHAR2 而非 VARCHAR 用于 VarcharType 映射
  • SPARK-51372 介绍用于创建表的 TableInfo
  • SPARK-47791 对于从 JDBC 数据源获取的小数,优先根据小数位数而非总精度来截断超出的部分
  • SPARK-51404time(n) 类型分析为 TimeType(n)
  • SPARK-50350 Avro:添加新函数 schema_of_avroscala 侧)
  • SPARK-51136 为历史记录服务器设置 CallerContext
  • SPARK-50641GetJsonObjectEvaluator移至JsonExpressionEvalUtils
  • SPARK-50083_LEGACY_ERROR_TEMP_1231集成到PARTITIONS_NOT_FOUND
  • SPARK-51556try_to_time添加函数
  • SPARK-47684 Postgres:将未指定长度的 bpchar 映射为 StringType
  • SPARK-48688 当调用 SQL to_avro 和 from_avro 函数时,如果默认情况下未加载 Avro,则应返回合理的错误
  • SPARK-49839 SPJ:如果可能进行排序,请跳过随机排列
  • SPARK-45534 针对 RemoteBlockPushResolver,使用 java.lang.ref.Cleaner 来替代 finalize
  • SPARK-51816 使用数据帧API简化StatFunctions.multipleApproxQuantiles
  • SPARK-49179 修复 v2 多存储内部联接引发 AssertionError
  • SPARK-47456 支持 ORC Brotli 编解码器
  • SPARK-51542 添加用于滚动到顶部和底部的按钮
  • SPARK-51541 支持在 TIME 方法中使用 Literal 数据类型
  • SPARK-51615 重构 ShowNamespaces 以使用 RunnableCommand
  • SPARK-51191 验证 DELETE、UPDATE、MERGE 中的默认值处理
  • SPARK-51829客户端应在删除后更新client.thread_local.ml_caches
  • SPARK-51358 通过 StateStoreCoordinator 引入快照上传延迟检测
  • SPARK-51686 将当前执行的子执行的执行 ID 链接起来(如果有)
  • SPARK-51456to_time添加函数
  • SPARK-51773 将文件格式转换为事例类以正确比较它们
  • SPARK-51777 将 sql.columnar.* 类注册到 KryoSerializer
  • SPARK-51432 当 Arrow 模式不匹配时抛出正确的异常
  • SPARK-51395 优化在过程中的默认值处理方式
  • SPARK-50582 添加引号内置函数
  • SPARK-51684 修复test_pandas_transform_with_state中的测试失败
  • SPARK-51213 在解析提示参数时保留 Expression 类的信息
  • SPARK-51651 链接当前执行的根执行 ID(如果有)
  • SPARK-50947 为重复的构件分配适当的错误类和 SparkException
  • SPARK-51574 Python 数据源实现器下推的筛选器序列化
  • SPARK-51608 Python 运行程序终止时记录异常
  • SPARK-51266 删除未使用的定义 private[spark] object TaskDetailsClassNames
  • SPARK-51011 添加日志记录以判断任务在被终止时是否会中断
  • SPARK-49646 添加用于修复子查询解码的 spark 配置
  • SPARK-51107 重构 CommandBuilderUtils#join 以提高行的复用性并减少冗余
  • SPARK-51758 修复与因水印导致空 df 的附加批处理相关的测试用例
  • SPARK-51664 支持 Hash 表达式中的 TIME 数据类型
  • SPARK-51819 更新 pyspark-errors 测试模块,加入缺失的测试项
  • SPARK-50751_LEGACY_ERROR_TEMP_1305 分配适当的错误条件
  • SPARK-50973 清理与 avro.Schema#toString(boolean) 相关的已弃用 API 使用情况
  • SPARK-50908test_pandas_transform_with_state.py 中禁用不稳定的 TTL 测试
  • SPARK-50811 支持在驱动程序上启用 JVM 探查器
  • SPARK-50808 修复了 writeAll 方法中混合类型无法正确写入的问题
  • SPARK-51780 实现描述过程
  • SPARK-50370 Codegen 支持 json_tuple
  • SPARK-50756 在 SparkConf.validateSettings 中使用错误类来处理异常
  • SPARK-50805 将方法 nameForAppAndAttempt 移动到 o.a.s.u.Utils
  • SPARK-51812 删除某些方法的冗余参数 QueryExecution
  • SPARK-50819 重构 Spark 探查器模块
  • SPARK-51547 将名称分配给错误条件:_LEGACY_ERROR_TEMP_2130
  • SPARK-48538 避免由 bonecp 引起的 HMS 内存泄漏
  • SPARK-51176 在 PySpark Connect <> 经典版中实现对意外错误处理的一致性
  • SPARK-50773 默认禁用结构化日志记录
  • SPARK-50616 向 CSV 数据源编写器添加文件扩展名选项
  • SPARK-50624 将 TimestampNTZType 添加到 ColumnarRow/MutableColumnarRow
  • SPARK-51590 在基于文件的内置数据源中禁用 TIME
  • SPARK-49886 rocksDB 格式 V2 的查询级别失败测试
  • SPARK-50823 将 cloudpickle 从 3.1.0 升级到 3.1.1
  • SPARK-50780 使用 overrideStdFeatures 而不是 setFeatureMaskJacksonParser
  • SPARK-50621 将 Cloudpickle 升级到 3.1.0
  • SPARK-50719对 PySpark 的支持interruptOperation
  • SPARK-50545AccessControlException 即使在已启用 ignoreCorruptFiles 的情况下,也应引发
  • SPARK-51517 支持 Hive 结果中的 TIME 数据类型
  • SPARK-47856 Oracle 中的文档映射 Spark SQL 数据类型并添加测试
  • SPARK-46066 使用分隔符 API 而不是字符串 API 构造 DefaultPrettyPrinter
  • SPARK-50718对 PySpark 的支持addArtifact(s)
  • SPARK-51497 添加默认时间格式化程序
  • SPARK-51488 支持 TIME 关键字作为数据类型
  • SPARK-51273 Spark Connect 调用过程运行过程两次
  • SPARK-51092 跳过在大端平台上出现超时问题的 v1 FlatMapGroupsWithState 测试
  • SPARK-50606 修复未初始化SessionHolder上的NPE
  • SPARK-49530 支持 pyspark 绘图中的饼状图子图
  • SPARK-50357 适用于 PySpark 的支持中断(Tag|All) API
  • SPARK-51290 在 DSv2 写入中启用填充默认值
  • SPARK-50485 在 tableRelationCache 引发的 (Unchecked)ExecutionException 中解包 SparkThrowable
  • SPARK-51513 修复 RewriteMergeIntoTable 规则生成未解析的计划
  • SPARK-51482 支持从字符串转换到时间
  • SPARK-51462 支持 TIME 数据类型的类型化文本
  • SPARK-51454 支持从时间类型转换为字符串
  • SPARK-51447 添加 stringToTimestringToTimeAnsi
  • SPARK-51775 按 NormalizePlan 规范化 LogicalRelation 和 HiveTableRelation
  • SPARK-51791ImputerModel 使用数组而不是数据帧存储系数
  • SPARK-51442 添加时间格式器
  • SPARK-51384 支持 java.time.LocalTime 作为 TimeType 的外部类型
  • SPARK-51747 数据源缓存计划应遵循选项
  • SPARK-51774 将 GRPC 状态代码添加到 Python Connect GRPC 异常中
  • SPARK-51660 不支持 MDC 时正常处理
  • SPARK-51296 支持在 singleVariantColumn 模式下收集损坏的数据。
  • SPARK-45907 在 ProcfsMetricsGetter 中使用 Java9+ ProcessHandle API 计算ProcessTree
  • SPARK-51342TimeType
  • SPARK-51769 添加 maxRecordsPerOutputBatch 以限制箭头输出批的记录数
  • SPARK-51350 实现显示过程
  • SPARK-51711 基于内存的 MLCache 逐出策略
  • SPARK-51178 引发正确的 PySpark 错误,而不是 SparkConnectGrpcException
  • SPARK-51738 具有结构类型的 IN 子查询
  • SPARK-51714 添加故障引入测试以测试状态存储检查点格式 V2
  • SPARK-51704 消除不必要的收集操作
  • SPARK-51512 使用 ExternalShuffleService 清理随机数据时筛选掉 null MapStatus
  • SPARK-49308 在 Spark Connect Scala 客户端中支持 UserDefinedAggregateFunction
  • SPARK-50091 处理 IN 子查询左侧操作数中的聚合情况
  • SPARK-50265 在 Connect 中支持 spark.udf.registerJavaUdf
  • SPARK-49273 Spark Connect Scala 客户端的源支持
  • SPARK-51187 实现 SPARK-49699 中引入的错误配置的正常弃用
  • SPARK-51650 支持批量删除 ml 缓存对象
  • SPARK-51619 在使用 Arrow 优化的 Python UDF 中支持 UDT 输入/输出
  • SPARK-51333 解包 InvocationTargetException 扔进 MLUtils.loadOperator
  • SPARK-51566 Python UDF 回溯改进
  • SPARK-51393 如果未找到 Arrow,但启用了 Arrow 优化的 Python UDF,则回退到常规 Python UDF
  • SPARK-49960 自定义 ExpressionEncoder 支持和 TransformingEncoder 修复
  • SPARK-51380 添加 visitSQLFunction 和 visitAggregateFunction 以提高 V2ExpressionSQLBuilder 的灵活性
  • SPARK-51600sql/hive 为 true 时,追加 sql/hive-thriftserverisTesting || isTestingSql 的类
  • SPARK-51070 在 ValidateExternalType 中使用 scala.collection.Set 代替 Set
  • SPARK-50759 弃用一些旧目录 API
  • SPARK-50994 在跟踪的执行下进行 RDD 转换
  • SPARK-51466 消除 Hive UDF 评估上的 Hive 内置 UDF 初始化
  • SPARK-51491 使用子查询 API 简化箱线图
  • SPARK-51175 在删除驱动程序时使 Master 显示已用时间
  • SPARK-50334 提取用于读取 PB 文件描述符的常见逻辑
  • SPARK-50483 即使启用了 ignoreCorruptFiles,也应抛出 BlockMissingException
  • SPARK-50286 将 SQL 选项正确传播到 WriteBuilder
  • SPARK-51023 在 RPC 异常时记录远程地址日志
  • SPARK-47611 清理 MySQLDialect.getCatalystType 中的死代码
  • SPARK-49229 对 SparkConnectPlanner 中处理 Scala UDF 的逻辑进行去重
  • SPARK-50557 支持 Scala SQL 接口中的 RuntimeConfig.contains(..)
  • SPARK-51471 RatePerMicroBatchStream - 在 startOffset 中偏移/时间戳大于 endOffset 时对 ASSERT 错误进行分类
  • SPARK-50473 简化经典列处理
  • SPARK-49286 将 Avro/Protobuf 函数移动到 sql/api
  • SPARK-49087 区分调用内部函数的 UnresolvedFunction
  • SPARK-50422 使 Parameterized SQL queries API 的 SparkSession.sql 成为正式版
  • SPARK-49249“将 PySpark 中新的默认项目管理器配置添加到允许列表”的配套 PR
  • SPARK-50366 在经典版中按线程级别隔离 SparkSession 的用户定义标签
  • SPARK-49436 SQLContext 的通用接口
  • SPARK-51551 对于优化算法,允许使用保存/加载替换缓存
  • SPARK-51599针对大型 Excel 文件进行优化ps.read_excel
  • SPARK-51118 修复 ExtractPythonUDF 以检查链式 UDF 输入类型是否有回退机制
  • SPARK-50395 修复 Windows 中格式不正确的 URI 语法
  • SPARK-50708 删除 ArtifactManager 实例 GC 上的项目资源
  • SPARK-51076 使用 Arrow 的 Python UDF 对 UDT 输入和输出类型进行回退处理
  • SPARK-50243 ArtifactManager 的缓存类加载程序
  • SPARK-49249 Spark Classic 中的项目隔离
  • SPARK-50821 将 Py4J 从 0.10.9.8 升级到 0.10.9.9
  • SPARK-51591 修复 Python 3.13 每日测试中的 ThreadPoolExecutor 失败
  • SPARK-40353 修复 ps.read_excel 中索引为 null 的不匹配
  • SPARK-42746 实现 LISTAGG 函数
  • SPARK-50102 添加用于缺少公共 SQL 方法的 shims。
  • SPARK-50513 从 SQLImplicits 拆分 EncoderImplicits,并在 StatefulProcessor 中提供辅助对象。
  • SPARK-51567 修复 DistributedLDAModel.vocabSize
  • SPARK-49569 添加 shims 以支持 SparkContext 和 RDD
  • SPARK-51473 由 ML 转换生成的数据帧保留对模型的引用
  • SPARK-51340 模型大小估计
  • SPARK-51474 不要为支持“列式和行输出”的节点插入冗余的“ColumnarToRowExec”。
  • SPARK-51445 将从未更改的 var 更改为 val
  • SPARK-50618 使 DataFrameReader 和 DataStreamReader 更加充分地利用分析器
  • SPARK-51097 重新引入 RocksDB 状态存储上次上传的快照版本实例指标
  • SPARK-49418 共享会话线程局部变量
  • SPARK-50096_LEGACY_ERROR_TEMP_2150以下项分配适当的错误条件: TUPLE_SIZE_EXCEEDS_LIMIT
  • SPARK-50264 向 DataStreamWriter 添加缺少的方法
  • SPARK-49434 将聚合器移动到 sql/api
  • SPARK-51451 修复 ExtractGenerator 以等待 UnresolvedStarWithColumns 得到解决
  • SPARK-49416 添加共享 DataStreamReader 接口
  • SPARK-49429 添加共享 DataStreamWriter 接口
  • SPARK-49282 创建共享的 SparkSessionBuilder 接口。
  • SPARK-49415 将 SQLImplicits 移动到 sql/api
  • SPARK-51443 修正 DSv2 和 readStream 中的单一变量列问题。
  • SPARK-49369 添加隐式列转换
  • SPARK-49417 添加共享 StreamingQueryManager 接口
  • SPARK-51079 使用 Arrow 支持 pandas UDF、createDataFrame 和 toPandas 中的大型变量类型
  • SPARK-51277 在 Arrow 优化的 Python UDF 中实现 0-arg 实现
  • SPARK-50601 在子查询中支持 withColumns / withColumnsRenamed
  • SPARK-49479 在停止 BarrierCoordinator 时取消计时器非守护程序线程
  • SPARK-51379 将 treeAggregate 的最终聚合从驱动程序移到执行程序
  • SPARK-49712 从 connect-client-jvm 中删除 encoderFor
  • SPARK-49424 合并 Encoders.scala
  • SPARK-49574 为 master 禁用损坏的增量共享测试
  • SPARK-51409 在更改日志编写器创建路径中添加错误分类
  • SPARK-49568 从数据集中删除自类型
  • SPARK-51433 更改发布脚本以发布 pyspark-client
  • SPARK-51422 消除 CrossValidator 中的 JVM-Python 数据交换
  • SPARK-51425 添加客户端 API 以设置自定义 operation_id
  • SPARK-49284 创建共享目录界面
  • SPARK-50855 Spark Connect 对 Scala 中的 TransformWithState 的支持
  • SPARK-50694 支持在子查询中重命名
  • SPARK-50880 将新的 visitBinaryComparison 方法添加到 V2ExpressionSQLBuilder
  • SPARK-51282 通过消除 JVM-Python 数据交换来优化 OneVsRestModel 转换
  • SPARK-51079 使用 Arrow 支持 pandas UDF、createDataFrame 和 toPandas 中的大型变量类型
  • SPARK-51383 如果客户端已被识别为“已停止”,请避免进行 RPC 调用
  • SPARK-51227 修复 PySpark Connect 升级至 _minimum_grpc_version 1.67.0
  • SPARK-51362 更改为 JSON 以使用 NextIterator API 消除相邻记录依赖项
  • SPARK-51375 禁止显示 SparkConnect(Execution|Session)Manager.periodicMaintenance 日志消息
  • SPARK-50393 引入通用的 TableArg,适用于 Spark Classic 和 Spark Connect
  • SPARK-50133 支持在 Spark Connect Python 客户端中将数据帧转换为表参数
  • SPARK-49574 ExpressionEncoder 跟踪创建了它的 AgnosticEncoder
  • SPARK-49422 将 groupByKey 添加到 sql/api
  • SPARK-51381Session ID页面中显示Spark Connect Session
  • SPARK-51316 允许 Arrow 批(以字节为单位),而不是行数
  • SPARK-50134 在 Spark Connect 中支持 SCALAR 和 EXISTS 子查询的数据帧 API​​
  • SPARK-50392 在 Spark 经典版中将数据帧转换为表参数
  • SPARK-50553 针对无效计划消息引发 InvalidPlanInput
  • SPARK-51322 更好地显示流式处理子查询表达式的错误消息
  • SPARK-51281 DataFrameWriterV2 应遵循路径选项
  • SPARK-50856 Spark Connect 支持 Python 中的 TransformWithStateInPandas
  • SPARK-51333 解包 InvocationTargetException 引发的 invokeMethod
  • SPARK-50134 支持用于 Spark Connect 中横向联接的数据帧 API
  • SPARK-51083 修改 JavaUtils 以不忽略 InterruptedExceptions
  • SPARK-49413 创建共享 RuntimeConfig 接口(跟进)
  • SPARK-49413 创建共享 RuntimeConfig 接口
  • SPARK-50993 将 nullDataSourceOption 从 QueryCompilationErrors 移动到 QueryExecutionErrors
  • SPARK-51329为聚类分析模型添加numFeatures
  • SPARK-51305 改进 SparkConnectPlanExecution.createObservedMetricsResponse
  • SPARK-51097 在 RocksDB 中为上次上传的快照版本添加状态存储实例指标
  • SPARK-49425 创建一个共享的 DataFrameWriter
  • SPARK-50655 将虚拟列族相关的映射从编码器移至数据库层
  • SPARK-48530 支持 SQL 脚本中的局部变量
  • SPARK-51284 修复 SQL 脚本在遇到空结果时的执行过程
  • SPARK-49085 在 Connect 中取消对 Protobuf 函数的特殊大小写
  • SPARK-50881 在 connect dataframe.py 中尽可能使用缓存模式
  • SPARK-51275 python readwrite 中的会话传播
  • SPARK-51109 在子查询表达式中使用 CTE 作为分组列
  • SPARK-50598 添加参数以启用递归 CTE 的后续实现
  • SPARK-51202 在元算法 Python 编写器中传递会话
  • SPARK-51215 添加帮助程序函数以调用帮助程序模型 attr
  • SPARK-51214 不要过早删除与fit_transform相关的缓存模型
  • SPARK-51237 为新的 transformWithState 帮助程序 API 添加 API 详细信息
  • SPARK-51192processWithoutResponseObserverForTesting 中公开 SparkConnectPlanner
  • SPARK-51217 ML 模型帮助程序构造函数清理
  • SPARK-51218 避免在 NondeterministicExpressionCollection 中使用 map/flatMap
  • SPARK-50953 在 VariantGet 中添加对非文本路径的支持
  • SPARK-50132 添加用于横向联接的数据帧 API
  • SPARK-51190 修复 TreeEnsembleModel.treeWeights
  • SPARK-50945 支持 Connect 上的摘要生成器和 SummaryBuilder
  • SPARK-51142 ML protobufs 整理
  • SPARK-51139 优化错误类 MLAttributeNotAllowedException
  • SPARK-51080 修复PowerIterationClustering的保存/加载问题
  • SPARK-51100 将转换器包装器替换为帮助程序模型特性关系
  • SPARK-51091 修复StopWordsRemover的默认参数
  • SPARK-51089 在连接时支持 VectorIndexerModel.categoryMaps
  • SPARK-50954 支持元算法的客户端模型路径覆盖
  • SPARK-50975 在连接时支持 CountVectorizerModel.from_vocabulary
  • SPARK-50958 支持 Connect 上的 Word2VecModel.findSynonymsArray
  • SPARK-50930 支持 Connect 上的 PowerIterationClustering
  • SPARK-51157 为 Scala 函数 API 添加缺失的 @varargs Scala 注释
  • SPARK-51155 停止后显示 SparkContext 总运行时数
  • SPARK-51143 固定 plotly<6.0.0torch<2.6.0
  • SPARK-50949 引入帮助程序模型以支持 StringIndexModel.from_labels_xxx
  • SPARK-51131 在 EXECUTE IMMEDIATE 命令中找到 SQL 脚本时引发异常
  • SPARK-51078 修复 StopWordsRemover 中的 py4j 调用
  • SPARK-50944 支持 Connect 上的 KolmogorovSmirnovTest
  • SPARK-50602 修复转置以在指定无效索引列时显示正确的错误消息
  • SPARK-50943 支持 Connect 上的 Correlation
  • SPARK-50234 改进了转置 DataFrame API 的错误消息和测试
  • SPARK-50942 支持 Connect 上的 ChiSquareTest
  • SPARK-48353 SQL 脚本中的异常处理机制简介
  • SPARK-51043 Spark Connect foreachBatch 的细粒度用户日志记录
  • SPARK-50799 优化 rlike、length、octet_length、bit_length 和 transform 的文档字符串
  • SPARK-51015 支持 Connect 上的 RFormulaModel.toString
  • SPARK-50843 支持从现有模型返回新模型
  • SPARK-50969 修复 GaussianMixtureModel.gaussians 连接问题
  • SPARK-50899 在连接时支持 PrefixSpan
  • SPARK-51060 支持 Connect 上的 QuantileDiscretizer
  • SPARK-50974 为 Connect 上的 CrossValidator 添加了 foldCol 支持
  • SPARK-50922 在 Connect 上支持 OneVsRest
  • SPARK-50812 添加对多项式扩展的支持
  • SPARK-50923 支持 Connect 上的 FMClassifier 和 FMRegressor
  • SPARK-50918 重构管道的读/写
  • SPARK-50938 在 Connect 上支持 VectorSizeHint 和 VectorSlicer
  • SPARK-51005 支持 Connect 上的 VectorIndexer 和 ElementwiseProduct
  • SPARK-51014 在连接时支持 RFormula
  • SPARK-50941 添加对 TrainValidationSplit 支持
  • SPARK-51004 添加对 IndexString 支持
  • SPARK-51003 在 Connect 上支持 LSH 模型
  • SPARK-50924 支持 Connect 上的 AFTSurvivalRegression 和 IsotonicRegression
  • SPARK-50921 支持 Connect 上的 MultilayerPerceptronClassifier
  • SPARK-50995 对 KMeans 和 BisectingKMeans 的 clusterCenters 支持
  • SPARK-50940 Connect 上增加了对 CrossValidator/CrossValidatorModel 的支持
  • SPARK-50929 支持 Connect 上的 LDA
  • SPARK-50925 支持 Connect 上的广义线性回归
  • SPARK-50988 修复估算器和模型的 uid 不一致问题
  • SPARK-50989 在connect 上支持 NGram、Normalizer 和 Interaction
  • SPARK-50937 支持 Connect 上的 Imputer
  • SPARK-51049 增加范围合并的 S3A 矢量 IO 阈值
  • SPARK-50812 支持 Connect 上的 TargetEncoderModel
  • SPARK-50920 在 Connect 上支持 NaiveBayes
  • SPARK-50936 在连接时支持 HashingTF、IDF 和 FeatureHasher
  • SPARK-50934 在 Connect 上支持 CountVectorizer 和 OneHotEncoder
  • SPARK-49287 将流类移动到 sql/api
  • SPARK-50932 支持 Connect 上的 Bucketizer
  • SPARK-50933 在 Connect 上支持特征选择器
  • SPARK-50931 支持 Connect 上的 Binarizer
  • SPARK-50935 支持 Connect 上的 DCT
  • SPARK-50963 支持 Connect 上的 Tokenizers、SQLTransform 和 StopWordsRemover
  • SPARK-50928 在 Connect 上支持 GaussianMixture
  • SPARK-49383 支持转置数据帧 API
  • SPARK-50939 支持 Word2Vec on Connect
  • SPARK-49249 在 Connect 中将新的标记相关 API 添加回 Spark Core
  • SPARK-50919 在连接时支持 LinearSVC
  • SPARK-50883 支持在同一命令中更改多个列
  • SPARK-50918 连接时支持管道
  • SPARK-50826 重构处理方式 ALLOWED_ATTRIBUTES
  • SPARK-49427 为 MergeIntoWriter 创建共享接口
  • SPARK-49414 添加共享 DataFrameReader 接口
  • SPARK-50948 添加对 Connect 上的 StringIndexer/PCA 的支持
  • SPARK-50901 支持转换器 VectorAssembler
  • SPARK-50879 支持 Connect 上的特征缩放器
  • SPARK-50130 为标量和 exists 子查询添加 DataFrame API
  • SPARK-50075 为表值函数添加 DataFrame API
  • SPARK-49426 为 DataFrameWriterV2 创建共享接口
  • SPARK-50898 支持 Connect 上的 FPGrowth
  • SPARK-50844 使模型在加载时通过 ServiceLoader 进行加载
  • SPARK-50884 支持在评估器中使用 isLargerBetter
  • SPARK-50959 忽略 JavaWrapper 的异常
  • SPARK-50558 为 ExpressionSet 引入 simpleString
  • SPARK-49422 为 KeyValueGroupedDataset 创建共享接口
  • SPARK-50878 支持 Connect 上的 ALS
  • SPARK-50897 避免在 ServiceLoader 中创建实例
  • SPARK-50877 支持 Connect 上的 KMeans 和 BisectingKMeans
  • SPARK-50876 支持 Connect 上的树回归器
  • SPARK-50874 支持 Connect 上的 LinearRegression
  • SPARK-50869 支持 ML Connect 中的评估器
  • SPARK-50851 通过 proto.Expression.Literal 来表达 ML 参数
  • SPARK-50825 在 ML Connect 中支持树分类器
  • SPARK-50827 支持插件
  • SPARK-49907 支持在 Connect 上使用 spark.ml
  • SPARK-50968 修复Column.__new__的用法
  • SPARK-49028 创建共享 SparkSession
  • SPARK-49421 创建共享 RelationalGroupedDataset 接口
  • SPARK-50804 to_protobuf() 不应引发 MatchError
  • SPARK-50900 将 VectorUDT 和 MatrixUDT 添加到 ProtoDataTypes
  • SPARK-50579 修复 truncatedString
  • SPARK-50875 将 RTRIM 排序规则添加到 TVF
  • SPARK-49420 为 DataFrameNaFunctions 添加共享接口
  • SPARK-50669 更改 TimestampAdd 表达式的签名
  • SPARK-46615 ArrowDeserializers 中支持 s.c.immutable.ArraySeq
  • SPARK-49423 在 sql/api 中整合观测功能
  • SPARK-49086 将 ML 函数注册移动到 SparkSessionExtensions
  • SPARK-49419 创建共享 DataFrameStatFunctions
  • SPARK-50735 ExecuteResponseObserver 中的失败会导致无限重新附加请求
  • SPARK-50522 支持不确定排序规则
  • SPARK-50893 将 UDT.DataType 设为可选
  • SPARK-50685 利用 getattr 提高 Py4J 性能
  • SPARK-50742 删除 spark.hadoop.fs.s3a.connection.establish.timeout 设置
  • SPARK-50714 使用 Avro 编码时启用 TransformWithState 的架构演变
  • SPARK-49029 创建共享数据集接口
  • SPARK-50263替换为System.currentTimeMillisSystem.nanoTime
  • SPARK-50525 定义 InsertMapSortInRepartitionExpressions 优化器规则
  • SPARK-50561 改进 UNIFORM SQL 函数的类型强制和边界检查
  • SPARK-50707 启用 char/varchar 的转换功能
  • [SPARK-49027] 在类和 Connect 之间共享列 API
  • SPARK-49632 删除 CANNOT_PARSE_TIMESTAMP 中的 ANSI 配置建议
  • SPARK-50529 在配置下更改 char/varchar 行为
  • SPARK-50600 在分析失败时对集合进行分析
  • SPARK-50789 类型化聚合的输入应当被分析
  • SPARK-49025 使列的实现保持中立
  • SPARK-50738 将黑色升级到 23.12.1
  • SPARK-49883 状态存储检查点结构 V2 与 RocksDB 集成
  • SPARK-50778 将 metadataColumn 添加到 PySpark 数据帧
  • SPARK-49565 使用 SQL 管道运算符改进自动生成的表达式别名
  • SPARK-50772 在 SET、EXTEND、DROP 运算符之后保留表别名
  • SPARK-50690 修复 DESCRIBE TABLE 视图查询输出引用中的差异
  • SPARK-50675 表和视图级别排序规则支持
  • SPARK-50480 将 CharType 和 VarcharType 从 StringType 扩展而来
  • SPARK-50715SparkSession.Builder 批量设置配置
  • SPARK-50693 应分析 TypedScalaUdf 的输入
  • SPARK-50710 在发布后添加对可选客户端重新连接到会话的支持
  • SPARK-50596 将 Py4J 从 0.10.9.7 升级到 0.10.9.8
  • SPARK-50661 为旧客户端 FEB 添加向后兼容性。
  • SPARK-50515 添加只读接口到SparkConf
  • SPARK-50642 修复 Spark Connect 中 FlatMapGroupsWithState 的状态架构(如果没有初始状态)
  • SPARK-50702 优化 regexp_count、regexp_extract 和 regexp_extract_all 的文档字符串
  • SPARK-50692 添加 RPAD 下推支持
  • SPARK-50699 使用指定的会话分析和生成 DDL 字符串
  • SPARK-50573 为了适应架构的演变,将状态架构 ID 添加到状态行中
  • SPARK-50311(add|remove|get|clear)Tag(s)支持 PySpark 的 API
  • SPARK-50661 修复 Spark Connect Scala foreachBatch 实现。 以支持 Dataset[T]。
  • SPARK-50696 优化 DDL 分析方法的 Py4J 调用
  • SPARK-50687 优化逻辑以获取 DataFrameQueryContext 的堆栈跟踪
  • SPARK-50681 缓存 MapInXXX 和 ApplyInXXX 的已分析架构
  • SPARK-50578 添加对 TransformWithStateInPandas 的新版本状态元数据的支持
  • SPARK-50405 正确处理复杂数据类型的排序规则类型一致性
  • SPARK-50615 将变体推送到扫描中。
  • SPARK-50599 创建允许 Avro 和 UnsafeRow 编码的 DataEncoder 特征
  • SPARK-50076 修复 logkey
  • SPARK-50339 启用 changelog 以存储世系信息
  • SPARK-50540 修复 StatefulProcessorHandle 的字符串架构
  • SPARK-50544 实现 StructType.toDDL
  • SPARK-50528InvalidCommandInput 移动到通用模块
  • SPARK-50063 在 Spark Connect Scala 客户端中添加对 Variant 的支持
  • SPARK-50310 添加标志以禁用 PySpark 的 DataFrameQueryContext
  • SPARK-50310 添加标志以禁用 PySpark 的 DataFrameQueryContext
  • SPARK-50032 允许使用完全限定的排序规则名称
  • SPARK-50466 优化字符串函数的文档字符串 - 第 1 部分
  • SPARK-49676 在 transformWithStateInPandas API 中添加对运算符链接的支持
  • SPARK-50081 Codegen 支持 XPath*(通过 Invoke 和 RuntimeReplaceable 实现)
  • SPARK-46725 添加 DAYNAME 函数
  • SPARK-50067 代码生成对 SchemaOfCsv 的支持(通过 Invoke 和 RuntimeReplaceable 实现)
  • SPARK-49873 修复了错误测试时合并失败后的问题
  • SPARK-50270 添加了 TransformWithStateInPandas 的自定义状态指标
  • SPARK-50381 支持 spark.master.rest.maxThreads
  • SPARK-50427 将configure_logging公开为公共 API
  • SPARK-50173 使 pandas 表达式接受更多数据类型
  • SPARK-50169 提高性能 RegExpReplace
  • SPARK-50238 在 PySpark UDF/UDDF/UDAF 和 Python UC UDF 中添加变体支持
  • SPARK-50190 从直方图中删除 Numpy 的直接依赖项
  • SPARK-50183 统一 Pandas API 和 PySpark 绘图的内部函数
  • SPARK-50170_invoke_internal_function_over_columns 移动到 pyspark.sql.utils
  • SPARK-50036 在 REPL shell 的上下文中包含SPARK_LOG_SCHEMA
  • SPARK-50141 使 lpadrpad 接受列类型参数
  • SPARK-49954 支持 SchemaOfJson 的代码生成(由 Invoke 和 RuntimeReplaceable 提供)
  • SPARK-50098 将最低版本 googleapis-common-protos 升级到 1.65.0
  • SPARK-50059 结构化流式处理 I/O 的 API 兼容性检查
  • SPARK-50241 将 NullIntolerant Mixin 替换为 Expression.nullIntolerant 方法
  • SPARK-49849 结构化流式处理查询管理的 API 兼容性检查
  • SPARK-49851 Protobuf 的 API 兼容性检查
  • SPARK-49850 Avro 的 API 兼容性检查
  • SPARK-50039 对分组的 API 兼容性进行检查
  • SPARK-50023 函数的 API 兼容性检查
  • SPARK-50030 窗口的 API 兼容性检查
  • SPARK-50002 I/O 的 API 兼容性检查
  • SPARK-49848 Catalog 的 API 兼容性检查
  • SPARK-50022 修复在禁用 UI 时隐藏应用 UI 链接的功能MasterPage
  • SPARK-50021 修复了 ApplicationPage 以在禁用 UI 时隐藏应用 UI 链接
  • SPARK-49990 提高性能 randStr
  • SPARK-50380 ReorderAssociativeOperator 应该遵循 ConstantFolding 中的合同
  • SPARK-50330 向排序和窗口节点添加提示
  • SPARK-49609 在经典和连接之间添加 API 兼容性检查
  • SPARK-49773 未捕获来自make_timestamp()错误时区的 Java 异常
  • SPARK-49345 确保使用当前运行的 Spark 会话
  • SPARK-49368 避免直接访问 protobuf lite 类
  • SPARK-50056 ParseUrl 的 Codegen 支持(通过 Invoke 和 RuntimeReplaceable)
  • SPARK-49119 修复 v1 和 v2 之间的语法 show columns 不一致
  • SPARK-50144 解决 DSv1 流式处理源中指标计算的限制
  • SPARK-49962 简化 AbstractStringTypes 类层次结构
  • SPARK-50327 提取函数解析以在单遍分析器中重复使用
  • SPARK-48775 将 SQLContext 替换为 STS 中的 SparkSession
  • SPARK-50325 提取别名解析以在单遍分析器中重复使用
  • SPARK-48123 提供用于查询结构化日志的常量表架构
  • SPARK-50055 添加 TryMakeInterval 替代项
  • SPARK-49312 改进assertSchemaEqual的错误消息
  • SPARK-38912 删除与 classmethod 和属性相关的注释
  • SPARK-50112 允许 TransformWithState 运算符使用 Avro 编码
  • SPARK-50260 重构和优化 Spark Connect 执行和会话管理
  • SPARK-50196 修复 Python 错误上下文以使用正确的上下文
  • SPARK-50167 改进 PySpark 绘图错误消息和导入
  • SPARK-50085 使用 lit(ndarray) 在处理 np.int8 时遵循 numPy 数据类型
  • SPARK-50273 改进 RocksDB 锁获取/释放用例的日志记录
  • SPARK-50163 修复 RocksDB 因完成侦听器导致的额外 acquireLock 释放问题
  • SPARK-49770 改进 RocksDB SST 文件映射管理,并修复了使用现有快照重新加载同一版本的问题
  • SPARK-50232 在 dev/requirements.txt 中添加“protobuf==5.28.3”
  • SPARK-50231 使函数 instr 接受列 substring
  • SPARK-50028 将 Spark Connect 服务器侦听器中的全局锁替换为细粒度锁
  • SPARK-50077 为 LogicalRelation 引入新的模式对象,以帮助避免默认的完整参数模式
  • SPARK-50128 在 Scala 中使用隐式编码器添加有状态处理器句柄 API
  • SPARK-49411 在驱动程序和有状态运算符之间传递状态存储检查点 ID
  • SPARK-50054 支持直方图绘图
  • SPARK-49854 克隆项目管理器时不要复制群集库
  • SPARK-50071 添加了 try_make_timestamp(_ltz 和 _ntz)和相关测试
  • SPARK-50024 切换到使用记录器而不是客户端中的警告模块
  • SPARK-50174 分解 UnresolvedCatalogRelation 解析
  • SPARK-49734 为函数添加 seed 参数 shuffle
  • SPARK-49943timestamp_ntz_to_long 中删除 PythonSQLUtils
  • SPARK-49945distributed_id 添加别名
  • SPARK-49755 删除了 Connect 中对 avro 函数的特殊大小写处理
  • SPARK-49805 删除 function.scala 中的 private[xxx] 函数
  • SPARK-49929 支持箱线图
  • SPARK-49767 重构内部函数调用
  • SPARK-49939 对 json_object_keys 的 Codegen 支持(通过 Invoke 和 RuntimeReplaceable)
  • SPARK-49854 在会话克隆期间克隆项目管理器
  • SPARK-49766json_array_length 的 Codegen 支持(通过 InvokeRuntimeReplaceable 实现)
  • SPARK-49540 统一distributed_sequence_id的使用方式
  • SPARK-50046 使用 EventTimeWatermark 节点的稳定顺序计算水印
  • SPARK-50031TryParseUrl添加表达式
  • SPARK-49202 对直方图应用 ArrayBinarySearch
  • SPARK-49811 重命名 StringTypeAnyCollation
  • SPARK-50106protobuf Python 包升级到 5.28.3
  • SPARK-49203 添加表达式以用于 java.util.Arrays.binarySearch
  • SPARK-50090 重构 ResolveBinaryArithmetic 以分隔单节点转换
  • SPARK-49103 支持 spark.master.rest.filters
  • SPARK-49222 清除 QueryCompilationErrors 中的无用方法
  • SPARK-50062 根据 InSet 实现对排序规则的支持
  • SPARK-50035 增加对有状态处理器的显式 handleExpiredTimer 函数部分的支持
  • SPARK-50050 使 lit 接受 strbool 键入 numpy ndarray
  • SPARK-50051 使 lit 能够处理空的 numpy ndarray
  • SPARK-49857 将 storageLevel 添加到 Dataset localCheckpoint API
  • SPARK-48749 使用 RuntimeReplaceable 简化 UnaryPositive 并消除其催化剂规则
  • SPARK-50058 分解计划规范化函数,以便稍后在单遍分析器测试中使用这些函数
  • SPARK-50042 升级 numpy 2 以支持 Python Linter
  • SPARK-50052 使 NumpyArrayConverter 支持空 str ndarray
  • SPARK-49126将配置定义移动到spark.history.ui.maxApplicationsHistory.scala
  • SPARK-50044 优化多个数学函数的文档字符串
  • SPARK-48782 在目录中添加对执行过程的支持
  • SPARK-48773 通过配置生成器框架记录配置项“spark.default.parallelism”
  • SPARK-49876 从 Spark Connect 服务中删除全局锁
  • SPARK-48480 StreamingQueryListener 不应受到 spark.interrupt() 的影响。
  • SPARK-49978 将 sparkR 弃用警告移动到包附加时
  • SPARK-48549 改进 SQL 函数 sentences
  • SPARK-49956 使用 collect_set 表达式禁用排序规则
  • SPARK-49974 将 resolveRelations(...) 移出 Analyzer.scala
  • SPARK-49067 将 utf-8 文本移动到 UrlCodec 类的内部方法中
  • SPARK-49393 在弃用的目录插件 API 中默认失败
  • SPARK-49918 适当情况下在 SparkContext 中使用对 conf 的只读访问
  • SPARK-49924 在替换containsNull后保留ArrayCompact
  • SPARK-49895 优化在 SELECT 子句中遇到尾随逗号时的错误处理
  • SPARK-49890 将准备的 df.sample 提取到父类
  • SPARK-49810 将准备的 DataFrame.sort 提取到父类
  • SPARK-49405 限制 JsonOptions 中的字符集
  • SPARK-49542 分区转换异常评估错误
  • SPARK-47172 添加对 RPC 加密 AES-GCM 的支持
  • SPARK-44914 在删除 xercesImpl 后修复 HadoopConfUtilsSuite
  • SPARK-47496 Java SPI 支持动态 JDBC 方言注册
  • SPARK-48961 使 PySparkException 的参数命名与 JVM 保持一致
  • SPARK-47390 处理 Postgres 和 MySQL 的 SQL 时间戳映射
  • SPARK-49824 改进 SparkConnectStreamingQueryCache 中的日志记录
  • SPARK-49894 优化列字段操作的字符串表示形式
  • SPARK-49836 修复了窗口提供给 window/session_window fn 时可能损坏的查询
  • SPARK-49531 支持使用 Plotly 后端的折线图
  • SPARK-48780 使 NamedParametersSupport 中的错误泛化以支持函数和过程
  • SPARK-49026 将 ColumnNode 添加到 Proto 转换
  • SPARK-49814 Spark Connect 客户端启动时,显示 spark versionconnect server
  • SPARK-49246 TableCatalog#loadTable 应指示它是否用于写入
  • SPARK-49749 更改日志级别以在 BlockManagerInfo 中进行调试
  • SPARK-48303 重组 LogKeys
  • SPARK-48112 向插件公开 SparkConnectPlanner 中的会话
  • SPARK-45919 使用 Java 16 record 简化 Java 类定义
  • SPARK-48126 使 spark.log.structuredLogging.enabled 有效
  • SPARK-49656 增加对具有值状态集合类型和读取更改源选项的状态变量的支持
  • SPARK-49323 将 MockObserver 从 Spark Connect Server 的测试文件夹移动到服务器的主文件夹
  • SPARK-49772 删除 ColumnFamilyOptions 并将配置直接添加到 RocksDB 中的 dbOptions
  • SPARK-49688 修复中断和执行计划之间的数据竞争
  • SPARK-49585 将 SessionHolder 中的执行地图替换为 operationID 集合
  • SPARK-49684 尽量减少会话还原锁的生存期
  • SPARK-48857 限制 CSVOptions 中的字符集
  • SPARK-48615 解析十六进制字符串的性能改进
  • SPARK-49719 生成 UUIDSHUFFLE 接受整数 seed
  • SPARK-49713 使函数 count_min_sketch 接受数字参数
  • SPARK-48623 结构化日志记录迁移 [第 3 部分]
  • SPARK-48541 为 TaskReaper 终止的执行程序添加新的退出代码
  • SPARK-48627 二进制到 HEX_DISCRETE 字符串的性能改进
  • SPARK-49226 清理 UDF 代码生成
  • SPARK-49673 将 CONNECT_GRPC_ARROW_MAX_BATCH_SIZE 增加到 0.7 * CONNECT_GRPC_MAX_MESSAGE_SIZE
  • SPARK-49307 将 Kryo 序列化添加到不可知的编码器框架
  • SPARK-48601 为 JDBC 选项设置 null 值时,提供更用户友好的错误消息
  • SPARK-42252 添加 spark.shuffle.localDisk.file.output.buffer 和弃用 spark.shuffle.unsafe.file.output.buffer
  • SPARK-49505 创建新的 SQL 函数“randstr”和“uniform”以在范围内生成随机字符串或数字
  • SPARK-48341 允许插件在其测试中使用 QueryTest
  • SPARK-48374 支持其他 PyArrow 表列类型
  • SPARK-49412 在单个作业中计算所有箱线图指标
  • SPARK-49684 从会话和执行管理器中删除全局锁
  • SPARK-49225 添加 ColumnNode 的 SQL 语句并进行规范化
  • SPARK-49274 支持基于 Java 序列化的编码器
  • SPARK-49089 将硬编码的 Catalyst 表达式移动到内部函数注册表
  • SPARK-48185 修复了“符号引用类不可访问:class sun.util.calendar.ZoneInfo”
  • SPARK-48037 修复 SortShuffleWriter 缺少随机写入相关指标,导致数据可能不准确的问题
  • SPARK-49534sql/hive不在类路径中时,不再在前面添加sql/hive-thriftserverspark-hive_xxx.jar
  • SPARK-49502 在 SparkEnv.get.shuffleManager.unregisterShuffle 中避免 NPE
  • SPARK-49567 在 PySpark 代码库中使用 classic 而不是 vanilla
  • SPARK-49582 改进“dispatch_window_method”工具和文档字符串
  • SPARK-49478 处理 ConnectProgressExecutionListener 中的 null 指标
  • SPARK-49525 对服务器端流式查询 ListenerBus 侦听器的日志进行小幅改进
  • SPARK-49544 将 SparkConnectExecutionManager 中的粗略锁定替换为 ConcurrentMap
  • SPARK-49548 将 SparkConnectSessionManager 中的粗锁替换为 ConcurrentMap
  • SPARK-49004 对列 API 内部函数使用单独的注册表
  • SPARK-49443 实现 to_variant_object 表达式,并使 schema_of_variant 表达式为变量对象打印 OBJECT
  • SPARK-49595 修复 Spark Connect Scala 客户端中的问题DataFrame.unpivot/melt
  • SPARK-49526 支持工件管理器中的 Windows 样式路径
  • SPARK-49396 修改 CaseWhen 表达式的可为 Null 性检查
  • SPARK-49024 向列节点添加对函数的支持
  • SPARK-48985 连接兼容的表达式构造函数
  • SPARK-49083 允许from_xml和from_json原生支持json模式
  • SPARK-48986 添加 ColumnNode 中间表示
  • SPARK-48960 使 spark-submit 与 Spark Connect 配合使用
  • SPARK-49492 尝试在非活动的 ExecutionHolder 上重新附加
  • SPARK-47307 添加配置以选择性地分块 base64 字符串
  • SPARK-49451 允许 parse_json 中存在重复键
  • SPARK-49021 添加对使用状态数据源读取器读取 transformWithState 值状态变量的支持
  • SPARK-49249 将 API 添加到 addArtifact Spark SQL Core
  • SPARK-48693 对 Invoke 和 StaticInvoke 的 toString 进行简化和统一
  • SPARK-41982 不应将字符串类型的分区视为数值类型
  • SPARK-49216 修复了当结构化日志记录配置关闭时,不显式地构造 LogEntry 来记录消息上下文的问题
  • SPARK-49459 支持 CRC32C 进行随机校验和
  • SPARK-49409 调整CONNECT_SESSION_PLAN_CACHE_SIZE的默认值
  • SPARK-49164 修复 JDBC 关系中 SQL 查询谓词中的非 NullSafeEqual
  • SPARK-48344 SQL 脚本执行(包括 Spark Connect)
  • SPARK-49260 不再在 Spark Connect Shell 中将模块的 sql/core 类路径前置
  • SPARK-49041 当给出错误的 dropDuplicates 时提出正确的 subset 错误
  • SPARK-49300 修复未设置 tokenRenewalInterval 时的 Hadoop 委托令牌泄漏
  • SPARK-48796 重启时从 RocksDBCheckpointMetadata 加载 VCF 的列系列 ID
  • SPARK-49269 在 AstBuilder 中急切地评估 VALUES() 列表
  • SPARK-49336 截断 protobuf 消息时限制嵌套级别
  • SPARK-49245 重构某些分析器规则
  • SPARK-48755 transformWithState pyspark 基本实现和 ValueState 支持
  • SPARK-48762 介绍适用于 Python 的 clusterBy DataFrameWriter API
  • SPARK-48967 改进“INSERT INTO ... VALUES”语句的性能和内存占用情况
  • SPARK-49195 将脚本级别分析逻辑嵌入 SparkSubmitCommandBuilder
  • SPARK-49173 将 Spark Connect shell 提示符从 @ 更改为 scala>
  • SPARK-49198 删除 Spark Connect shell 所需的更多 jar
  • SPARK-48936 使 spark-shell 可与 Spark 连接配合使用
  • SPARK-49201 使用 Spark SQL 重新实现 hist 绘图
  • SPARK-49111 使用ProjectAndFilter 移动到 DataSourceV2Strategy 的配套对象
  • SPARK-49185 使用 Spark SQL 重新实现 kde 绘图
  • SPARK-48761 介绍 Scala 的 clusterBy DataFrameWriter API
  • SPARK-48628 添加任务峰值开/关堆内存指标
  • SPARK-48900 为作业/阶段取消的所有内部调用添加 reason 字段
  • SPARK-49076修复 AstBuilder 注释中的过时问题logical plan name
  • SPARK-49059SessionHolder.forTesting(...) 移动到测试包
  • SPARK-48658 编码/解码函数报告编码错误,而不是 mojibake
  • SPARK-45891 在变体规范中添加对间隔类型的支持
  • SPARK-49032 在元数据表条目中添加架构路径,并为运算符元数据格式 v2 添加与运算符元数据相关的测试
  • SPARK-49009 使列 API 和函数接受枚举
  • SPARK-49035 消除 TypeVar ColumnOrName_
  • SPARK-48849 为 TransformWithStateExec 运算符创建 OperatorStateMetadataV2
  • SPARK-48974 使用 SparkSession.implicits 而不是 SQLContext.implicits
  • SPARK-48996 允许 __and____or__ 列使用裸字面值
  • SPARK-48928 本地检查点 RDD 上调用 .unpersist() 的日志警告
  • SPARK-48972 在函数中统一文本字符串处理
  • SPARK-48891 重构 StateSchemaCompatibilityChecker 以统一所有状态架构格式
  • SPARK-48841collationName 包括到 sql()Collate
  • SPARK-48944 在连接服务器中统一 JSON 格式架构处理
  • SPARK-48945 简化正则表达式函数 lit
  • SPARK-48865 添加try_url_decode函数
  • SPARK-48851SCHEMA_NOT_FOUND的值从namespace更改为catalog.namespace
  • SPARK-48510 修复了在 Maven 中运行测试时的 UDAF toColumn API 问题
  • SPARK-45190 使 from_xml 支持 StructType 模式
  • SPARK-48900reasoncancelJobGroup添加cancelJobsWithTag字段
  • SPARK-48909 在编写元数据时使用 SparkSession over SparkContext
  • SPARK-48510 在 Spark Connect 中支持 UDAF toColumn API
  • SPARK-45155 为 Spark Connect JVM/Scala 客户端添加 API 文档
  • SPARK-48794 df.mergeInto 对 Spark Connect 的支持(Scala 和 Python)
  • SPARK-48714在 PySpark 中实现DataFrame.mergeInto
  • SPARK-48726 为 TransformWithStateExec 运算符创建 StateSchemaV3 文件格式
  • SPARK-48834 在查询编译期间禁用 python UDF、UDF、UDAF 的变体输入/输出
  • SPARK-48716 将 jobGroupId 添加到 SparkListenerSQLExecutionStart
  • SPARK-48888 移除根据变更日志操作大小创建快照的功能
  • SPARK-48772 状态数据源更改源读取器模式
  • SPARK-48742 RocksDB 的虚拟列系列
  • SPARK-48852 修复连接中的字符串剪裁函数
  • SPARK-48343 SQL 脚本解释器简介
  • SPARK-48118 支持 SPARK_SQL_LEGACY_CREATE_HIVE_TABLE env 变量
  • SPARK-48804 添加 classIsLoadable & OutputCommitter.isAssignableFrom 检查输出提交器类配置
  • SPARK-47577 纠正错误使用日志键 TASK_ID
  • SPARK-48798 为基于 SparkSession 的分析引入 spark.profile.render
  • SPARK-48686 提高 ParserUtils.unescapeSQLString 的性能
  • SPARK-48611 在 HadoopRDD 和 NewHadoopRDD 中记录输入拆分的线程 TID
  • SPARK-48720 使 v1 和 v2 中的命令对齐ALTER TABLE ... UNSET TBLPROPERTIES ...
  • SPARK-48710 使用 NumPy 2.0 兼容类型
  • SPARK-48810 会话停止() API 应是幂等的
  • SPARK-48818 简化 percentile 函数
  • SPARK-48638 为 DataFrame 添加 ExecutionInfo 支持
  • SPARK-48799 重构运算符元数据读/写和调用方的版本控制
  • SPARK-46122默认设置为spark.sql.legacy.createHiveTableByDefaultfalse
  • SPARK-48629 将剩余代码迁移到结构化日志记录框架
  • SPARK-48320 从 OSS Spark 同步最新的日志特性和测试用例
  • SPARK-48573 升级 ICU 版本
  • SPARK-48687 在有状态查询的规划阶段,添加状态架构验证并在驱动程序上进行更新。
  • SPARK-47579 将带变量的 logInfo 迁移到结构化日志记录框架(第 1-4 部分)
  • SPARK-48713 当 baseObject 为字节数组时,为 UnsafeRow.pointTo 添加索引范围检查
  • SPARK-48498 始终在谓词中进行字符型填充
  • SPARK-48598 在数据帧操作中传播缓存的架构
  • SPARK-47599 MLLib:将带变量的 logWarn 迁移到结构化日志记录框架
  • SPARK-48576 将UTF8_BINARY_LCASE重命名为UTF8_LCASE
  • SPARK-48650 从 IPython Notebook 显示正确的调用站点
  • SPARK-48059 Java 端的结构化日志框架
  • SPARK-48482 dropDuplicates 和 dropDuplicatesWithinWatermark 应接受可变长度参数
  • SPARK-48620修复YearMonthIntervalTypeCalendarIntervalType中的内部原始数据泄漏
  • SPARK-48555 支持将列用作多个函数的参数
  • SPARK-48591 添加帮助程序函数以简化 Column.py
  • SPARK-48459 在 Spark Connect 中实现 DataFrameQueryContext
  • SPARK-48610 重构:使用辅助 idMap 代替 OP_ID_TAG
  • SPARK-47923 将 R 包的最低 arrow 版本升级到 10.0.0
  • SPARK-48593 修复 lambda 函数的字符串表示形式
  • SPARK-46947 延迟内存管理器初始化,直到加载驱动程序插件
  • SPARK-48220 允许传递 PyArrow 表以创建DataFrame()
  • SPARK-48564 在集合运算中传播缓存的模式
  • SPARK-48561 针对不受支持的绘图函数引发 PandasNotImplementedError
  • SPARK-48513 为状态架构兼容性添加错误类
  • SPARK-48553 缓存更多属性
  • SPARK-48550 直接使用父 Window 类
  • SPARK-48504 Spark Connect 和 Spark 经典版的父窗口类
  • SPARK-48508DataFrame.{to, mapInPandas, mapInArrow} 中缓存用户指定的架构
  • SPARK-48496 在 JavaUtils 中使用静态正则表达式模式实例
  • SPARK-47578 手动反向移植:迁移带变量的 logWarning
  • SPARK-47737 将 PyArrow 凸到 10.0.0
  • SPARK-48159 扩展对日期时间表达式中排序字符串的支持
  • SPARK-48454 直接使用父 DataFrame 类
  • SPARK-48438 直接使用父 Column 类
  • SPARK-47597 手动反向移植:带变量迁移 logInfo
  • SPARK-48434 使 printSchema 利用缓存的架构
  • SPARK-46998 弃用 SQL 配置 spark.sql.legacy.allowZeroIndexInFormatString
  • SPARK-46569 自 JDK9 起移除 SecureRandom 的 ThreadLocal
  • SPARK-46455 删除冗余类型转换
  • SPARK-46270 使用 java16 instanceof 表达式
  • SPARK-46479 使用 commons-lang3 中的实用工具方法进行 Java 版本检查
  • SPARK-45998 清理冗余类型强制转换
  • SPARK-45533 针对 RocksDBIterator/LevelDBIterator 使用 j.l.r.Cleaner 而非 finalize
  • SPARK-45309 删除 JDK 9/11/17 的所有 SystemUtils.isJavaVersionAtLeast
  • SPARK-48295默认启用compute.ops_on_diff_frames
  • SPARK-47960 允许在 transformWithState 之后链接其他有状态运算符
  • SPARK-48367 修复用于 scalafmt 文件检测的 lint-scala
  • SPARK-48247 使用字典中的所有值进行 MapType 架构推断
  • SPARK-48370 Scala Spark Connect 客户端中的检查点和 localCheckpoint
  • SPARK-48258 Spark Connect 中的检查点和 localCheckpoint
  • SPARK-48293 为 ForeachBatchUserFuncException 包装中断添加测试
  • SPARK-48031 分解 viewSchemaMode 配置,添加 SHOW CREATE TABLE 支持
  • SPARK-48288 为连接器类型转换表达式添加了源数据类型
  • SPARK-48310 缓存属性必须返回副本
  • SPARK-48287 应用内置 timestamp_diff 方法
  • SPARK-44444 默认情况下使用 ANSI SQL 模式
  • SPARK-48276__repr__ 添加缺失的 SQLExpression
  • SPARK-46991 在 Catalyst 中将 IllegalArgumentException 替换为 SparkIllegalArgumentException
  • SPARK-48031 支持视图架构演变
  • SPARK-48113 允许插件与 Spark Connect 集成
  • SPARK-47158 将名称和 sqlState 分配给旧错误代码
  • SPARK-47545 为 Scala 客户端提供数据集 observe 支持
  • SPARK-47993 删除 Python 3.8
  • SPARK-48260 禁用 ParquetIOSuite 中的输出提交器协调
  • SPARK-47365 将 toArrow() DataFrame 方法添加到 PySpark
  • SPARK-47963 为外部 Spark 生态系统启用结构化日志记录
  • SPARK-48045 修复 multi-agg-relabel 忽略 as_index=False
  • SPARK-47719 将 timeParserPolicy 默认值更改为 CORRECTED
  • SPARK-48075 PySpark avro 函数的类型检查
  • SPARK-48102 在流式处理查询进度中跟踪指标持续时间
  • SPARK-47858 重构数据帧错误上下文
  • SPARK-48052 通过父类恢复 pyspark-connect CI
  • SPARK-45284 将 SparkR 的最低系统要求更新为 Java 17
  • SPARK-47933 Spark Connect 和经典版的父列类
  • SPARK-48053 SparkSession.createDataFrame 应针对不支持的选项发出警告
  • SPARK-48044 缓存 DataFrame.isStreaming
  • SPARK-47594 结构化日志迁移
  • SPARK-47764 根据 ShuffleCleanupMode 清理 Shuffle 依赖项
  • SPARK-45501 使用模式匹配进行类型检查和转换
  • SPARK-45515 使用增强 switch 的表达式替换正则 switch 语句
  • SPARK-47417 排序规则支持:Ascii、Chr、Base64、UnBase64、Decode、StringDecode、Encode、ToBinary、FormatNumber、Sentences
  • SPARK-47909 Spark Connect 和 Spark 经典版的父数据帧类
  • SPARK-47602 Core/MLLib/资源管理器:结构化日志记录迁移
  • SPARK-47390 PostgresDialect 区分 TIMESTAMP 与 TIMESTAMP_TZ
  • SPARK-47868 修复 SparkConnectPlanner 和 SparkSession 中的递归限制错误
  • SPARK-45802 删除 majorVersion 中不再需要的 Java Platform 检查
  • SPARK-47818 在 SparkConnectPlanner 中引入计划缓存以提高分析请求的性能
  • SPARK-46031替换为!Optional.isPresent()Optional.isEmpty()
  • SPARK-45659 在 Java API 中添加字段 since 标记为 @Deprecated
  • SPARK-45596 使用 java.lang.ref.Cleaner 而不是 org.apache.spark.sql.connect.client.util.Cleaner
  • SPARK-47807 使 pyspark.ml 与 pyspark-connect 兼容
  • SPARK-45830 重构 StorageUtils#bufferCleaner
  • SPARK-45578 使用InaccessibleObjectException 来替代trySetAccessible
  • SPARK-44895 为 ThreadStackTrace 添加“daemon”、“priority”
  • SPARK-45295 删除 JDK 8 的 Utils.isMemberClass 解决方法
  • SPARK-47081 支持查询执行进度
  • SPARK-45322 使用 ProcessHandle 直接获取 pid
  • SPARK-46812 使 mapInPandas / mapInArrow 支持 ResourceProfile
  • SPARK-47406 在 MYSQLDialect 中处理 TIMESTAMP 和 DATETIME
  • SPARK-47712 允许连接插件创建和处理数据集
  • SPARK-47720 更新 spark.speculation.multiplier 到 3 和 spark.speculation.quantile 0.9
  • SPARK-47665 使用 SMALLINT 将 ShortType 写入 MYSQL
  • SPARK-47722 等待 RocksDB 后台工作完成,然后再关闭
  • SPARK-47610 始终设置 io.netty.tryReflectionSetAccessible=true
  • SPARK-47372 添加对基于范围扫描的密钥状态编码器的支持,以便与状态存储提供程序一起使用
  • SPARK-44708 迁移 test_reset_index 的 assert_eq 以使用 assertDataFrameEqual
  • SPARK-47346 在创建 Python 规划器工作线程时使守护程序模式可配置
  • SPARK-47419log4j2-defaults.properties移动到common/utils
  • SPARK-47380 确保服务器端上的 SparkSession 相同
  • SPARK-47055 升级 MyPy 1.8.0
  • SPARK-46795UnsupportedOperationException中用SparkUnsupportedOperationException替换sql/core
  • SPARK-46648 使用 zstd 作为默认的 ORC 压缩
  • SPARK-47322 使 withColumnsRenamed 列名称重复处理方式与 withColumnRenamed 保持一致
  • SPARK-47011 删除已弃用 BinaryClassificationMetrics.scoreLabelsWeight
  • SPARK-46332 迁移到 CatalogNotFoundException 错误类 CATALOG_NOT_FOUND
  • SPARK-46975 支持专用回退方法
  • SPARK-47069 为基于 SparkSession 的分析引入 spark.profile.show/dump
  • SPARK-47062 将连接插件移动到 Java 以保持兼容性
  • SPARK-46833 排序规则 - 引入 CollationFactory,它为支持的排序规则提供比较和哈希规则
  • SPARK-46984 删除pyspark.copy_func
  • SPARK-46849 在 CREATE TABLE 列默认值上运行优化器
  • SPARK-46976 实现 DataFrameGroupBy.corr
  • SPARK-46911 将 deleteIfExists 运算符添加到 StatefulProcessorHandleImpl
  • SPARK-46955 实现 Frame.to_stata
  • SPARK-46936 实现 Frame.to_feather
  • SPARK-46655 跳过 DataFrame 方法中的查询上下文捕获
  • SPARK-46926 在回退列表中添加convert_dtypesinfer_objectsset_axis
  • SPARK-46683 编写生成子查询排列的子查询生成器,以提高测试覆盖率
  • SPARK-46777 重构 StreamingDataSourceV2Relation 催化剂结构,以便与批处理版本更相提并进
  • SPARK-46620 为帧方法引入基本回退机制
  • SPARK-46808 使用自动排序函数优化 Python 中的错误类
  • SPARK-46686 基于 SparkSession 的 Python UDF 探查器的基本支持
  • SPARK-46258RocksDBPersistenceEngine
  • SPARK-46665 删除 assertPandasOnSparkEqual
  • SPARK-46227withSQLConfSQLHelper 移动到 SQLConfHelper
  • SPARK-40876 扩大 Parquet 读取器的类型提升
  • SPARK-46101 通过将 (string|array)大小替换为 (string|array)长度来减少堆栈深度
  • SPARK-46170 支持在 SparkSessionExtensions 中注入自适应查询后规划器策略规则
  • SPARK-46246 EXECUTE IMMEDIATE SQL 的支持
  • SPARK-46466 矢量化 parquet 读取器不应对时间戳 ntz 进行变基
  • SPARK-46399 将退出状态添加到应用程序结束事件以使用 Spark 侦听器
  • SPARK-45506 向 SparkConnect addArtifact 添加 ivy URI 支持
  • SPARK-45597 支持在 SQL 中使用 Python 数据源创建表 (DSv2 exec)
  • SPARK-46402 添加 getMessageParameters 和 getQueryContext 支持
  • SPARK-46213 为错误框架引入 PySparkImportError
  • SPARK-46226 将所有剩余部分 RuntimeError 迁移到 PySpark 错误框架
  • SPARK-45886 在 DataFrame 上下文中 callSite 输出完整堆栈跟踪
  • SPARK-46256 针对 ZSTD 的并行压缩支持
  • SPARK-46249 需要实例锁来获取 RocksDB 指标,以防止与后台操作产生竞争
  • SPARK-45667 清理与 IterableOnceExtensionMethods 相关的已弃用的 API 使用
  • SPARK-46254 删除过时的 Python 3.8/3.7 版本检查
  • SPARK-46213 为错误框架引入 PySparkImportError
  • SPARK-46188 修复 Spark 文档生成的表的 CSS
  • SPARK-45670 在 K8s 上部署时 SparkSubmit 不支持 --total-executor-cores
  • SPARK-46169 为 API 中缺少的参数 DataFrame 分配适当的 JIRA 编号
  • SPARK-45022 提供数据集 API 错误的上下文
  • SPARK-46062 同步 CTE 定义和引用之间的 isStreaming 标志
  • SPARK-45698 清理与 Buffer 相关的已弃用 API 使用
  • SPARK-45136 通过 Ammonite 支持增强了 ClosureCleaner
  • SPARK-44442 删除 Mesos 支持
  • SPARK-45996 显示 Spark Connect 的正确依赖项要求消息
  • SPARK-45767 删除 TimeStampedHashMap 及其 UT
  • SPARK-45912 XSDToSchema API 的增强:修改为 HDFS API 以提高云存储的可访问性
  • SPARK-45338替换为scala.collection.JavaConvertersscala.jdk.CollectionConverters
  • SPARK-45828 在 dsl 中删除已弃用的方法
  • SPARK-45718 从 Spark 3.4.0 中删除剩余已弃用的 Pandas 功能
  • SPARK-45990 升级到 protobuf 4.25.1 以支持 Python 3.11
  • SPARK-45941 升级到 pandas 版本 2.1.3
  • SPARK-45555 包含失败断言的可调试对象
  • SPARK-45710 将名称分配给错误 _LEGACY_ERROR_TEMP_21[59,60,61,62]
  • SPARK-45733 支持多个重试策略
  • SPARK-45503 添加 Conf 以设置 RocksDB 压缩
  • SPARK-45614 为错误_LEGACY_ERROR_TEMP_215[6,7,8] 指定名称
  • SPARK-45680 发布会话
  • SPARK-45620 修复与 Python UDTF 相关的面向用户的 API 以使用 camelCase
  • SPARK-45634从 Spark 上的 Pandas API 中删除DataFrame.get_dtype_counts
  • SPARK-44752 XML:更新 Spark Docs
  • SPARK-45523 如果 UDTF 为任何不可为 null 的列返回 None,则返回有用的错误消息
  • SPARK-45558推出流式处理有状态运算符的元数据文件
  • SPARK-45390 删除 distutils 使用情况
  • SPARK-45517 展开更多异常构造函数以支持错误框架参数
  • SPARK-45427 将 RPC SSL 设置添加到 SSLOptions 和 SparkTransportConf
  • SPARK-45581 强制使用 SQLSTATE。
  • SPARK-44784 使 SBT 测试封闭。
  • SPARK-45550 从 Spark 上的 Pandas API 中删除已弃用的 API
  • SPARK-45415 允许选择性禁用 RocksDB 状态存储中的“fallocate”
  • SPARK-45487 修复 SQLSTATE 和临时错误
  • SPARK-45505 重构 analyzeInPython 使其可重用
  • SPARK-45451 使数据集缓存的默认存储级别可配置
  • SPARK-45065 支持 Pandas 2.1.0
  • SPARK-45450 根据 PEP8 修正导入:pyspark.pandas 和 pyspark (core)
  • SPARK-43299 在 Scala 客户端中转换 StreamingQueryException
  • SPARK-42617 获得来自 pandas 2.0.0 的支持 isocalendar
  • SPARK-45441 为 PythonWorkerUtils 引入更多 util 函数
  • SPARK-43620 修复 Pandas API 依赖于不支持的功能的问题
  • SPARK-45330 将 Ammonite 升级到 2.5.11
  • SPARK-45267 更改numeric_only的默认值。
  • SPARK-45303 删除 KryoSerializerBenchmark 中的 JDK 8/11 解决方法
  • SPARK-43433GroupBy.nth 行为与最新的 Pandas 匹配
  • SPARK-45166 清理未使用的代码路径 pyarrow<4
  • SPARK-44823 将 black 更新至 23.9.1 并修复错误检查
  • SPARK-45165inplace API 中删除CategoricalIndex参数
  • SPARK-45180inclusive 中删除 Series.between 参数的布尔输入
  • SPARK-45164 删除已弃用的 Index API
  • SPARK-45179 将 Numpy 最低版本增加到 1.21
  • SPARK-45177col_space 中删除 to_latex 参数
  • SPARK-43241MultiIndex.append 不检查名称是否相等
  • SPARK-43123 当所有列的类型均为 object-dtype 时,引发 TypeError 以处理 DataFrame.interpolate
  • SPARK-43295 支持 DataFrameGroupBy.sum 的字符串类型列
  • SPARK-42619 为 DataFrame.info 添加 show_counts 参数
  • SPARK-44863 添加一个按钮以在 Spark UI 中将线程转储下载为 txt
  • SPARK-44713 将共享类移动到 sql/api
  • SPARK-44692 将触发器移动到 sql/api
  • SPARK-43563squeeze中删除read_csv并启用更多测试。
  • SPARK-43476 支持 StringMethods pandas 2.0.0 及更高版本
  • SPARK-43872(DataFrame|Series).plot支持 pandas 2.0.0 及更高版本。
  • SPARK-42620 为 (DataFrame|Series).between_time 添加 inclusive 参数
  • SPARK-44289 支持 indexer_between_time pandas 2.0.0 并启用更多测试。
  • SPARK-42621 为pd.date_range添加包含的参数
  • SPARK-43709closed中删除ps.date_range参数并启用测试。
  • SPARK-43568 支持 Categorical pandas 2 的 API
  • SPARK-44842 支持 pandas 2.0.0 的 stat 函数并启用测试。
  • SPARK-43606 删除 Int64IndexFloat64Index
  • SPARK-43873 启用 FrameDescribeTests
  • SPARK-44841 支持 value_counts pandas 2.0.0 及更高版本。
  • SPARK-44686 添加在 Encoders.scala 中创建 RowEncoder 的功能。
  • SPARK-41400 删除 Connect Client Catalyst 依赖项
  • SPARK-44538 恢复 Row.jsonValue 及相关功能
  • SPARK-44507 将 AnalysisException 移动到 sql/api
  • SPARK-44531 将编码器推理移动到 sql/api
  • SPARK-43744 修复了服务器类路径上找不到存根用户类导致的类加载问题
  • SPARK-36612 在随机哈希联接中支持左侧的左外部联接生成或右侧的右外部联接生成
  • SPARK-44541从中删除无用函数hasRangeExprAgainstEventTimeColUnsupportedOperationChecker
  • SPARK-44059 为内置函数添加对命名参数的分析器支持
  • SPARK-44216 公开 assertSchemaEqual API
  • SPARK-43755 将执行移出 SparkExecutePlanStreamHandler 并转移到不同的线程中
  • SPARK-44201 在 Scala for Spark Connect 中添加对流侦听器的支持
  • SPARK-43965 在 Spark Connect 中支持 Python UDTF
  • SPARK-44398 Scala foreachBatch API
  • SPARK-44044 使用流式处理改进 Window 函数的错误消息

Databricks ODBC/JDBC 驱动程序支持

Databricks 支持在过去 2 年中发布的 ODBC/JDBC 驱动程序。 请下载最近发布的驱动程序并升级(下载 ODBC下载 JDBC)。

维护更新

请参阅 Databricks Runtime 17.0 维护更新

系统环境

  • 操作系统:Ubuntu 24.04.2 LTS
  • Java:Zulu17.54+21-CA
  • Scala:2.13.16
  • Python:3.12.3
  • R:4.4.2
  • Delta Lake:4.0.0

已安装的 Python 库

图书馆 版本 图书馆 版本 图书馆 版本
批注类型 0.7.0 anyio 4.6.2 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 箭头 1.3.0 asttokens 2.0.5
astunparse 1.6.3 async-lru 2.0.4 属性 24.3.0
自动命令 2.2.2 azure-common 1.1.28 azure-core 1.34.0
Azure 身份识别 1.20.0 azure-mgmt-core 1.5.0 azure-mgmt-web 8.0.0
azure 存储 blob 12.23.0 azure-storage-file-datalake 12.17.0 巴别塔 2.16.0
backports.tarfile 1.2.0 beautifulsoup4 4.12.3 黑色 24.10.0
漂白剂 6.2.0 闪烁器 1.7.0 boto3 1.36.2
botocore 1.36.3 cachetools (缓存工具) 5.5.1 certifi 2025年1月31日
cffi 1.17.1 chardet 4.0.0 charset-normalizer (字符集正常化工具) 3.3.2
点击 8.1.7 cloudpickle 3.0.0 通讯 0.2.1
contourpy 1.3.1 加密 43.0.3 骑行者 0.11.0
Cython 3.0.12 Databricks软件开发工具包 (databricks-sdk) 0.49.0 dbus-python 1.3.2
debugpy 1.8.11 修饰器 5.1.1 defusedxml 0.7.1
已弃用 1.2.13 distlib 0.3.9 将文档字符串转换为Markdown 0.11
正在执行 0.8.3 各个方面概述 1.1.1 fastapi 0.115.12
fastjsonschema 2.21.1 文件锁 (filelock) 3.18.0 fonttools(字体工具) 4.55.3
fqdn 1.5.1 fsspec 2023.5.0 gitdb (Git数据库) 4.0.11
GitPython 3.1.43 google-api-core 2.20.0 google-auth (谷歌身份验证) 2.40.0
google-cloud-core (Google云核心) 2.4.3 谷歌云存储 (Google Cloud Storage) 3.1.0 google-crc32c 1.7.1
google-resumable-media 2.7.2 googleapis-common-protos 1.65.0 grpcio 1.67.0
grpcio-status 1.67.0 h11 0.14.0 httpcore 1.0.2
httplib2 0.20.4 httpx 0.27.0 idna 3.7
importlib-metadata 6.6.0 importlib_resources 6.4.0 屈折 7.3.1
iniconfig 1.1.1 ipyflow-core 0.0.209 ipykernel 6.29.5
ipython 8.30.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.8.1
isodate 0.6.1 isoduration 20.11.0 jaraco.context 5.3.0
jaraco.functools 4.0.1 jaraco.text 3.12.1 jedi 0.19.2
Jinja2 3.1.5 jmespath 1.0.1 joblib 1.4.2
json5 0.9.25 jsonpointer 3.0.0 jsonschema 4.23.0
JSON模式规范 2023年7月1日 jupyter-events 0.10.0 jupyter-lsp 2.2.0
jupyter_client(Jupyter 客户端) 8.6.3 jupyter_core(Jupyter核心) 5.7.2 Jupyter服务器 2.14.1
Jupyter服务器终端 0.4.4 jupyterlab 4.3.4 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 jupyterlab_server (JupyterLab 服务器) 2.27.3 kiwisolver 1.4.8
launchpadlib 1.11.0 lazr.restfulclient 0.14.6 lazr.uri 1.0.6
markdown-it-py 2.2.0 MarkupSafe 3.0.2 matplotlib 3.10.0
matplotlib-inline 0.1.7 麦卡贝 0.7.0 mdurl 0.1.0
mistune 2.0.4 mlflow-skinny 2.22.0 mmh3 5.1.0
more-itertools 10.3.0 MSAL 1.32.3 msal-extensions 1.3.1
mypy-extensions 1.0.0 nbclient 0.8.0 nbconvert 7.16.4
nbformat 5.10.4 nest-asyncio 1.6.0 nodeenv 1.9.1
笔记本 7.3.2 notebook_shim 0.2.3 numpy 2.1.3
oauthlib 3.2.2 OpenTelemetry API 1.32.1 opentelemetry-sdk(开源遥测软件开发工具包) 1.32.1
OpenTelemetry 语义约定 0.53b1 重写 7.4.0 包装 24.1
熊猫 2.2.3 pandocfilters 1.5.0 帕尔索 0.8.4
pathspec 0.10.3 替罪羊 1.0.1 pexpect 4.8.0
枕头 11.1.0 果仁 25.0.1 platformdirs 3.10.0
plotly 5.24.1 Pluggy (Python库) 1.5.0 prometheus_client 0.21.0
prompt-toolkit 3.0.43 proto-plus 1.26.1 protobuf 5.29.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 19.0.1 pyasn1 0.4.8
pyasn1-modules 0.2.8 pyccolo 0.0.71 Python代码解析器 2.21
pydantic 2.10.6 pydantic_core 2.27.2 pyflakes 3.2.0
Pygments 2.15.1 PyGObject 3.48.2 pyiceberg 0.9.0
PyJWT 2.10.1 pyodbc 5.2.0 pyparsing 3.2.0
pyright 1.1.394 pytest(Python 测试框架) 8.3.5 python-dateutil 2.9.0.post0
python-json-logger 3.2.1 python-lsp-jsonrpc 1.1.2 python-lsp-server 1.12.0
pytoolconfig 1.2.6 pytz 2024.1 PyYAML 6.0.2
pyzmq 26.2.0 引用 0.30.2 请求 2.32.3
rfc3339-validator 0.1.4 rfc3986验证器 0.1.1 13.9.4
绳子 1.12.0 rpds-py 0.22.3 rsa 4.9.1
s3transfer 0.11.3 scikit-learn 1.6.1 scipy 1.15.1
seaborn 0.13.2 Send2Trash 1.8.2 setuptools 74.0.0
6 1.16.0 smmap 5.0.0 sniffio 1.3.0
排序容器 2.4.0 汤过滤器 2.5 sqlparse 0.5.3
ssh-import-id 5.11 堆栈数据 0.2.0 starlette 0.46.2
statsmodels 0.14.4 strictyaml 1.7.3 毅力 9.0.0
完成 0.17.1 threadpoolctl 3.5.0 tinycss2 1.4.0
tokenize_rt 6.1.0 tomli 2.0.1 龙卷风 6.4.2
Traitlets 5.14.3 typeguard 4.3.0 types-python-dateutil 2.9.0.20241206
typing_extensions 4.12.2 tzdata 2024.1 ujson 5.10.0
自动升级 0.1 URI 模板 1.3.0 urllib3 2.3.0
uvicorn 0.34.2 virtualenv 20.29.3 wadllib 1.3.6
wcwidth 0.2.5 webcolors 24.11.1 Web编码 0.5.1
WebSocket客户端 1.8.0 whatthepatch 1.0.2 wheel 0.45.1
widgetsnbextension 3.6.6 裹住 1.17.0 yapf 0.40.2
齐普 3.21.0

已安装的 R 库

R 库从 2025-03-20 的 Posit 包管理器 CRAN 快照中安装

图书馆 版本 图书馆 版本 图书馆 版本
箭头 19.0.1 askpass 1.2.1 assertthat 0.2.1
返移植 1.5.0 基础映像 4.4.2 base64enc 0.1-3
bigD 0.3.0 4.6.0 bit64 4.6.0-1
bitops 1.0-9 blob 1.2.4 靴子 1.3-30
酿制 1.0-10 活力 1.1.5 扫帚 1.0.7
bslib 0.9.0 卡齐姆 1.1.0 callr 3.7.6
光标 7.0-1 cellranger (细胞测序工具) 1.1.0 chron 2.3-62
7.3-22 命令行接口 (CLI) 3.6.4 剪辑器 0.8.0
时钟 0.7.2 群集 2.1.6 codetools 0.2-20
色彩空间 2.1-1 commonmark 1.9.5 编译器 4.4.2
配置 0.3.2 感到矛盾 1.2.0 cpp11 0.5.2
蜡笔 1.5.3 凭据 2.0.2 卷曲 6.2.1
data.table 1.17.0 数据集 4.4.2 DBI 1.2.3
dbplyr 2.5.0 desc 1.4.3 devtools 2.4.5
示意图 1.6.5 diffobj 0.3.5 摘要 0.6.37
下照灯 0.4.4 dplyr 1.1.4 dtplyr 1.3.1
e1071 1.7-16 省略号 0.3.2 评价 1.0.3
fansi 1.0.6 颜色 2.1.2 fastmap 1.2.0
fontawesome 0.5.3 由于缺乏上下文信息,“forcats”很可能是专有名词或品牌名称,因此保留原文不翻译为合理处理。 1.0.0 foreach 1.5.2
外国 0.8-86 锻造 0.2.0 fs 1.6.5
未来 1.34.0 future.apply 1.11.3 漱口 1.5.2
泛型 0.1.3 格尔特 2.1.4 ggplot2 3.5.1
gh 1.4.1 git2r 0.35.0 gitcreds 0.1.2
glmnet 4.1-8 全局变量 0.16.3 胶水 1.8.0
googledrive 2.1.1 googlesheets4 1.1.1 gower 1.0.2
图形 4.4.2 grDevices 4.4.2 网格 4.4.2
gridExtra 2.3 gsubfn 0.7 燃气轮机 0.11.1
gtable 0.3.6 安全帽 1.4.1 避风港 2.5.4
嗨尔 0.11 赫姆斯 1.1.3 HTML工具 0.5.8.1
HTML小插件 1.6.4 httpuv 1.6.15 httr 1.4.7
httr2 1.1.1 ids 1.0.1 ini 0.3.1
ipred 0.9-15 isoband 0.2.7 迭代器 1.0.14
jquerylib 0.1.4 jsonlite 1.9.1 JuicyJuice 0.1.0
KernSmooth 2.23-22 针织器 1.50 标记 0.4.3
稍后 1.4.1 格子 0.22-5 熔岩 1.8.1
生命周期 1.0.4 listenv 0.9.1 lubridate 1.9.4
magrittr 2.0.3 markdown 1.13 质量 7.3-60.0.1
矩阵 1.6-5 记忆化 2.0.1 方法 4.4.2
mgcv 1.9-1 默剧 0.13 迷你用户界面 0.1.1.1
mlflow 2.20.4 ModelMetrics 1.2.2.2 modelr 0.1.11
蒙塞尔 0.5.1 nlme 3.1-164 nnet 7.3-19
numDeriv 2016年8月至1月1日 openssl(开放SSL) 2.3.2 平行 4.4.2
并行地 1.42.0 柱子 1.10.1 pkgbuild (软件包构建工具) 1.4.6
pkgconfig 2.0.3 pkgdown 2.1.1 pkgload 1.4.0
普洛格 0.2.0 普莱尔 1.8.9 赞美 1.0.0
prettyunits 1.2.0 pROC 1.18.5 processx 3.8.6
prodlim 2024.06.25 profvis 0.4.0 进展 1.2.3
progressr 0.15.1 承诺 1.3.2 原型 (proto) 1.0.0
代理 0.4-27 附注 (ps) 1.9.0 purrr 1.0.4
R6 2.6.1 ragg 1.3.3 随机森林 (randomForest) 4.7-1.2
rappdirs 0.3.3 rcmdcheck 1.4.0 RColorBrewer 1.1-3
Rcpp 1.0.14 RcppEigen 0.3.4.0.2 反应能力 0.4.4
reactR 0.6.1 readr(阅读器) 2.1.5 readxl 1.4.5
食谱 1.2.0 重赛 2.0.0 rematch2 2.1.2
遥控器 2.5.0 可复制的示例 2.1.1 reshape2 1.4.4
rlang 1.1.5 rmarkdown(R语言动态文档生成工具) 2.29 RODBC 1.3-26
roxygen2 7.3.2 rpart 4.1.23 rprojroot 2.0.4
Rserve 1.8-15 RSQLite 2.3.9 rstudioapi 0.17.1
R版本 2.1.2 rvest 1.0.4 sass 0.4.9
磅秤 1.3.0 selectr 0.4-2 会话信息 1.2.3
形状 1.4.6.1 光亮 1.10.0 sourcetools 0.1.7-1
sparklyr 1.9.0 SparkR 4.0.0 sparsevctrs 0.3.1
空间 7.3-17 样 条 4.4.2 sqldf 0.4-11
SQUAREM 2021年1月 统计数据 4.4.2 统计数据4 4.4.2
stringi 1.8.4 stringr 1.5.1 生存 3.5-8
自信 5.17.14.1 sys 3.4.3 systemfonts 1.2.1
tcltk 4.4.2 testthat 3.2.3 文本排版 1.0.0
tibble 3.2.1 tidyr 1.3.1 tidyselect 1.2.1
tidyverse(数据分析工具包) 2.0.0 时间变更 0.3.0 时间日期 4041.110
tinytex 0.56 工具 4.4.2 tzdb 0.5.0
URL检查器 1.0.1 usethis 3.1.0 utf8 1.2.4
utils 4.4.2 UUID(通用唯一识别码) 1.2-1 V8 6.0.2
vctrs 0.6.5 viridisLite 0.4.2 vroom 1.6.5
瓦尔多 0.6.1 晶 须 0.4.1 withr 3.0.2
xfun 0.51 xml2 1.3.8 xopen 1.0.1
xtable 1.8-4 yaml 2.3.10 zeallot 0.1.0
压缩包 2.3.2

已安装的 Java 和 Scala 库(Scala 2.13 群集版本)

群组标识符 工件编号 版本
antlr antlr 2.7.7
com.amazonaws Amazon Kinesis 客户端 1.12.0
com.amazonaws AWS Java SDK 自动扩展 1.12.638
com.amazonaws aws-java-sdk-cloudformation 1.12.638
com.amazonaws AWS Java SDK CloudFront 1.12.638
com.amazonaws aws-java-sdk-cloudhsm 1.12.638
com.amazonaws AWS Java SDK 云搜索 1.12.638
com.amazonaws aws-java-sdk-cloudtrail 1.12.638
com.amazonaws aws-java-sdk-cloudwatch 1.12.638
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.12.638
com.amazonaws AWS Java SDK CodeDeploy(AWS Java 软件开发工具包 CodeDeploy) 1.12.638
com.amazonaws aws-java-sdk-cognitoidentity 1.12.638
com.amazonaws aws-java-sdk-cognitosync 1.12.638
com.amazonaws aws-java-sdk-config(AWS Java SDK 配置) 1.12.638
com.amazonaws aws-java-sdk-core (AWS Java软件开发工具包核心) 1.12.638
com.amazonaws aws-java-sdk-datapipeline 1.12.638
com.amazonaws AWS Java SDK Direct Connect(直连) 1.12.638
com.amazonaws aws-java-sdk-directory 1.12.638
com.amazonaws aws-java-sdk-dynamodb 1.12.638
com.amazonaws aws-java-sdk-ec2 1.12.638
com.amazonaws aws-java-sdk-ecs 1.12.638
com.amazonaws aws-java-sdk-efs 1.12.638
com.amazonaws aws-java-sdk-elasticache 1.12.638
com.amazonaws aws-java-sdk-elasticbeanstalk(AWS Java 开发工具包 - Elastic Beanstalk) 1.12.638
com.amazonaws aws-java-sdk-弹性负载均衡 1.12.638
com.amazonaws aws-java-sdk-elastictranscoder(AWS Java SDK弹性转码器) 1.12.638
com.amazonaws aws-java-sdk-emr 1.12.638
com.amazonaws AWS Java SDK Glacier 1.12.638
com.amazonaws aws-java-sdk-glue 1.12.638
com.amazonaws aws-java-sdk-iam 1.12.638
com.amazonaws AWS Java SDK 导入导出 (aws-java-sdk-importexport) 1.12.638
com.amazonaws aws-java-sdk-kinesis 1.12.638
com.amazonaws AWS Java 软件开发工具包 - KMS 1.12.638
com.amazonaws aws-java-sdk-lambda 1.12.638
com.amazonaws aws-java-sdk-logs(AWS Java开发包日志) 1.12.638
com.amazonaws AWS-Java-SDK-机器学习 1.12.638
com.amazonaws aws-java-sdk-opsworks 1.12.638
com.amazonaws aws-java-sdk-rds 1.12.638
com.amazonaws aws-java-sdk-redshift 1.12.638
com.amazonaws aws-java-sdk-route53 1.12.638
com.amazonaws aws-java-sdk-s3 1.12.638
com.amazonaws aws-java-sdk-ses 1.12.638
com.amazonaws aws-java-sdk-simpledb 1.12.638
com.amazonaws aws-java-sdk-simpleworkflow 1.12.638
com.amazonaws aws-java-sdk-sns 1.12.638
com.amazonaws aws-java-sdk-sqs 1.12.638
com.amazonaws aws-java-sdk-ssm 1.12.638
com.amazonaws AWS Java SDK 存储网关 1.12.638
com.amazonaws aws-java-sdk-sts 1.12.638
com.amazonaws AWS Java SDK支持 1.12.638
com.amazonaws AWS-Java-SDK-SWF-库 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.12.638
com.amazonaws jmespath-java 1.12.638
com.clearspring.analytics 数据流 2.9.8
com.databricks Rserve 1.8-3
com.databricks databricks-sdk-java 0.27.0
com.databricks jets3t 0.7.1-0
com.databricks.scalapb scalapb-runtime_2.13 0.4.15-11
com.esotericsoftware kryo-shaded 4.0.3
com.esotericsoftware minlog 1.3.0
com.fasterxml 同学 1.5.1
com.fasterxml.jackson.core Jackson注解 2.18.2
com.fasterxml.jackson.core jackson-core 2.18.2
com.fasterxml.jackson.core jackson-databind 2.18.2
com.fasterxml.jackson.dataformat jackson-dataformat-cbor 2.18.2
com.fasterxml.jackson.dataformat jackson-dataformat-yaml 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-joda(杰克逊数据类型-Joda) 2.18.2
com.fasterxml.jackson.datatype jackson-datatype-jsr310 2.18.2
com.fasterxml.jackson.module jackson-module-paranamer 2.18.2
com.fasterxml.jackson.module jackson-module-scala_2.13 2.18.2
com.github.ben-manes.caffeine 咖啡因 2.9.3
com.github.blemale scaffeine_2.13 4.1.0
com.github.fommil jniloader 1.1
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java 1.1-原住民
com.github.fommil.netlib 原生系统-Java 1.1
com.github.fommil.netlib 原生系统-Java 1.1-原住民
com.github.fommil.netlib netlib-native_ref-linux-x86_64 1.1-原住民
com.github.fommil.netlib netlib-本地系统-linux-x86_64 1.1-原住民
com.github.luben zstd-jni 1.5.6-10
com.github.virtuald curvesapi 1.08
com.github.wendykierp JTransforms 3.1
com.google.api.grpc proto-google-common-protos 2.5.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.11.0
com.google.crypto.tink 丁克 1.16.0
com.google.errorprone 易出错的注释 2.36.0
com.google.flatbuffers flatbuffers-java 24.3.25
com.google.guava 访问失败 1.0.2
com.google.guava 番石榴 33.4.0-jre
com.google.guava 可以聆听的未来 9999.0-为了避免与 Guava 冲突而为空
com.google.j2objc j2objc-annotations 3.0.0
com.google.protobuf protobuf-java 3.25.5
com.google.protobuf protobuf-java-util 3.25.5
com.helger 探查器 1.1.1
com.ibm.icu icu4j 75.1
com.jcraft jsch 0.1.55
com.lihaoyi sourcecode_2.13 0.1.9
com.microsoft.azure azure-data-lake-store-sdk 2.3.10
com.microsoft.sqlserver mssql-jdbc 12.8.0.jre11
com.microsoft.sqlserver mssql-jdbc 12.8.0.jre8
com.ning compress-lzf 1.1.2
com.sun.mail javax.mail 1.5.2
com.sun.xml.bind jaxb-core 2.2.11
com.sun.xml.bind jaxb-impl 2.2.11
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses 镜头_2.13 0.4.13
com.twitter chill-java 0.10.0
com.twitter 冷静_2.13 0.10.0
com.twitter util-app_2.13 19.8.1
com.twitter util-core_2.13 19.8.1
com.twitter util-function_2.13 19.8.1
com.twitter util-jvm_2.13 19.8.1
com.twitter util-lint_2.13 19.8.1
com.twitter util-registry_2.13 19.8.1
com.twitter util-stats_2.13 19.8.1
com.typesafe 配置 1.4.3
com.typesafe.scala-logging scala-logging_2.13 3.9.2
com.uber h3 3.7.3
com.univocity univocity-parsers 2.9.1
com.zaxxer HikariCP 4.0.3
com.zaxxer SparseBitSet 1.3
commons-cli commons-cli 1.9.0
commons-codec(公共编解码器) commons-codec(公共编解码器) 1.17.2
commons-collections (通用集合库) commons-collections (通用集合库) 3.2.2
commons-dbcp commons-dbcp 1.4
commons-fileupload commons-fileupload 1.5
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.18.0
commons-lang commons-lang 2.6
commons-logging(日志库) commons-logging(日志库) 1.1.3
commons-pool commons-pool 1.5.4
dev.ludovic.netlib arpack 3.0.3
dev.ludovic.netlib blas 3.0.3
dev.ludovic.netlib LAPACK 3.0.3
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift 空气压缩机 2.0.2
io.delta delta-sharing-client_2.13 1.3.0
io.dropwizard.metrics 指标注释 4.2.30
io.dropwizard.metrics metrics-core 4.2.30
io.dropwizard.metrics metrics-graphite 4.2.30
io.dropwizard.metrics 指标-健康检查 4.2.30
io.dropwizard.metrics metrics-jetty9 4.2.30
io.dropwizard.metrics metrics-jmx 4.2.30
io.dropwizard.metrics metrics-json 4.2.30
io.dropwizard.metrics metrics-jvm 4.2.30
io.dropwizard.metrics 指标-Servlets 4.2.30
io.github.java-diff-utils java-diff-utils 4.15
io.netty netty-all 4.1.118.Final
io.netty netty-buffer(Netty缓存) 4.1.118.Final
io.netty netty-codec 4.1.118.Final
io.netty Netty HTTP 编解码器 4.1.118.Final
io.netty netty-codec-http2 4.1.118.Final
io.netty netty-codec-socks 4.1.118.Final
io.netty Netty-Common(网络通用组件) 4.1.118.Final
io.netty netty-handler 4.1.118.Final
io.netty netty-handler-proxy(Netty 处理器代理) 4.1.118.Final
io.netty netty-resolver (Netty 解析器) 4.1.118.Final
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-linux-aarch_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-linux-x86_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-osx-aarch_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-osx-x86_64
io.netty netty-tcnative-boringssl-static(Netty高性能计算库) 2.0.70.Final-db-r0-windows-x86_64
io.netty Netty TcNative 类 2.0.70.Final
io.netty netty-transport 4.1.118.Final
io.netty netty-transport-classes-epoll 4.1.118.Final
io.netty netty-transport-classes-kqueue 4.1.118.Final
io.netty netty-transport-native-epoll 4.1.118.Final
io.netty netty-transport-native-epoll 4.1.118.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.118.Final-linux-riscv64
io.netty netty-transport-native-epoll 4.1.118.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.118.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.118.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.118.Final
io.prometheus simpleclient 0.16.1-databricks
io.prometheus 简单客户端通用 0.16.1-databricks
io.prometheus simpleclient_dropwizard 0.16.1-databricks
io.prometheus simpleclient_pushgateway 0.16.1-databricks
io.prometheus simpleclient_servlet 0.16.1-databricks
io.prometheus simpleclient_服务_通用 0.16.1-databricks
io.prometheus simpleclient_tracer_common 0.16.1-databricks
io.prometheus simpleclient_tracer_otel 0.16.1-databricks
io.prometheus simpleclient跟踪器_otel代理 0.16.1-databricks
io.prometheus.jmx 收集器 0.18.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation 激活 1.1.1
javax.annotation javax.annotation-api (Java中的注解API) 1.3.2
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.transaction 交易接口 (transaction-api) 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.13.0
net.java.dev.jna jna 5.8.0
net.razorvine 泡菜 1.5
net.sf.jpam 杰潘 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake snowflake-ingest-sdk 0.9.6
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc(远程调用协议库) 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.13.1
org.antlr stringtemplate (字符串模板) 3.2.1
org.apache.ant 蚂蚁 1.10.11
org.apache.ant ant-jsch 1.10.11
org.apache.ant ant-launcher 1.10.11
org.apache.arrow 箭头格式 18.2.0
org.apache.arrow 箭头内存核心 18.2.0
org.apache.arrow 箭头内存网状系统 18.2.0
org.apache.arrow 箭头内存-Netty-缓冲区-补丁 18.2.0
org.apache.arrow 箭头向量 18.2.0
org.apache.avro avro 1.12.0
org.apache.avro avro-ipc 1.12.0
org.apache.avro avro-mapred 1.12.0
org.apache.commons commons-collections4(通用集合库) 4.4
org.apache.commons commons-compress 1.27.1
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.17.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-text 1.13.0
org.apache.curator 策展人-客户端 5.7.1
org.apache.curator Curator框架 5.7.1
org.apache.curator 策展人食谱 5.7.1
org.apache.datasketches datasketches-java 6.1.1
org.apache.datasketches 数据素描-内存 3.0.2
org.apache.derby 德比 10.14.2.0
org.apache.hadoop Hadoop 客户端运行时 3.4.1
org.apache.hive hive-beeline 2.3.10
org.apache.hive hive-cli 2.3.10
org.apache.hive hive-jdbc 2.3.10
org.apache.hive hive-llap-client 2.3.10
org.apache.hive hive-llap-common 2.3.10
org.apache.hive hive-serde 2.3.10
org.apache.hive 海蜂垫片 2.3.10
org.apache.hive hive-storage-api 2.8.1
org.apache.hive.shims hive-shims-0.23 2.3.10
org.apache.hive.shims hive-shims-common 2.3.10
org.apache.hive.shims hive-shims-scheduler 2.3.10
org.apache.httpcomponents httpclient 4.5.14
org.apache.httpcomponents httpcore 4.4.16
org.apache.ivy 常春藤 2.5.3
org.apache.logging.log4j log4j-1.2-api 2.24.3
org.apache.logging.log4j log4j-api 2.24.3
org.apache.logging.log4j log4j-core 2.24.3
org.apache.logging.log4j log4j-layout-template-json 2.24.3
org.apache.logging.log4j log4j-slf4j2-impl 2.24.3
\ org.apache.orc orc-core 2.1.1-shaded-protobuf
\ org.apache.orc orc格式 1.1.0-shaded-protobuf
\ org.apache.orc orc-mapreduce 2.1.1-shaded-protobuf
\ org.apache.orc 兽人垫片 2.1.1
org.apache.poi poi 5.4.1
org.apache.poi poi-ooxml 5.4.1
org.apache.poi poi-ooxml-full 5.4.1
org.apache.poi poi-ooxml-lite 5.4.1
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.16.0
org.apache.ws.xmlschema xmlschema-core 2.3.1
org.apache.xbean xbean-asm9-shaded 4.26
org.apache.xmlbeans xmlbeans 5.3.0
org.apache.yetus 观众注释 (audience-annotations) 0.13.0
org.apache.zookeeper 动物园管理员 3.9.3
org.apache.zookeeper zookeeper-jute 3.9.3
org.checkerframework checker-qual 3.43.0
org.codehaus.janino commons-compiler(通用编译器) 3.0.16
org.codehaus.janino 雅尼诺 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.53.v20231009
org.eclipse.jetty jetty-continuation 9.4.53.v20231009
org.eclipse.jetty jetty-http 9.4.53.v20231009
org.eclipse.jetty jetty-io 9.4.53.v20231009
org.eclipse.jetty jetty-jndi 9.4.53.v20231009
org.eclipse.jetty jetty-plus 9.4.53.v20231009
org.eclipse.jetty jetty-proxy 9.4.53.v20231009
org.eclipse.jetty 码头安全 9.4.53.v20231009
org.eclipse.jetty jetty-server(Jetty服务器) 9.4.53.v20231009
org.eclipse.jetty jetty-servlet 9.4.53.v20231009
org.eclipse.jetty jetty-servlets 9.4.53.v20231009
org.eclipse.jetty jetty-util 9.4.53.v20231009
org.eclipse.jetty jetty-util-ajax 9.4.53.v20231009
org.eclipse.jetty Jetty 网页应用 9.4.53.v20231009
org.eclipse.jetty jetty-xml 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket API 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket客户端 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket-通用 9.4.53.v20231009
org.eclipse.jetty.websocket WebSocket服务器 9.4.53.v20231009
org.eclipse.jetty.websocket websocket-servlet 9.4.53.v20231009
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-定位器 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator (OSGi 资源定位器) 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers jersey-container-servlet 2.41
org.glassfish.jersey.containers jersey-container-servlet-core 2.41
org.glassfish.jersey.core jersey-client 2.41
org.glassfish.jersey.core jersey-common 2.41
org.glassfish.jersey.core Jersey框架服务器 2.41
org.glassfish.jersey.inject jersey-hk2 2.41
org.hibernate.validator 休眠验证器 6.2.5.Final
org.ini4j ini4j 0.5.4
org.javassist javassist 3.29.2-GA
org.jboss.logging jboss-logging 3.4.1.Final
org.jdbi jdbi 2.63.1
org.jetbrains 注释 17.0.0
org.jline jline 3.27.1-jdk8
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.13 4.0.7
org.json4s json4s-core_2.13 4.0.7
org.json4s json4s-jackson-core_2.13 4.0.7
org.json4s json4s-jackson_2.13 4.0.7
org.json4s json4s-scalap_2.13 4.0.7
org.lz4 lz4-java 1.8.0-databricks-1
org.mlflow mlflow-spark_2.13 2.9.1
org.objenesis objenesis 3.3
org.postgresql postgresql 42.6.1
org.roaringbitmap RoaringBitmap 1.2.1
.rocksdb rocksdbjni 9.8.4
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.13 2.13.16
org.scala-lang scala-library_2.13 2.13.16
org.scala-lang scala-reflect_2.13 2.13.16
org.scala-lang.modules scala-collection-compat_2.13 2.11.0
org.scala-lang.modules scala-java8-compat_2.13 0.9.1
org.scala-lang.modules scala-parallel-collections_2.13 1.2.0
org.scala-lang.modules scala-parser-combinators_2.13 2.4.0
org.scala-lang.modules scala-xml_2.13 2.3.0
org.scala-sbt 测试界面 1.0
org.scalacheck scalacheck_2.13 1.18.0
org.scalactic scalactic_2.13 3.2.19
org.scalanlp breeze-macros_2.13 2.1.0
org.scalanlp breeze_2.13 2.1.0
org.scalatest 与Scalatest兼容 3.2.19
org.scalatest scalatest-core_2.13 3.2.19
org.scalatest scalatest-diagrams_2.13 3.2.19
org.scalatest scalatest-featurespec_2.13 3.2.19
org.scalatest scalatest-flatspec_2.13 3.2.19
org.scalatest scalatest-freespec_2.13 3.2.19
org.scalatest scalatest-funspec_2.13 3.2.19
org.scalatest scalatest-funsuite_2.13 3.2.19
org.scalatest scalatest-matchers-core_2.13 3.2.19
org.scalatest scalatest-mustmatchers_2.13 3.2.19
org.scalatest scalatest-propspec_2.13 3.2.19
org.scalatest scalatest-refspec_2.13 3.2.19
org.scalatest scalatest-shouldmatchers_2.13 3.2.19
org.scalatest scalatest-wordspec_2.13 3.2.19
org.scalatest scalatest_2.13 3.2.19
org.slf4j jcl-over-slf4j 2.0.16
org.slf4j jul-to-slf4j 2.0.16
org.slf4j slf4j-api 2.0.16
org.slf4j slf4j-simple 1.7.25
org.threeten threeten-extra 1.8.0
org.tukaani xz 1.10
org.typelevel algebra_2.13 2.8.0
org.typelevel cats-kernel_2.13 2.8.0
org.typelevel spire-macros_2.13 0.18.0
org.typelevel spire-平台_2.13 0.18.0
org.typelevel spire-util_2.13 0.18.0
org.typelevel 尖塔_2.13 0.18.0
org.wildfly.openssl WildFly-OpenSSL 1.1.3.Final
org.xerial sqlite-jdbc 3.42.0.0
org.xerial.snappy snappy-java 1.1.10.3
org.yaml snakeyaml 2.0
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.cryptools AmazonCorrettoCryptoProvider 2.4.1-linux-x86_64
斯塔克斯 stax-api 1.0.1

小窍门

若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。