Databricks Runtime 14.0 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

以下发行说明提供了由 Apache Spark 3.5.0 提供支持的 Databricks Runtime 14.0 的相关信息。

Databricks 于 2023 年 9 月发布了这些映像。

新增功能和改进

行跟踪已正式发布

Delta Lake 的行跟踪现已正式发布。 请参阅对 Delta 表使用行跟踪

更新的预测性 I/O 已正式发布

更新的预测性 I/O 现已正式发布。 请参阅什么是预测性 I/O?

删除向量已正式发布

删除向量现已正式发布。 请参阅什么是删除向量?

Spark 3.5.0 已正式发布

Apache Spark 3.5.0 现已正式发布。 请参阅 Spark 版本 3.5.0

Python 用户定义的表函数公共预览版

通过用户定义的表函数 (UDTF),可注册返回表而不是标量值的函数。 请参阅 Python 用户定义表函数 (UDTF)

行级别并发公共预览版

行级别并发可检测行级别的更改,并自动解决并发写入中相互竞争的更改(这些更改会更新或删除相同数据文件中的不同行),从而减少并发写入操作之间的冲突。 请参阅行级并发的写入冲突

默认当前工作目录已更改

本地执行的代码的默认当前工作目录 (CWD) 现在是包含正在运行的笔记本或脚本的目录。 这包括未使用 Spark 的代码,例如 %sh 和 Python 或 R 代码。 请参阅什么是默认的当前工作目录?

sparklyr 的已知问题

已安装的 sparklyr 包版本(版本 1.8.1)与 Databricks Runtime 14.0 不兼容。 若要使用 sparklyr,请安装 1.8.3 版或更高版本。

共享群集体系结构中的 Spark Connect 简介

使用 Databricks Runtime 14.0 及更高版本时,共享群集现在会默认将 Spark Connect 与 Python REPL 中的 Spark Driver 配合使用。 无法再从用户代码访问内部 Spark API。

Spark Connect 现在与 REPL 中的 Spark Driver 交互,替代旧版 REPL 集成。

列出可用的 Spark 版本 API 更新

通过设置 runtime_engine = PHOTON 启用 Photon,并通过选择 graviton 实例类型启用 aarch64。 Azure Databricks 可设置正确的 Databricks Runtime 版本。 以前,Spark 版本 API 会为每个版本返回特定于实现的运行时。 请参阅 REST API 参考中的 GET /api/2.0/clusters/spark-versions

中断性变更

在 Databricks Runtime 14.0 及更高版本中,具有共享访问模式的群集使用 Spark Connect 进行客户端-服务器通信。 其中包含以下更改。

有关共享访问模式限制的详细信息,请参阅 Unity Catalog 的计算访问模式限制

具有共享访问模式的群集上的 Python

  • sqlContext 不可用。 Azure Databricks 建议对 SparkSession 实例使用 spark 变量。
  • Spark 上下文 (sc) 在笔记本中不再可用,或者在具有共享访问模式的群集上使用 Databricks Connect 时不再可用。 以下sc函数不再可用:
    • emptyRDD, range, init_batched_serializer, parallelize, pickleFile, textFile, wholeTextFiles, binaryFiles, binaryRecords, sequenceFile, newAPIHadoopFile, newAPIHadoopRDD, hadoopFile, hadoopRDD, union, runJob, setSystemProperty, uiWebUrl, stop, setJobGroup, setLocalProperty, getConf
  • 不再支持数据集信息功能。
  • 查询 Apache Spark 时,不再依赖于 JVM,因此,不再支持与 JVM 相关的内部 API,例如 _jsc_jconf_jvm_jsparkSession_jreader_jc_jseq_jdf_jmap_jcols
  • 使用 spark.conf 访问配置值时,仅动态运行时配置值可用。
  • 共享群集尚不支持增量实时表分析命令。

具有共享访问模式的群集上的 Delta

  • 在 Python 中,查询 Apache Spark 时不再依赖于 JVM。 不再支持与 JVM 相关的内部 API,例如 DeltaTable._jdtDeltaTableBuilder._jbuilderDeltaMergeBuilder._jbuilderDeltaOptimizeBuilder._jbuilder

具有共享访问模式的群集上的 SQL

  • 不再支持DBCACHEDBUNCACHE命令。
  • 不再支持cache table db as show databases等罕见用例。

库升级

  • 升级了 Python 库:
    • asttokens 已从 2.2.1 升级到 2.0.5
    • attrs 已从 21.4.0 升级到 22.1.0
    • botocore 已从 1.27.28 升级到 1.27.96
    • certifi 已从 2022.9.14 升级到 2022.12.7
    • cryptography 已从 37.0.1 升级到 39.0.1
    • debugpy 已从 1.6.0 升级到 1.6.7
    • docstring-to-markdown 已从 0.12 升级到 0.11
    • executing 已从 1.2.0 升级到 0.8.3
    • facets-overview 已从 1.0.3 升级到 1.1.1
    • googleapis-common-protos 已从 1.56.4 升级到 1.60.0
    • grpcio 已从 1.48.1 升级到 1.48.2
    • idna 已从 3.3 升级到 3.4
    • ipykernel 已从 6.17.1 升级到 6.25.0
    • ipython 已从 8.10.0 升级到 8.14.0
    • Jinja2 已从 2.11.3 升级到 3.1.2
    • jsonschema 已从 4.16.0 升级到 4.17.3
    • jupyter_core 已从 4.11.2 升级到 5.2.0
    • kiwisolver 已从 1.4.2 升级到 1.4.4
    • MarkupSafe 已从 2.0.1 升级到 2.1.1
    • matplotlib 已从 3.5.2 升级到 3.7.0
    • nbconvert 已从 6.4.4 升级到 6.5.4
    • nbformat 已从 5.5.0 升级到 5.7.0
    • nest-asyncio 已从 1.5.5 升级到 1.5.6
    • notebook 已从 6.4.12 升级到 6.5.2
    • numpy 已从 1.21.5 升级到 1.23.5
    • packaging 已从 21.3 升级到 22.0
    • pandas 已从 1.4.4 升级到 1.5.3
    • pathspec 已从 0.9.0 升级到 0.10.3
    • patsy 已从 0.5.2 升级到 0.5.3
    • Pillow 已从 9.2.0 升级到 9.4.0
    • pip 已从 22.2.2 升级到 22.3.1
    • protobuf 已从 3.19.4 升级到 4.24.0
    • pytoolconfig 已从 1.2.2 升级到 1.2.5
    • pytz 已从 2022.1 升级到 2022.7
    • s3transfer 已从 0.6.0 升级到 0.6.1
    • seaborn 已从 0.11.2 升级到 0.12.2
    • setuptools 已从 63.4.1 升级到 65.6.3
    • soupsieve 已从 2.3.1 升级到 2.3.2.post1
    • stack-data 已从 0.6.2 升级到 0.2.0
    • statsmodels 已从 0.13.2 升级到 0.13.5
    • terminado 已从 0.13.1 升级到 0.17.1
    • traitlets 已从 5.1.1 升级到 5.7.1
    • typing_extensions 已从 4.3.0 升级到 4.4.0
    • urllib3 已从 1.26.11 升级到 1.26.14
    • virtualenv 已从 20.16.3 升级到 20.16.7
    • wheel 已从 0.37.1 升级到 0.38.4
  • 升级了 R 库:
    • arrow 已从 10.0.1 升级到 12.0.1
    • base 已从 4.2.2 升级到 4.3.1
    • blob 已从 1.2.3 升级到 1.2.4
    • broom 已从 1.0.3 升级到 1.0.5
    • bslib 已从 0.4.2 升级到 0.5.0
    • cachem 已从 1.0.6 升级到 1.0.8
    • caret 已从 6.0-93 升级到 6.0-94
    • chron 已从 2.3-59 升级到 2.3-61
    • class 已从 7.3-21 升级到 7.3-22
    • cli 已从 3.6.0 升级到 3.6.1
    • clock 已从 0.6.1 升级到 0.7.0
    • commonmark 已从 1.8.1 升级到 1.9.0
    • compiler 已从 4.2.2 升级到 4.3.1
    • cpp11 已从 0.4.3 升级到 0.4.4
    • curl 已从 5.0.0 升级到 5.0.1
    • data.table 已从 1.14.6 升级到 1.14.8
    • datasets 已从 4.2.2 升级到 4.3.1
    • dbplyr 已从 2.3.0 升级到 2.3.3
    • digest 已从 0.6.31 升级到 0.6.33
    • downlit 已从 0.4.2 升级到 0.4.3
    • dplyr 已从 1.1.0 升级到 1.1.2
    • dtplyr 已从 1.2.2 升级到 1.3.1
    • evaluate 已从 0.20 升级到 0.21
    • fastmap 已从 1.1.0 升级到 1.1.1
    • fontawesome 已从 0.5.0 升级到 0.5.1
    • fs 已从 1.6.1 升级到 1.6.2
    • future 已从 1.31.0 升级到 1.33.0
    • future.apply 已从 1.10.0 升级到 1.11.0
    • gargle 已从 1.3.0 升级到 1.5.1
    • ggplot2 已从 3.4.0 升级到 3.4.2
    • gh 已从 1.3.1 升级到 1.4.0
    • glmnet 已从 4.1-6 升级到 4.1-7
    • googledrive 已从 2.0.0 升级到 2.1.1
    • googlesheets4 已从 1.0.1 升级到 1.1.1
    • graphics 已从 4.2.2 升级到 4.3.1
    • grDevices 已从 4.2.2 升级到 4.3.1
    • grid 已从 4.2.2 升级到 4.3.1
    • gtable 已从 0.3.1 升级到 0.3.3
    • hardhat 已从 1.2.0 升级到 1.3.0
    • haven 已从 2.5.1 升级到 2.5.3
    • hms 已从 1.1.2 升级到 1.1.3
    • htmltools 已从 0.5.4 升级到 0.5.5
    • htmlwidgets 已从 1.6.1 升级到 1.6.2
    • httpuv 已从 1.6.8 升级到 1.6.11
    • httr 已从 1.4.4 升级到 1.4.6
    • ipred 已从 0.9-13 升级到 0.9-14
    • jsonlite 已从 1.8.4 升级到 1.8.7
    • KernSmooth 已从 2.23-20 升级到 2.23-21
    • knitr 已从 1.42 升级到 1.43
    • later 已从 1.3.0 升级到 1.3.1
    • lattice 已从 0.20-45 升级到 0.21-8
    • lava 已从 1.7.1 升级到 1.7.2.1
    • lubridate 已从 1.9.1 升级到 1.9.2
    • markdown 已从 1.5 升级到 1.7
    • MASS 已从 7.3-58.2 升级到 7.3-60
    • Matrix 已从 1.5-1 升级到 1.5-4.1
    • methods 已从 4.2.2 升级到 4.3.1
    • mgcv 已从 1.8-41 升级到 1.8-42
    • modelr 已从 0.1.10 升级到 0.1.11
    • nnet 已从 7.3-18 升级到 7.3-19
    • openssl 已从 2.0.5 升级到 2.0.6
    • parallel 已从 4.2.2 升级到 4.3.1
    • parallelly 已从 1.34.0 升级到 1.36.0
    • pillar 已从 1.8.1 升级到 1.9.0
    • pkgbuild 已从 1.4.0 升级到 1.4.2
    • pkgload 已从 1.3.2 升级到 1.3.2.1
    • pROC 已从 1.18.0 升级到 1.18.4
    • processx 已从 3.8.0 升级到 3.8.2
    • prodlim 已从 2019.11.13 升级到 2023.03.31
    • profvis 已从 0.3.7 升级到 0.3.8
    • ps 已从 1.7.2 升级到 1.7.5
    • Rcpp 已从 1.0.10 升级到 1.0.11
    • readr 已从 2.1.3 升级到 2.1.4
    • readxl 已从 1.4.2 升级到 1.4.3
    • recipes 已从 1.0.4 升级到 1.0.6
    • rlang 已从 1.0.6 升级到 1.1.1
    • rmarkdown 已从 2.20 升级到 2.23
    • Rserve 已从 1.8-12 升级到 1.8-11
    • RSQLite 已从 2.2.20 升级到 2.3.1
    • rstudioapi 已从 0.14 升级到 0.15.0
    • sass 已从 0.4.5 升级到 0.4.6
    • shiny 已从 1.7.4 升级到 1.7.4.1
    • sparklyr 已从 1.7.9 升级到 1.8.1
    • SparkR 已从 3.4.1 升级到 3.5.0
    • splines 已从 4.2.2 升级到 4.3.1
    • stats 已从 4.2.2 升级到 4.3.1
    • stats4 已从 4.2.2 升级到 4.3.1
    • survival 已从 3.5-3 升级到 3.5-5
    • sys 已从 3.4.1 升级到 3.4.2
    • tcltk 已从 4.2.2 升级到 4.3.1
    • testthat 已从 3.1.6 升级到 3.1.10
    • tibble 已从 3.1.8 升级到 3.2.1
    • tidyverse 已从 1.3.2 升级到 2.0.0
    • tinytex 已从 0.44 升级到 0.45
    • tools 已从 4.2.2 升级到 4.3.1
    • tzdb 已从 0.3.0 升级到 0.4.0
    • usethis 已从 2.1.6 升级到 2.2.2
    • utils 已从 4.2.2 升级到 4.3.1
    • vctrs 已从 0.5.2 升级到 0.6.3
    • viridisLite 已从 0.4.1 升级到 0.4.2
    • vroom 已从 1.6.1 升级到 1.6.3
    • waldo 已从 0.4.0 升级到 0.5.1
    • xfun 已从 0.37 升级到 0.39
    • xml2 已从 1.3.3 升级到 1.3.5
    • zip 已从 2.2.2 升级到 2.3.0
  • 升级了 Java 库:
    • com.fasterxml.jackson.core.jackson-annotations 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.core.jackson-core 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.core.jackson-databind 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.dataformat.jackson-dataformat-cbor 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.datatype.jackson-datatype-joda 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.datatype.jackson-datatype-jsr310 已从 2.13.4 升级到 2.15.1
    • com.fasterxml.jackson.module.jackson-module-paranamer 已从 2.14.2 升级到 2.15.2
    • com.fasterxml.jackson.module.jackson-module-scala_2.12 已从 2.14.2 升级到 2.15.2
    • com.github.luben.zstd-jni 已从 1.5.2-5 升级到 1.5.5-4
    • com.google.code.gson.gson 已从 2.8.9 升级到 2.10.1
    • com.google.crypto.tink.tink 已从 1.7.0 升级到 1.9.0
    • commons-codec.commons-codec 已从 1.15 升级到 1.16.0
    • commons-io.commons-io 已从 2.11.0 升级到 2.13.0
    • io.airlift.aircompressor 已从 0.21 升级到 0.24
    • io.dropwizard.metrics.metrics-core 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-graphite 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-healthchecks 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-jetty9 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-jmx 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-json 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-jvm 已从 4.2.10 升级到 4.2.19
    • io.dropwizard.metrics.metrics-servlets 已从 4.2.10 升级到 4.2.19
    • io.netty.netty-all 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-buffer 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-codec 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-codec-http 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-codec-http2 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-codec-socks 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-common 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-handler 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-handler-proxy 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-resolver 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-transport 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-transport-classes-epoll 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-transport-classes-kqueue 已从 4.1.87.Final 升级到 4.1.93.Final
    • io.netty.netty-transport-native-epoll 已从 4.1.87.Final-linux-x86_64 升级到 4.1.93.Final-linux-x86_64
    • io.netty.netty-transport-native-kqueue 已从 4.1.87.Final-osx-x86_64 升级到 4.1.93.Final-osx-x86_64
    • io.netty.netty-transport-native-unix-common 已从 4.1.87.Final 升级到 4.1.93.Final
    • org.apache.arrow.arrow-format 已从 11.0.0 升级到 12.0.1
    • org.apache.arrow.arrow-memory-core 已从 11.0.0 升级到 12.0.1
    • org.apache.arrow.arrow-memory-netty 已从 11.0.0 升级到 12.0.1
    • org.apache.arrow.arrow-vector 已从 11.0.0 升级到 12.0.1
    • org.apache.avro.avro 已从 1.11.1 升级到 1.11.2
    • org.apache.avro.avro-ipc 已从 1.11.1 升级到 1.11.2
    • org.apache.avro.avro-mapred 已从 1.11.1 升级到 1.11.2
    • org.apache.commons.commons-compress 已从 1.21 升级到 1.23.0
    • org.apache.hadoop.hadoop-client-runtime 已从 3.3.4 升级到 3.3.6
    • org.apache.logging.log4j.log4j-1.2-api 已从 2.19.0 升级到 2.20.0
    • org.apache.logging.log4j.log4j-api 已从 2.19.0 升级到 2.20.0
    • org.apache.logging.log4j.log4j-core 已从 2.19.0 升级到 2.20.0
    • org.apache.logging.log4j.log4j-slf4j2-impl 已从 2.19.0 升级到 2.20.0
    • org.apache.orc.orc-core 升级到 1.8.4-shaded-protobuf 升级到 1.9.0-shaded-protobuf
    • org.apache.orc.orc-mapreduce 已从 1.8.4-shaded-protobuf 升级到 1.9.0-shaded-protobuf
    • org.apache.orc.orc-shims 已从 1.8.4 升级到 1.9.0
    • org.apache.xbean.xbean-asm9-shaded 已从 4.22 升级到 4.23
    • org.checkerframework.checker-qual 已从 3.19.0 升级到 3.31.0
    • org.glassfish.jersey.containers.jersey-container-servlet 已从 2.36 升级到 2.40
    • org.glassfish.jersey.containers.jersey-container-servlet-core 已从 2.36 升级到 2.40
    • org.glassfish.jersey.core.jersey-client 已从 2.36 升级到 2.40
    • org.glassfish.jersey.core.jersey-common 已从 2.36 升级到 2.40
    • org.glassfish.jersey.core.jersey-server 已从 2.36 升级到 2.40
    • org.glassfish.jersey.inject.jersey-hk2 已从 2.36 升级到 2.40
    • org.javassist.javassist 已从 3.25.0-GA 升级到 3.29.2-GA
    • org.mariadb.jdbc.mariadb-java-client 已从 2.7.4 升级到 2.7.9
    • org.postgresql.postgresql 已从 42.3.8 升级到 42.6.0
    • org.roaringbitmap.RoaringBitmap 已从 0.9.39 升级到 0.9.45
    • org.roaringbitmap.shims 已从 0.9.39 升级到 0.9.45
    • org.rocksdb.rocksdbjni 已从 7.8.3 升级到 8.3.2
    • org.scala-lang.modules.scala-collection-compat_2.12 已从 2.4.3 升级到 2.9.0
    • org.slf4j.jcl-over-slf4j 已从 2.0.6 升级到 2.0.7
    • org.slf4j.jul-to-slf4j 已从 2.0.6 升级到 2.0.7
    • org.slf4j.slf4j-api 已从 2.0.6 升级到 2.0.7
    • org.xerial.snappy.snappy-java 已从 1.1.10.1 升级到 1.1.10.3
    • org.yaml.snakeyaml 已从 1.33 升级到 2.0

Apache Spark

Databricks Runtime 14.0。 此版本包括 Databricks Runtime 13.3 LTS 中包含的所有 Spark 修复和改进,以及对 Spark 进行的以下其他 bug 修复和改进:

  • 现在可以将群集环境变量 SNOWFLAKE_SPARK_CONNECTOR_VERSION=2.12 设置为使用 Spark-snowflake 连接器 v2.12.0。
  • [SPARK-44877] [DBRRM-482][SC-140437][CONNECT][PYTHON] 支持适用于 Spark Connect 的 python protobuf 函数
  • [SPARK-44882] [DBRRM-463][SC-140430][PYTHON][CONNECT] 从 PySpark 中移除函数 uuid/random/chr
  • [SPARK-44740] [DBRRM-462][SC-140320][CONNECT][FOLLOW] 修复工件的元数据值
  • [SPARK-44822] [DBRRM-464][PYTHON][SQL] 使 Python UDTF 默认为非确定性
  • [SPARK-44836] [DBRRM-468][SC-140228][PYTHON] 重构 Arrow Python UDTF
  • [SPARK-44738] [DBRRM-462][SC-139347][PYTHON][CONNECT] 向调用添加缺少的客户端元数据
  • [SPARK-44722] [DBRRM-462][SC-139306][CONNECT] ExecutePlanResponseReattachableIterator._call_iter: AttributeError: NoneType 对象没有 message 属性
  • [SPARK-44625] [DBRRM-396][SC-139535][CONNECT] SparkConnectExecutionManager 用于跟踪所有执行
  • [SPARK-44663] [SC-139020][DBRRM-420][PYTHON] 默认禁用 Python UDTF 的 arrow 优化
  • [SPARK-44709] [DBRRM-396][SC-139250][CONNECT] 在新线程中的可重新附加执行中运行 ExecuteGrpcResponseSender 以修复流控制
  • [SPARK-44656] [DBRRM-396][SC-138924][CONNECT] 使所有迭代器都变成 CloseableIterators
  • [SPARK-44671] [DBRRM-396][SC-138929][PYTHON][CONNECT] 如果初始请求未到达 Python 客户端中的服务器,则重试 ExecutePlan
  • [SPARK-44624] [DBRRM-396][SC-138919][CONNECT] 如果初始请求未到达服务器,则重试 ExecutePlan
  • [SPARK-44574] [DBRRM-396][SC-138288][SQL][CONNECT] 移动到 sq/api 中的错误也应使用 AnalysisException
  • [SPARK-44613] [DBRRM-396][SC-138473][CONNECT] 添加编码器对象
  • [SPARK-44626] [DBRRM-396][SC-138828][SS][CONNECT] 当 Spark Connect 的客户端会话超时时,对流式处理查询终止的跟进
  • [SPARK-44642] [DBRRM-396][SC-138882][CONNECT] 从服务器收到错误后,ExecutePlanResponseReattachableIterator 中执行 ReleaseExecute
  • [SPARK-41400] [DBRRM-396][SC-138287][CONNECT] 删除 Connect Client Catalyst 依赖项
  • [SPARK-44664] [DBRRM-396][PYTHON][CONNECT] 在 Python 客户端中关闭迭代器时释放执行
  • [SPARK-44631] [DBRRM-396][SC-138823][CONNECT][CORE][14.0.0] 在逐出独立会话缓存时删除基于会话的目录
  • [SPARK-42941] [DBRRM-396][SC-138389][SS][CONNECT] Python StreamingQueryListener
  • [SPARK-44636] [DBRRM-396][SC-138570][CONNECT] 不保留悬空迭代器
  • [SPARK-44424] [DBRRM-396][CONNECT][PYTHON][14.0.0] Python 客户端,用于重新附加到 Spark Connect 中的现有执行
  • [SPARK-44637] [SC-138571] 同步对 ExecuteResponseObserver 的访问
  • [SPARK-44538] [SC-138178][CONNECT][SQL] Reinstate Row.jsonValue 和 friends
  • [SPARK-44421] [SC-138434][SPARK-44423][CONNECT] Spark Connect 中的可重新附加执行
  • [SPARK-44418] [SC-136807][PYTHON][CONNECT] 将 protobuf 从 3.19.5 升级到 3.20.3
  • [SPARK-44587] [SC-138315][SQL][CONNECT] 增加 protobuf 封送器递归限制
  • [SPARK-44591] [SC-138292][CONNECT][SQL] 将 jobTags 添加到 SparkListenerSQLExecutionStart
  • [SPARK-44610] [SC-138368][SQL] 创建新实例时,DeduplicateRelations 应保留别名元数据
  • [SPARK-44542] [SC-138323][CORE] 在异常处理程序中急切加载 SparkExitCode 类
  • [SPARK-44264] [SC-138143][PYTHON] Deepspeed 的 E2E 测试
  • [SPARK-43997] [SC-138347][CONNECT] 添加对 Java UDF 的支持
  • [SPARK-44507] [SQL][CONNECT][14.x][14.0] 将 AnalysisException 移动到 sql/api
  • [SPARK-44453] [SC-137013][PYTHON] 使用 difflib 在 assertDataFrameEqual 中显示错误
  • [SPARK-44394] [SC-138291][CONNECT][WEBUI][14.0] 为 Spark Connect 添加 Spark UI 页面
  • [SPARK-44611] [SC-138415][CONNECT] 不排除 scala-xml
  • [SPARK-44531] [SC-138044][CONNECT][SQL][14.x][14.0] 将编码器推理移动到 sql/api
  • [SPARK-43744] [SC-138289][CONNECT][14.x][14.0] 修复类加载问题 cau...
  • [SPARK-44590] [SC-138296][SQL][CONNECT] 删除 SqlCommandResult 的 arrow 批记录限制
  • [SPARK-43968] [SC-138115][PYTHON] 改进输出数量错误的 Python UDTF 错误消息
  • [SPARK-44432] [SC-138293][SS][CONNECT] 在 Spark Connect 中会话超时时终止流式处理查询
  • [SPARK-44584] [SC-138295][CONNECT] 在 Scala 客户端中为 AddArtifactsRequest 和 ArtifactStatusesRequest 设置 client_type 信息
  • [SPARK-44552] [14.0][SC-138176][SQL] 从 IntervalUtils 中删除 private object ParseState 定义
  • [SPARK-43660] [SC-136183][CONNECT][PS] 使用 Spark Connect 启用 resample
  • [SPARK-44287] [SC-136223][SQL] 在 RowToColumnarExec 和 ColumnarToRowExec SQL 运算符中使用 PartitionEvaluator API。
  • [SPARK-39634] [SC-137566][SQL] 允许将文件拆分与行索引生成结合使用
  • [SPARK-44533] [SC-138058][PYTHON] 在 Python UDTF 的分析中添加对累加器、广播和 Spark 文件的支持
  • [SPARK-44479] [SC-138146][PYTHON] 修复 ArrowStreamPandasUDFSerializer 以接受无列 pandas 数据帧
  • [SPARK-44425] [SC-138177][CONNECT] 验证用户提供的 sessionId 是否为 UUID
  • [SPARK-44535] [SC-138038][CONNECT][SQL] 将所需的流式处理 API 移动到 sql/api
  • [SPARK-44264] [SC-136523][ML][PYTHON] 编写 Deepspeed 分布式学习类 DeepspeedTorchDistributor
  • [SPARK-42098] [SC-138164][SQL] 修复 ResolveInlineTables 无法处理 RuntimeReplaceable 表达式的问题
  • [SPARK-44060] [SC-135693][SQL] 构建侧外部混洗哈希联接的代码生成
  • [SPARK-44496] [SC-137682][SQL][CONNECT] 将 SCSC 所需的接口移动到 sql/api
  • [SPARK-44532] [SC-137893][CONNECT][SQL] 将 ArrowUtils 移动到 sql/api
  • [SPARK-44413] [SC-137019][PYTHON] 阐明 assertDataFrameEqual 中不支持的 arg 数据类型的错误
  • [SPARK-44530] [SC-138036][CORE][CONNECT] 将 SparkBuildInfo 移动到 common/util
  • [SPARK-36612] [SC-133071][SQL] 在随洗哈希联接中支持左侧的左外部联接构建或右侧的右外部联接构建
  • [SPARK-44519] [SC-137728][CONNECT] SparkConnectServerUtils 为 jar 生成了不正确的参数
  • [SPARK-44449] [SC-137818][CONNECT] 直接 Arrow 反序列化的向上转换
  • [SPARK-44131] [SC-136346][SQL] 为 Scala API 添加 call_function 并弃用 call_udf
  • [SPARK-44541] [SQL] 从 UnsupportedOperationChecker 中删除无用函数 hasRangeExprAgainstEventTimeCol
  • [SPARK-44523] [SC-137859][SQL] 如果条件为 FalseLiteral,则筛选器的 maxRows/maxRowsPerPartition 为 0
  • [SPARK-44540] [SC-137873][UI] 删除 jsonFormatter 未使用的样式表和 javascript 文件
  • [SPARK-44466] [SC-137856][SQL] 从 modifiedConfigs 中排除以 SPARK_DRIVER_PREFIXSPARK_EXECUTOR_PREFIX 开头的配置
  • [SPARK-44477] [SC-137508][SQL] 将 TYPE_CHECK_FAILURE_WITH_HINT 视为错误子类
  • [SPARK-44509] [SC-137855][PYTHON][CONNECT] 在 Spark Connect Python 客户端中添加作业取消 API 集
  • [SPARK-44059] [SC-137023] 为内置函数添加对命名参数的分析器支持
  • [SPARK-38476] [SC-136448][CORE] 在 org.apache.spark.storage 中使用错误类
  • [SPARK-44486] [SC-137817][PYTHON][CONNECT] 为 toPandas 实现 PyArrow self_destruct 功能
  • [SPARK-44361] [SC-137200][SQL] 在 MapInBatchExec 中使用 PartitionEvaluator API
  • [SPARK-44510] [SC-137652][UI] 将数据表更新为 1.13.5 并删除一些未访问的 png 文件
  • [SPARK-44503] [SC-137808][SQL] 在 TVF 调用的 TABLE 参数之后添加 PARTITION BY 和 ORDER BY 子句的 SQL 语法
  • [SPARK-38477] [SC-136319][CORE] 在 org.apache.spark.shuffle 中使用错误类
  • [SPARK-44299] [SC-136088][SQL] 将名称分配到错误类 _LEGACY_ERROR_TEMP_227[4-6,8]
  • [SPARK-44422] [SC-137567][CONNECT] Spark Connect 精细中断
  • [SPARK-44380] [SC-137415][SQL][PYTHON] 支持 Python UDTF 以在 Python 中分析
  • [SPARK-43923] [SC-137020][CONNECT] 在以下期间发布 listenerBus 事件...
  • [SPARK-44303] [SC-136108][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[2320-2324]
  • [SPARK-44294] [SC-135885][UI] 修复 HeapHistogram 列意外显示 w/ select-all-box
  • [SPARK-44409] [SC-136975][SQL] 处理 Dataset.to 中的 char/varchar 以与其他项保持一致
  • [SPARK-44334] [SC-136576][SQL][UI] 没有作业的失败 DDL/DML 的 REST API 响应中的状态应为 FAILED,而不是 COMPLETED
  • [SPARK-42309] [SC-136703][SQL] 引入 INCOMPATIBLE_DATA_TO_TABLE 和子类。
  • [SPARK-44367] [SC-137418][SQL][UI] 在 UI 上显示每个失败查询的错误消息
  • [SPARK-44474] [SC-137195][CONNECT] 在 SparkConnectServiceSuite 中重新启用“测试观察响应”
  • [SPARK-44320] [SC-136446][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[1067,1150,1220,1265,1277]
  • [SPARK-44310] [SC-136055][CONNECT] Connect Server 启动日志应显示主机名和端口
  • [SPARK-44309] [SC-136193][UI] 在“执行程序”选项卡上显示添加/删除执行程序的时间
  • [SPARK-42898] [SC-137556][SQL] 标记字符串/日期转换不需要时区 ID
  • [SPARK-44475] [SC-137422][SQL][CONNECT] 将 DataType 和分析器重定位到 sql/api
  • [SPARK-44484] [SC-137562][SS] 将 batchDuration 添加到 StreamingQueryProgress json 方法
  • [SPARK-43966] [SC-137559][SQL][PYTHON] 支持非确定性表值函数
  • [SPARK-44439] [SC-136973][CONNECT][SS]修复了 listListeners 以仅将 ID 发送回客户端
  • [SPARK-44341] [SC-137054][SQL][PYTHON] 通过 PartitionEvaluator API 定义计算逻辑,并在 WindowExec 和 WindowInPandasExec 中使用它
  • [SPARK-43839] [SC-132680][SQL] 将 _LEGACY_ERROR_TEMP_1337 转换为 UNSUPPORTED_FEATURE.TIME_TRAVEL
  • [SPARK-44244] [SC-135703][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[2305-2309]
  • [SPARK-44201] [SC-136778][CONNECT][SS]为 Spark Connect 添加对 Scala 中 Streaming Listener 的支持
  • [SPARK-44260] [SC-135618][SQL] 为错误类 LEGACY_ERROR_TEMP 分配名称 [1215-1245-2329] 和使用 checkError() 检查 _CharVarchar_Suite 中的异常
  • [SPARK-42454] [SC-136913][SQL] SPJ:封装 BatchScanExec 中的所有 SPJ 相关参数
  • [SPARK-44292] [SC-135844][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[2315-2319]
  • [SPARK-44396] [SC-137221][Connect] 直接 Arrow 反序列化
  • [SPARK-44324] [SC-137172][SQL][CONNECT] 将 CaseInsensitiveMap 移动到 sql/api
  • [SPARK-44395] [SC-136744][SQL] 将测试添加回 StreamingTableSuite
  • [SPARK-44481] [SC-137401][CONNECT][PYTHON] 使 pyspark.sql.is_remote 成为 API
  • [SPARK-44278] [SC-137400][CONNECT] 实现可清理线程本地属性的 GRPC 服务器拦截器
  • [SPARK-44264] [SC-137211][ML][PYTHON] 支持使用 Deepspeed 对函数进行分布式训练
  • [SPARK-44430] [SC-136970][SQL] 选项无效时向 AnalysisException 添加原因
  • [SPARK-44264] [SC-137167][ML][PYTHON] 将 FunctionPickler 合并到 TorchDistributor
  • [SPARK-44216] [SC-137046] [PYTHON] 公开 assertSchemaEqual API
  • [SPARK-44398] [SC-136720][CONNECT] Scala foreachBatch API
  • [SPARK-43203] [SC-134528][SQL] 将所有放置表事例移动到 DataSource V2
  • [SPARK-43755] [SC-137171][CONNECT][MINOR] 打开 AdaptiveSparkPlanHelper.allChildren,而不是使用 MetricGenerator 中的副本
  • [SPARK-44264] [SC-137187][ML][PYTHON] 重构 TorchDistributor 以允许自定义“run_training_on_file”函数指针
  • [SPARK-43755] [SC-136838][CONNECT] 将执行移出 SparkExecutePlanStreamHandler 并移到其他线程
  • [SPARK-44411] [SC-137198][SQL] 在 ArrowEvalPythonExec 和 BatchEvalPythonExec 中使用 PartitionEvaluator API
  • [SPARK-44375] [SC-137197][SQL] 在 DebugExec 中使用 PartitionEvaluator API
  • [SPARK-43967] [SC-137057][PYTHON] 支持具有空返回值的常规 Python UDF
  • [SPARK-43915] [SC-134766][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[2438-2445]
  • [SPARK-43965] [SC-136929][PYTHON][CONNECT] 在 Spark Connect 中支持 Python UDTF
  • [SPARK-44154] [SC-137050][SQL] 向 BitmapExpressionUtilsSuite 添加了更多单元测试,并改进了位图聚合表达式
  • [SPARK-44169] [SC-135497][SQL] 将名称分配到错误类 LEGACY_ERROR_TEMP[2300-2304]
  • [SPARK-44353] [SC-136578][CONNECT][SQL] 删除 StructType.toAttributes
  • [SPARK-43964] [SC-136676][SQL][PYTHON] 支持 arrow 优化的 Python UDTF
  • [SPARK-44321] [SC-136308][CONNECT] 从 AnalysisException 分离 ParseException
  • [SPARK-44348] [SAS-1910][SC-136644][CORE][CONNECT][PYTHON] 重新启用带有相关更改的 test_artifact
  • [SPARK-44145] [SC-136698][SQL] 准备执行时回叫
  • [SPARK-43983] [SC-136404][PYTHON][ML][CONNECT] 启用跨验证器估算器测试
  • [SPARK-44399] [SC-136669][PYHTON][CONNECT] 仅在 useArrow 为 None 时导入 Python UDF 中的 SparkSession
  • [SPARK-43631] [SC-135300][CONNECT][PS] 使用 Spark Connect 启用 Series.interpolate
  • [SPARK-44374] [SC-136544][PYTHON][ML] 为 Spark Connect 添加分布式 ML 的示例代码
  • [SPARK-44282] [SC-135948][CONNECT] 准备用于 Spark Connect Scala Client 的 DataType 解析
  • [SPARK-44052] [SC-134469][CONNECT][PS] 添加 util 以获取适用于 Spark Connect 的合适的 Column 或 DataFrame 类。
  • [SPARK-43983] [SC-136404][PYTHON][ML][CONNECT] 实现跨验证器估算器
  • [SPARK-44290] [SC-136300][CONNECT] Spark Connect 中基于会话的文件和存档
  • [SPARK-43710] [SC-134860][PS][CONNECT] 为 Spark Connect 支持 functions.date_part
  • [SPARK-44036] [SC-134036][CONNECT][PS] 清理并合并票证以简化任务。
  • [SPARK-44150] [SC-135790][PYTHON][CONNECT] Arrow Python UDF 中不匹配的返回类型的显式 Arrow 强制转换
  • [SPARK-43903] [SC-134754][PYTHON][CONNECT] 改进 Arrow Python UDF 中的 ArrayType 输入支持
  • [SPARK-44250] [SC-135819][ML][PYTHON][CONNECT] 实现分类评估器
  • [SPARK-44255] [SC-135704][SQL] 将 StorageLevel 重新定位到 common/utils
  • [SPARK-42169] [SC-135735] [SQL] 实现 to_csv 函数 (StructsToCsv) 的代码生成
  • [SPARK-44249] [SC-135719][SQL][PYTHON] 重构 PythonUDTFRunner 以单独发送其返回类型
  • [SPARK-43353] [SC-132734][PYTHON] 将剩余会话错误迁移到错误类
  • [SPARK-44133] [SC-134795][PYTHON] 将 MyPy 从 0.920 升级至 0.982
  • [SPARK-42941] [SC-134707][SS][CONNECT][1/2] StreamingQueryListener - JSON 格式的事件 Serde
  • [SPARK-43353] 还原“[SC-132734][ES-729763][PYTHON] 将剩余会话错误迁移到错误类”
  • [SPARK-44100] [SC-134576][ML][CONNECT][PYTHON] 将命名空间从 pyspark.mlv2 移动到 pyspark.ml.connect
  • [SPARK-44220] [SC-135484][SQL] 将 StringConcat 移动到 sql/api
  • [SPARK-43992] [SC-133645][SQL][PYTHON][CONNECT] 为 Catalog.listFunctions 添加可选模式
  • [SPARK-43982] [SC-134529][ML][PYTHON][CONNECT] 在 spark connect 上实现 ML 的管道估算器
  • [SPARK-43888] [SC-132893][CORE] 将日志记录重新定位到 common/utils
  • [SPARK-42941] 还原“[SC-134707][SS][CONNECT][1/2] StreamingQueryListener - JSON 格式的事件 Serde”
  • [SPARK-43624] [SC-134557][PS][CONNECT] 将 EWM 添加到 SparkConnectPlanner。
  • [SPARK-43981] [SC-134137][PYTHON][ML] Spark Connect 上 ML 的基本保存/加载实现
  • [SPARK-43205] [SC-133371][SQL] 修复 SQLQueryTestSuite
  • [SPARK-43376] 还原“[SC-130433][SQL] 使用表缓存改进子查询的重用”
  • [SPARK-44040] [SC-134366][SQL] 当 AggregateExec 节点在 QueryStageExec 之上时修复计算统计信息
  • [SPARK-43919] [SC-133374][SQL] 从行中提取 JSON 函数
  • [SPARK-42618] [SC-134433][PYTHON][PS] 下一个主要版本中与 pandas 相关的行为更改的警告
  • [SPARK-43893] [SC-133381][PYTHON][CONNECT] Arrow 优化的 Python UDF 中的非原子数据类型支持
  • [SPARK-43627] [SC-134290][SPARK-43626][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.{kurt, skew}
  • [SPARK-43798] [SC-133990][SQL][PYTHON] 支持 Python 用户定义的表函数
  • [SPARK-43616] [SC-133849][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.mode
  • [SPARK-43133] [SC-133728] Scala 客户端 DataStreamWriter Foreach 支持
  • [SPARK-43684] [SC-134107][SPARK-43685][SPARK-43686][SPARK-43691][CONNECT][PS] 修复 Spark Connect 的 (NullOps|NumOps).(eq|ne)
  • [SPARK-43645] [SC-134151][SPARK-43622][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.{var, stddev}
  • [SPARK-43617] [SC-133893][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.product
  • [SPARK-43610] [SC-133832][CONNECT][PS] 在 Spark Connect 中启用 InternalFrame.attach_distributed_column
  • [SPARK-43621] [SC-133852][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.repeat
  • [SPARK-43921] [SC-133461][PROTOBUF] 在生成时生成 Protobuf 描述符文件
  • [SPARK-43613] [SC-133727][PS][CONNECT] 在 Spark Connect 中启用 pyspark.pandas.spark.functions.covar
  • [SPARK-43376] [SC-130433][SQL] 改进表缓存的重用子查询
  • [SPARK-43612] [SC-132011][CONNECT][PYTHON] 在 Python 客户端中实现 SparkSession.addArtifact
  • [SPARK-43920] [SC-133611][SQL][CONNECT] 创建 sql/api 模块
  • [SPARK-43097] [SC-133372][ML] 在分发器上实现的新 pyspark ML 逻辑回归估算器
  • [SPARK-43783] [SC-133240][SPARK-43784][SPARK-43788][ML] 使 MLv2(spark connect 上的 ML)支持 pandas >= 2.0
  • [SPARK-43024] [SC-132716][PYTHON] 将 pandas 升级到 2.0.0
  • [SPARK-43881] [SC-133140][SQL][PYTHON][CONNECT] 为 Catalog.listDatabases 添加可选模式
  • [SPARK-39281] [SC-131422][SQL] 使用 JSON/CSV 数据源中的旧格式加速时间戳类型推理
  • [SPARK-43792] [SC-132887][SQL][PYTHON][CONNECT] 为 Catalog.listCatalogs 添加可选模式
  • [SPARK-43132] [SC-131623] [SS] [CONNECT] Python 客户端 DataStreamWriter foreach() API
  • [SPARK-43545] [SC-132378][SQL][PYTHON] 支持嵌套时间戳类型
  • [SPARK-43353] [SC-132734][PYTHON] 将剩余会话错误迁移到错误类
  • [SPARK-43304] [SC-129969][CONNECT][PYTHON] 将 NotImplementedError 迁移到 PySparkNotImplementedError
  • [SPARK-43516] [SC-132202][ML][PYTHON][CONNECT] sparkML for spark3.5 的基接口:估算器/转换器/模型/评估器
  • [SPARK-43128] 还原“[SC-131628][CONNECT][SS] 使 recentProgresslastProgress 返回与本机 Scala API 保持一致的 StreamingQueryProgress
  • [SPARK-43543] [SC-131839][PYTHON] 修复 Pandas UDF 中的嵌套 MapType 行为
  • [SPARK-38469] [SC-131425][CORE] 在 org.apache.spark.network 中使用错误类
  • [SPARK-43309] [SC-129746][SPARK-38461][CORE] 使用类别扩展 INTERNAL_ERROR 并添加错误类 INTERNAL_ERROR_BROADCAST
  • [SPARK-43265] [SC-129653] 将错误框架移动到通用 utils 模块
  • [SPARK-43440] [SC-131229][PYTHON][CONNECT] 支持注册 Arrow 优化的 Python UDF
  • [SPARK-43528] [SC-131531][SQL][PYTHON] 在 createDataFrame 中使用 pandas DataFrame 支持重复的字段名
  • [SPARK-43412] [SC-130990][PYTHON][CONNECT] 为 Arrow 优化的 Python UDF 引入 SQL_ARROW_BATCHED_UDF EvalType
  • [SPARK-40912] [SC-130986][CORE] KryoDeserializationStream 中异常的开销
  • [SPARK-39280] [SC-131206][SQL] 使用 JSON/CSV 数据源中用户提供的格式加速时间戳类型推理
  • [SPARK-43473] [SC-131372][PYTHON] 支持 createDataFrame 中来自 pandas DataFrame 的结构类型
  • [SPARK-43443] [SC-131024][SQL] 为使用无效值时的时间戳类型推理添加基准
  • [SPARK-41532] [SC-130523][CONNECT][CLIENT] 为涉及多个数据帧的操作添加检查
  • [SPARK-43296] [SC-130627][CONNECT][PYTHON] 将 Spark Connect 会话错误迁移到错误类
  • [SPARK-43324] [SC-130455][SQL] 处理基于增量的源的 UPDATE 命令
  • [SPARK-43347] [SC-130148][PYTHON] 移除 Python 3.7 支持
  • [SPARK-43292] [SC-130525][CORE][CONNECT] 将 ExecutorClassLoader 移动到 core 模块并简化 Executor#addReplClassLoaderIfNeeded
  • [SPARK-43081] [SC-129900] [ML] [CONNECT] 添加从 spark 分区数据加载数据的 torch 分发器数据加载程序
  • [SPARK-43331] [SC-130061][CONNECT] 添加 Spark Connect SparkSession.interruptAll
  • [SPARK-43306] [SC-130320][PYTHON] 将 ValueError 从 Spark SQL 类型迁移到错误类
  • [SPARK-43261] [SC-129674][PYTHON] 将 TypeError 从 Spark SQL 类型迁移到错误类。
  • [SPARK-42992] [SC-129465][PYTHON] 引入 PySparkRuntimeError
  • [SPARK-16484] [SC-129975][SQL] 添加对 Datasketches HllSketch 的支持
  • [SPARK-43165] [SC-128823][SQL] 将 canWrite 移到 DataTypeUtils
  • [SPARK-43082] [SC-129112][CONNECT][PYTHON] Spark Connect 中已经过 Arrow 优化的 Python UDF
  • [SPARK-43084] [SC-128654] [SS] 添加对 Spark Connect 的 applyInPandasWithState 支持
  • [SPARK-42657] [SC-128621][CONNECT] 支持查找客户端 REPL 类文件并将其作为项目传输到服务器
  • [SPARK-43098] [SC-77059][SQL] 修复在标量子查询具有 group by 子句时的正确性 COUNT bug
  • [SPARK-42884] [SC-126662][CONNECT] 添加 Ammonite REPL 集成
  • [SPARK-42994] [SC-128333][ML][CONNECT] PyTorch Distributor 支持本地模式
  • [SPARK-41498] [SC-125343]还原“通过 Union 传播元数据”
  • [SPARK-42993] [SC-127829][ML][CONNECT] 使 PyTorch Distributor 与 Spark Connect 兼容
  • [SPARK-42683] [LC-75] 自动重命名发生冲突的元数据列
  • [SPARK-42874] [SC-126442][SQL] 为所有输入文件的分析启用新的黄金文件测试框架
  • [SPARK-42779] [SC-126042][SQL] 允许 V2 写入来指示建议的随机分区大小
  • [SPARK-42891] [SC-126458][CONNECT][PYTHON] 实现 CoGrouped Map API
  • [SPARK-42791] [SC-126134][SQL] 创建新的黄金文件测试框架以用于分析
  • [SPARK-42615] [SC-124237][CONNECT][PYTHON] 重构 AnalyzePlan RPC 并添加 session.version
  • [SPARK-41302] 还原“[ALL TESTS][SC-122423][SQL] 将名称分配给 _LEGACY_ERROR_TEMP_1185”
  • [SPARK-40770] [SC-122652][PYTHON] 改进了说明架构不匹配的 applyInPandas 的错误消息
  • [SPARK-40770] 还原“[ALL TESTS][SC-122652][PYTHON] 改进了 applyInPandas 架构不匹配的错误消息”
  • [SPARK-42398] [SC-123500][SQL] 调整默认列值 DS v2 接口
  • [SPARK-40770] [ALL TESTS][SC-122652][PYTHON] 改进了说明架构不匹配的 applyInPandas 的错误消息
  • [SPARK-40770] 还原“[SC-122652][PYTHON] 改进了 applyInPandas 架构不匹配的错误消息”
  • [SPARK-40770] [SC-122652][PYTHON] 改进了说明架构不匹配的 applyInPandas 的错误消息
  • [SPARK-42038] [ALL TESTS] 还原“还原“[SC-122533][SQL] SPJ: 支持部分群集分布””
  • [SPARK-42038] 还原“[SC-122533][SQL] SPJ: 支持部分群集分布”
  • [SPARK-42038] [SC-122533][SQL] SPJ:支持部分群集分布
  • [SPARK-40550] [SC-120989][SQL] DataSource V2:处理基于增量的源的 DELETE 命令
  • [SPARK-40770] 还原“[SC-122652][PYTHON] 改进了 applyInPandas 架构不匹配的错误消息”
  • [SPARK-40770] [SC-122652][PYTHON] 改进了说明架构不匹配的 applyInPandas 的错误消息
  • [SPARK-41302] 还原“[SC-122423][SQL] 将名称分配给 _LEGACY_ERROR_TEMP_1185”
  • [SPARK-40550] 还原“[SC-120989][SQL] DataSource V2: 处理基于增量的源的 DELETE 命令”
  • [SPARK-42123] 还原“[SC-121453][SQL] 在 DESCRIBE 和 SHOW CREATE TABLE 输出中包含列默认值”
  • [SPARK-42146] [SC-121172][CORE] 当 sql 模块使用此方法时,重构 Utils#setStringField 以使 maven 构建通过
  • [SPARK-42119] 还原“[SC-121342][SQL] 添加内置表值函数 inline 和 inline_outer”

要点

  • 修复 Connect 中的 aes_decrypt 和 ln 函数 SPARK-45109
  • 修复继承的命名元组以在 createDataFrame 中工作 SPARK-44980
  • CodeGenerator 缓存现在特定于类加载器 [SPARK-44795]
  • 添加了SparkListenerConnectOperationStarted.planRequest [SPARK-44861]
  • 使流式处理查询适用于 Connect 的项目管理 [SPARK-44794]
  • 使 ArrowDeserializer 适用于 REPL 生成的类 [SPARK-44791]
  • 修复 Spark Connect 上经过 Arrow 优化的 Python UDF [SPARK-44876]
  • Spark Connect 中的 Scala 和 Go 客户端支持 SPARK-42554 SPARK-43351
  • 对 Spark Connect 的基于 PyTorch 的分布式 ML 支持 SPARK-42471
  • Python 和 Scala 中对 Spark Connect 的结构化流式处理支持 SPARK-42938
  • Pandas API 对 Python Spark Connect 客户端的支持 SPARK-42497
  • 引入 Arrow Python UDF SPARK-40307
  • 支持 Python 用户定义的表函数 SPARK-43798
  • 将 PySpark 错误迁移到错误类 SPARK-42986
  • PySpark 测试框架 SPARK-44042
  • 添加对 Datasketches HllSketch 的支持 SPARK-16484
  • 内置 SQL 函数改进 SPARK-41231
  • IDENTIFIER 子句 SPARK-43205
  • 将 SQL 函数添加到 Scala、Python 和 R API SPARK-43907
  • 添加对 SQL 函数的命名参数支持 SPARK-43922
  • 如果迁移了随机数据,则避免在停用的执行程序丢失时重新运行不必要的任务 SPARK-41469
  • 分布式 ML <> spark connect SPARK-42471
  • DeepSpeed 分发服务器 SPARK-44264
  • 为 RocksDB 状态存储实现更改日志检查点 SPARK-43421
  • 在运算符之间引入水印传播 SPARK-42376
  • 引入 dropDuplicatesWithinWatermark SPARK-42931
  • RocksDB 状态存储提供程序内存管理增强功能 SPARK-43311

Spark Connect

  • 将 sql 模块重构为 sql 和 sql-api,以生成可在 Scala Spark Connect 客户端和 Spark 之间共享的最小依赖项集,并避免拉取所有 Spark 可传递依赖项。 SPARK-44273
  • 引入了 Spark Connect 的 Scala 客户端 SPARK-42554
  • Pandas API 对 Python Spark Connect 客户端的支持 SPARK-42497
  • 对 Spark Connect 的基于 PyTorch 的分布式 ML 支持 SPARK-42471
  • Python 和 Scala 中对 Spark Connect 的结构化流式处理支持 SPARK-42938
  • Go 客户端的初始版本 SPARK-43351
  • 跨 Python 和 Scala 的 Spark 本机客户端与 Spark Connect 客户端之间的兼容性改进很多
  • 改进了客户端应用程序的可调试性和请求处理(异步处理、重试、长期查询)

Spark SQL

功能

  • 添加元数据列文件块开头和长度 SPARK-42423
  • Scala/Java sql() 中支持位置参数 SPARK-44066
  • 在分析程序中为函数调用添加命名参数支持 SPARK-43922
  • 对 INSERT 源关系支持带有 ORDER BY、LIMIT、OFFSET 的 SELECT DEFAULT SPARK-43071
  • 在 TVF 调用的 TABLE 参数之后添加 PARTITION BY 和 ORDER BY 子句的 SQL 语法 SPARK-44503
  • 在 DESCRIBE 和 SHOW CREATE TABLE 输出中包含列默认值 SPARK-42123
  • 为 Catalog.listCatalogs 添加可选模式 SPARK-43792
  • 为 Catalog.listDatabases 添加可选模式 SPARK-43881
  • 在准备好执行时回叫 SPARK-44145
  • 支持 Insert By Name 语句 SPARK-42750
  • 为 Scala API 添加 call_function SPARK-44131
  • 稳定派生列别名 SPARK-40822
  • 支持一般常量表达式作为 CREATE/REPLACE TABLE OPTIONS 值 SPARK-43529
  • 通过 INTERSECT/EXCEPT 支持具有关联的子查询 SPARK-36124
  • IDENTIFIER 子句 SPARK-43205
  • ANSI 模式:如果内部转换溢出,Conv 应返回错误 SPARK-42427

函数

  • 添加对 Datasketches HllSketch 的支持 SPARK-16484
  • 通过 aes_encrypt()/aes_decrypt() 支持 CBC 模式 SPARK-43038
  • 支持 TableValuedFunction 的 TABLE 参数分析程序规则 SPARK-44200
  • 实现位图函数 SPARK-44154
  • 添加 try_aes_decrypt() 函数 SPARK-42701
  • array_insert 应该失败,且索引为 0 SPARK-43011
  • 为 to_char 添加 to_varchar 别名 SPARK-43815
  • 高阶函数:array_compact 实现 SPARK-41235
  • 为内置函数添加对命名参数的分析器支持 SPARK-44059
  • 使用列数少于目标表的用户指定列表为 INSERT 添加 NULL SPARK-42521
  • 添加对 aes_encrypt IV 和 AAD 的支持 SPARK-43290
  • DECODE 函数在传递 NULL 时返回错误结果 SPARK-41668
  • 支持 udf“luhn_check”SPARK-42191
  • 支持 Aggregate 中的隐式横向列别名解析 SPARK-41631
  • 在使用窗口的查询中支持隐式横向列别名 SPARK-42217
  • 添加 3 参数函数别名 DATE_ADD 和 DATE_DIFF SPARK-43492

数据源

  • JDBC Catalog 的 Char/Varchar 支持 SPARK-42904
  • 支持通过 JDBC API 和 TVF 动态获取 SQL 关键字 SPARK-43119
  • DataSource V2:处理基于 delta 的源的 MERGE 命令 SPARK-43885
  • DataSource V2:处理基于组的源的 MERGE 命令 SPARK-43963
  • DataSource V2:处理基于组的源的 UPDATE 命令 SPARK-43975
  • DataSource V2:允许将更新表示为删除和插入 SPARK-43775
  • 允许 jdbc 方言替代用于创建表的查询 SPARK-41516
  • SPJ:支持部分群集分布 SPARK-42038
  • DSv2 允许 CTAS/RTAS 保留架构为 Null 性 SPARK-43390
  • 添加 spark.sql.files.maxPartitionNum SPARK-44021
  • 处理基于增量的源的 UPDATE 命令 SPARK-43324
  • 允许 V2 写入来指示建议的随机分区大小 SPARK-42779
  • 支持 Parquet 的 lz4raw 压缩编解码器 SPARK-43273
  • Avro:编写复杂联合 SPARK-25050
  • 使用 JSON/CSV 数据源中用户提供的格式加速时间戳类型推理 SPARK-39280
  • Avro 支持由 Long 支持的自定义十进制类型 SPARK-43901
  • 避免当分区键不匹配但联接表达式兼容时存储分区联接中出现随机排列 SPARK-41413
  • 将二进制更改为 CSV 格式中不支持的 dataType SPARK-42237
  • 允许 Avro 将联合类型转换为字段名随类型稳定的 SQL SPARK-43333
  • 使用 JSON/CSV 数据源中的旧格式加速时间戳类型推理 SPARK-39281

查询优化

  • 子表达式消除支持快捷方式表达式 SPARK-42815
  • 如果一方可以保持唯一性,则改进联接统计信息估计 SPARK-39851
  • 为基于排名的筛选器引入窗口的组限制,以优化 top-k 计算 SPARK-37099
  • 修复优化规则中 null IN(空列表)的行为 SPARK-44431
  • 如果 partitionSpec 为空,则通过窗口推断和下推窗口限制 SPARK-41171
  • 如果外部联接都是不同的聚合函数,则移除它们 SPARK-42583
  • 折叠子查询中具有相同分区/顺序的两个相邻窗口 SPARK-42525
  • 通过 Python UDF 下推限制 SPARK-42115
  • 优化筛选谓词的顺序 SPARK-40045

代码生成和查询执行

  • 运行时筛选器应该支持多级随机联接端作为筛选器创建端 SPARK-41674
  • Codegen 对 HiveSimpleUDF 的支持 SPARK-42052
  • Codegen 对的 HiveGenericUDF 支持 SPARK-42051
  • Codegen 对生成端外部随机哈希联接的支持 SPARK-44060
  • 实现 to_csv function (StructsToCsv) 的代码生成 SPARK-42169
  • 使 AQE 支持 InMemoryTableScanExec SPARK-42101
  • 在随机哈希联接中支持左侧的左外部联接生成或右侧的右外部联接生成 SPARK-36612
  • 在 CTAS/RTAS 中遵循 RequiresDistributionAndOrderingSPARK-43088
  • 在应用于广播联接流端的联接中联合存储桶 SPARK-43107
  • 在完全外部 USING 联接中的联合联接键上正确设置“可为空”SPARK-44251
  • 修复 IN 子查询 ListQuery 为 Null 性 SPARK-43413

其他值得注意的更改

  • 为 USING 联接中的键正确设置“可为空”SPARK-43718
  • 修复相关标量子查询中的 COUNT(*) 为 null bug SPARK-43156
  • Dataframe.joinWith 外部联接应为不匹配的行返回 null 值 SPARK-37829
  • 自动重命名发生冲突的元数据列 SPARK-42683
  • 在面向用户的文档中记录 Spark SQL 错误类 SPARK-42706

PySpark

功能

其他值得注意的更改

  • 在 pyspark.sql.dataframe.DataFrame 中添加对 df[|] 的自动完成支持 [SPARK-43892]
  • 弃用并删除将在 pandas 2.0 中移除的 API [SPARK-42593]
  • 让 Python 成为代码示例的第一个选项卡 - Spark SQL、DataFrame 和数据集指南 SPARK-42493
  • 更新剩余的 Spark 文档代码示例以默认显示 Python SPARK-42642
  • 在创建 Arrow RecordBatch 时使用已删除重复数据的字段名称 [SPARK-41971]
  • 在 createDataFrame 中使用 pandas DataFrame 支持重复的字段名 [SPARK-43528]
  • 使用序列创建 DataFrame 时允许列参数 [SPARK-42194]

核心

  • 当推送合并 shuffleMapStage 重试但没有运行任务时计划 mergeFinalize SPARK-40082
  • 引入用于 SQL 运算符执行的 PartitionEvaluator SPARK-43061
  • 允许 ShuffleDriverComponent 声明是否已可靠地存储了随机数据 SPARK-42689
  • 为阶段添加最大尝试次数限制,以避免潜在的无限重试 SPARK-42577
  • 支持使用静态 Spark 配置进行日志级别配置 SPARK-43782
  • 优化 PercentileHeap SPARK-42528
  • 向 TaskScheduler.cancelTasks 添加原因参数 SPARK-42602
  • 如果迁移了随机数据,则避免在停用的执行程序丢失时重新运行不必要的任务 SPARK-41469
  • 修复在重试任务具有 rdd 缓存时累加器计数不足的问题 SPARK-41497
  • 默认情况下将 RocksDB 用于 spark.history.store.hybridStore.diskBackend SPARK-42277
  • Guava Cache 的 NonFateSharingCache 包装器 SPARK-43300
  • 提高 MapOutputTracker.updateMapOutput 的性能 SPARK-43043
  • 允许应用控制其元数据是否由 External Shuffle Service 保存在数据库中 SPARK-43179
  • 将 SPARK_DRIVER_POD_IP 环境变量添加到执行器 Pod SPARK-42769
  • 在执行器 Pod 上装载 hadoop 配置映射 SPARK-43504

结构化流式处理

  • 添加对跟踪 RocksDB 状态存储固定块内存使用情况的支持 SPARK-43120
  • 添加 RocksDB 状态存储提供程序内存管理增强功能 SPARK-43311
  • 引入 dropDuplicatesWithinWatermark SPARK-42931
  • 向 StreamingQueryListener 引入新的回叫 onQueryIdle() SPARK-43183
  • 添加选项以跳过作为 DSv2 源/接收器 StreamingWrite API 的一部分的提交协调器 SPARK-42968
  • 将新的回调“onQueryIdle”引入到 StreamingQueryListener SPARK-43183
  • 为 RocksDB 状态存储提供程序实现基于更改日志的检查点 SPARK-43421
  • 为流式处理有状态运算符中使用的 RocksDB 添加了对 WRITE_FLUSH_BYTES 的支持 SPARK-42792
  • 为流式处理中使用的 RocksDB 添加了对设置 max_write_buffer_number 和 write_buffer_size 的支持 SPARK-42819
  • RocksDB StateStore 锁获取应该发生在从 inputRDD 获取输入迭代器之后 SPARK-42566
  • 在运算符之间引入水印传播 SPARK-42376
  • 清理 RocksDB 检查点目录中的孤立 sst 和日志文件 SPARK-42353
  • 扩展 QueryTerminatedEvent 以包含异常中存在的错误类 SPARK-43482

ML

  • 支持使用 Deepspeed 对函数进行分布式训练 SPARK-44264
  • sparkML for spark3.5 的基接口:估算器/转换器/模型/评估器 SPARK-43516
  • 使 MLv2(spark connect 上的 ML)支持 pandas >= 2.0 SPARK-43783
  • 更新 MLv2 转换器接口 SPARK-43516
  • 在分发器上实现的新 pyspark ML 逻辑回归估算器 SPARK-43097
  • 重新添加 Classifier.getNumClasses SPARK-42526
  • 编写 Deepspeed 分布式学习类 DeepspeedTorchDistributor SPARK-44264
  • Spark Connect 上 ML 的基本保存/加载实现 SPARK-43981
  • 改进逻辑回归模型保存 SPARK-43097
  • 在 spark connect 上实现 ML 的管道估算器 SPARK-43982
  • 实现跨验证器估算器 SPARK-43983
  • 实现分类评估器 SPARK-44250
  • 使 PyTorch Distributor 与 Spark Connect 兼容 SPARK-42993

UI

  • 为 Spark Connect 添加 Spark UI 页面 SPARK-44394
  • 支持“执行器”选项卡中的堆直方图列 SPARK-44153
  • 在 UI 上显示每个失败查询的错误消息 SPARK-44367
  • 在“执行程序”选项卡上显示添加/移除程序的时间 SPARK-44309

内部版本和其他

移除、行为变更和弃用

即将进行的移除

下一个 Spark 主版本将移除以下特性

  • 对 Java 8 和 Java 11 的支持,支持的最低 Java 版本将为 Java 17
  • 对 Scala 2.12 的支持,支持的最低 Scala 版本将为 2.13

迁移指南

Databricks ODBC/JDBC 驱动程序支持

Databricks 支持过去 2 年发布的 ODBC/JDBC 驱动程序。 请下载最近发布的驱动程序并升级(下载 ODBC下载 JDBC)。

系统环境

  • 操作系统:Ubuntu 22.04.3 LTS
  • Java:Zulu 8.70.0.23-CA-linux64
  • Scala:2.12.15
  • Python:3.10.12
  • R:4.3.1
  • Delta Lake:2.4.0

已安装的 Python 库

版本 版本 版本
anyio 3.5.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
asttokens 2.0.5 attrs 22.1.0 backcall 0.2.0
beautifulsoup4 4.11.1 black 22.6.0 bleach 4.1.0
blinker 1.4 boto3 1.24.28 botocore 1.27.96
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 comm 0.1.2
contourpy 1.0.5 密码系统 39.0.1 cycler 0.11.0
Cython 0.29.32 databricks-sdk 0.1.6 dbu-python 1.2.18
debugpy 1.6.7 decorator 5.1.1 defusedxml 0.7.1
distlib 0.3.7 docstring-to-markdown 0.11 entrypoints 0.4
执行 0.8.3 facets-overview 1.1.1 fastjsonschema 2.18.0
filelock 3.12.2 fonttools 4.25.0 GCC 运行时库 1.10.0
googleapis-common-protos 1.60.0 grpcio 1.48.2 grpcio-status 1.48.1
httplib2 0.20.2 idna 3.4 importlib-metadata 4.6.4
ipykernel 6.25.0 ipython 8.14.0 ipython-genutils 0.2.0
ipywidgets 7.7.2 jedi 0.18.1 jeepney 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
jsonschema 4.17.3 jupyter-client 7.3.4 jupyter-server 1.23.4
jupyter_core 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keyring 23.5.0 kiwisolver 1.4.4 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lxml 4.9.1
MarkupSafe 2.1.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
mccabe 0.7.0 mistune 0.8.4 more-itertools 8.10.0
mypy-extensions 0.4.3 nbclassic 0.5.2 nbclient 0.5.13
nbconvert 6.5.4 nbformat 5.7.0 nest-asyncio 1.5.6
nodeenv 1.8.0 笔记本 6.5.2 notebook_shim 0.2.2
numpy 1.23.5 oauthlib 3.2.0 打包 22.0
pandas 1.5.3 pandocfilters 1.5.0 parso 0.8.3
pathspec 0.10.3 patsy 0.5.3 pexpect 4.8.0
pickleshare 0.7.5 Pillow 9.4.0 pip 22.3.1
platformdirs 2.5.2 plotly 5.9.0 pluggy 1.0.0
prometheus-client 0.14.1 prompt-toolkit 3.0.36 protobuf 4.24.0
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
python-dateutil 2.8.2 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.5 pytz 2022.7 pyzmq 23.2.0
请求 2.28.1 rope 1.7.0 s3transfer 0.6.1
scikit-learn 1.1.1 seaborn 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 setuptools 65.6.3 6 1.16.0
sniffio 1.2.0 soupsieve 2.3.2.post1 ssh-import-id 5.11
stack-data 0.2.0 statsmodels 0.13.5 tenacity 8.1.0
terminado 0.17.1 threadpoolctl 2.2.0 tinycss2 1.2.1
tokenize-rt 4.2.1 tomli 2.0.1 tornado 6.1
traitlets 5.7.1 typing_extensions 4.4.0 ujson 5.4.0
unattended-upgrades 0.1 urllib3 1.26.14 virtualenv 20.16.7
wadllib 1.3.6 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 whatthepatch 1.0.2 wheel 0.38.4
widgetsnbextension 3.6.1 yapf 0.31.0 zipp 1.0.0

已安装的 R 库

R 库安装自 2023-07-13 的 Posit Package Manager CRAN 快照。

版本 版本 版本
箭头 12.0.1 askpass 1.1 assertthat 0.2.1
backports 1.4.1 base 4.3.1 base64enc 0.1-3
bit 4.0.5 bit64 4.0.5 blob 1.2.4
启动 1.3-28 brew 1.0-8 brio 1.1.3
broom 1.0.5 bslib 0.5.0 cachem 1.0.8
callr 3.7.3 caret 6.0-94 cellranger 1.1.0
chron 2.3-61 class 7.3-22 CLI 3.6.1
clipr 0.8.0 clock 0.7.0 cluster 2.1.4
codetools 0.2-19 colorspace 2.1-0 commonmark 1.9.0
compiler 4.3.1 config 0.3.1 conflicted 1.2.0
cpp11 0.4.4 crayon 1.5.2 凭据 1.3.2
curl 5.0.1 data.table 1.14.8 datasets 4.3.1
DBI 1.1.3 dbplyr 2.3.3 desc 1.4.2
devtools 2.4.5 示意图 1.6.5 diffobj 0.3.5
digest 0.6.33 downlit 0.4.3 dplyr 1.1.2
dtplyr 1.3.1 e1071 1.7-13 ellipsis 0.3.2
评估 0.21 fansi 1.0.4 farver 2.1.1
fastmap 1.1.1 fontawesome 0.5.1 forcats 1.0.0
foreach 1.5.2 foreign 0.8-82 forge 0.2.0
fs 1.6.2 future 1.33.0 future.apply 1.11.0
gargle 1.5.1 generics 0.1.3 gert 1.9.2
ggplot2 3.4.2 gh 1.4.0 gitcreds 0.1.2
glmnet 4.1-7 globals 0.16.2 glue 1.6.2
googledrive 2.1.1 googlesheets4 1.1.1 gower 1.0.1
graphics 4.3.1 grDevices 4.3.1 grid 4.3.1
gridExtra 2.3 gsubfn 0.7 gtable 0.3.3
hardhat 1.3.0 haven 2.5.3 highr 0.10
hms 1.1.3 htmltools 0.5.5 htmlwidgets 1.6.2
httpuv 1.6.11 httr 1.4.6 httr2 0.2.3
ids 1.0.1 ini 0.3.1 ipred 0.9-14
isoband 0.2.7 iterators 1.0.14 jquerylib 0.1.4
jsonlite 1.8.7 KernSmooth 2.23-21 knitr 1.43
labeling 0.4.2 later 1.3.1 lattice 0.21-8
lava 1.7.2.1 lifecycle 1.0.3 listenv 0.9.0
lubridate 1.9.2 magrittr 2.0.3 markdown 1.7
MASS 7.3-60 Matrix 1.5-4.1 memoise 2.0.1
方法 4.3.1 mgcv 1.8-42 mime 0.12
miniUI 0.1.1.1 ModelMetrics 1.2.2.2 modelr 0.1.11
munsell 0.5.0 nlme 3.1-162 nnet 7.3-19
numDeriv 2016.8-1.1 openssl 2.0.6 parallel 4.3.1
parallelly 1.36.0 pillar 1.9.0 pkgbuild 1.4.2
pkgconfig 2.0.3 pkgdown 2.0.7 pkgload 1.3.2.1
plogr 0.2.0 plyr 1.8.8 praise 1.0.0
prettyunits 1.1.1 pROC 1.18.4 processx 3.8.2
prodlim 2023.03.31 profvis 0.3.8 进度 1.2.2
progressr 0.13.0 promises 1.2.0.1 proto 1.0.0
proxy 0.4-27 ps 1.7.5 purrr 1.0.1
r2d3 0.2.6 R6 2.5.1 ragg 1.2.5
randomForest 4.7-1.1 rappdirs 0.3.3 rcmdcheck 1.4.0
RColorBrewer 1.1-3 Rcpp 1.0.11 RcppEigen 0.3.3.9.3
readr 2.1.4 readxl 1.4.3 recipes 1.0.6
rematch 1.0.1 rematch2 2.1.2 remotes 2.4.2
reprex 2.0.2 reshape2 1.4.4 rlang 1.1.1
rmarkdown 2.23 RODBC 1.3-20 roxygen2 7.2.3
rpart 4.1.19 rprojroot 2.0.3 Rserve 1.8-11
RSQLite 2.3.1 rstudioapi 0.15.0 rversions 2.1.2
rvest 1.0.3 sass 0.4.6 scales 1.2.1
selectr 0.4-2 sessioninfo 1.2.2 shape 1.4.6
shiny 1.7.4.1 sourcetools 0.1.7-1 sparklyr 1.8.1
SparkR 3.5.0 spatial 7.3-15 splines 4.3.1
sqldf 0.4-11 SQUAREM 2021.1 stats 4.3.1
stats4 4.3.1 stringi 1.7.12 stringr 1.5.0
survival 3.5-5 sys 3.4.2 systemfonts 1.0.4
tcltk 4.3.1 testthat 3.1.10 textshaping 0.3.6
tibble 3.2.1 tidyr 1.3.0 tidyselect 1.2.0
tidyverse 2.0.0 timechange 0.2.0 timeDate 4022.108
tinytex 0.45 工具 4.3.1 tzdb 0.4.0
urlchecker 1.0.1 usethis 2.2.2 utf8 1.2.3
utils 4.3.1 uuid 1.1-0 vctrs 0.6.3
viridisLite 0.4.2 vroom 1.6.3 waldo 0.5.1
whisker 0.4.1 withr 2.5.0 xfun 0.39
xml2 1.3.5 xopen 1.0.0 xtable 1.8-4
yaml 2.3.7 zip 2.3.0

已安装的 Java 库和 Scala 库(Scala 2.12 群集版本)

组 ID 项目 ID 版本
antlr antlr 2.7.7
com.amazonaws amazon-kinesis-client 1.12.0
com.amazonaws aws-java-sdk-autoscaling 1.12.390
com.amazonaws aws-java-sdk-cloudformation 1.12.390
com.amazonaws aws-java-sdk-cloudfront 1.12.390
com.amazonaws aws-java-sdk-cloudhsm 1.12.390
com.amazonaws aws-java-sdk-cloudsearch 1.12.390
com.amazonaws aws-java-sdk-cloudtrail 1.12.390
com.amazonaws aws-java-sdk-cloudwatch 1.12.390
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.12.390
com.amazonaws aws-java-sdk-codedeploy 1.12.390
com.amazonaws aws-java-sdk-cognitoidentity 1.12.390
com.amazonaws aws-java-sdk-cognitosync 1.12.390
com.amazonaws aws-java-sdk-config 1.12.390
com.amazonaws aws-java-sdk-core 1.12.390
com.amazonaws aws-java-sdk-datapipeline 1.12.390
com.amazonaws aws-java-sdk-directconnect 1.12.390
com.amazonaws aws-java-sdk-directory 1.12.390
com.amazonaws aws-java-sdk-dynamodb 1.12.390
com.amazonaws aws-java-sdk-ec2 1.12.390
com.amazonaws aws-java-sdk-ecs 1.12.390
com.amazonaws aws-java-sdk-efs 1.12.390
com.amazonaws aws-java-sdk-elasticache 1.12.390
com.amazonaws aws-java-sdk-elasticbeanstalk 1.12.390
com.amazonaws aws-java-sdk-elasticloadbalancing 1.12.390
com.amazonaws aws-java-sdk-elastictranscoder 1.12.390
com.amazonaws aws-java-sdk-emr 1.12.390
com.amazonaws aws-java-sdk-glacier 1.12.390
com.amazonaws aws-java-sdk-glue 1.12.390
com.amazonaws aws-java-sdk-iam 1.12.390
com.amazonaws aws-java-sdk-importexport 1.12.390
com.amazonaws aws-java-sdk-kinesis 1.12.390
com.amazonaws aws-java-sdk-kms 1.12.390
com.amazonaws aws-java-sdk-lambda 1.12.390
com.amazonaws aws-java-sdk-logs 1.12.390
com.amazonaws aws-java-sdk-machinelearning 1.12.390
com.amazonaws aws-java-sdk-opsworks 1.12.390
com.amazonaws aws-java-sdk-rds 1.12.390
com.amazonaws aws-java-sdk-redshift 1.12.390
com.amazonaws aws-java-sdk-route53 1.12.390
com.amazonaws aws-java-sdk-s3 1.12.390
com.amazonaws aws-java-sdk-ses 1.12.390
com.amazonaws aws-java-sdk-simpledb 1.12.390
com.amazonaws aws-java-sdk-simpleworkflow 1.12.390
com.amazonaws aws-java-sdk-sns 1.12.390
com.amazonaws aws-java-sdk-sqs 1.12.390
com.amazonaws aws-java-sdk-ssm 1.12.390
com.amazonaws aws-java-sdk-storagegateway 1.12.390
com.amazonaws aws-java-sdk-sts 1.12.390
com.amazonaws aws-java-sdk-support 1.12.390
com.amazonaws aws-java-sdk-swf-libraries 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.12.390
com.amazonaws jmespath-java 1.12.390
com.clearspring.analytics 流 (stream) 2.9.6
com.databricks Rserve 1.8-3
com.databricks databricks-sdk-java 0.2.0
com.databricks jets3t 0.7.1-0
com.databricks.scalapb compilerplugin_2.12 0.4.15-10
com.databricks.scalapb scalapb-runtime_2.12 0.4.15-10
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml classmate 1.3.4
com.fasterxml.jackson.core jackson-annotations 2.15.2
com.fasterxml.jackson.core jackson-core 2.15.2
com.fasterxml.jackson.core jackson-databind 2.15.2
com.fasterxml.jackson.dataformat jackson-dataformat-cbor 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-joda 2.15.2
com.fasterxml.jackson.datatype jackson-datatype-jsr310 2.15.1
com.fasterxml.jackson.module jackson-module-paranamer 2.15.2
com.fasterxml.jackson.module jackson-module-scala_2.12 2.15.2
com.github.ben-manes.caffeine caffeine 2.9.3
com.github.fommil jniloader 1.1
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java 1.1-natives
com.github.fommil.netlib native_system-java 1.1
com.github.fommil.netlib native_system-java 1.1-natives
com.github.fommil.netlib netlib-native_ref-linux-x86_64 1.1-natives
com.github.fommil.netlib netlib-native_system-linux-x86_64 1.1-natives
com.github.luben zstd-jni 1.5.5-4
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.10.1
com.google.crypto.tink tink 1.9.0
com.google.errorprone error_prone_annotations 2.10.0
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 15.0
com.google.protobuf protobuf-java 2.6.1
com.helger profiler 1.1.1
com.jcraft jsch 0.1.55
com.jolbox bonecp 0.8.0.RELEASE
com.lihaoyi sourcecode_2.12 0.1.9
com.microsoft.azure azure-data-lake-store-sdk 2.3.9
com.microsoft.sqlserver mssql-jdbc 11.2.2.jre8
com.ning compress-lzf 1.1.2
com.sun.mail javax.mail 1.5.2
com.sun.xml.bind jaxb-core 2.2.11
com.sun.xml.bind jaxb-impl 2.2.11
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses lenses_2.12 0.4.12
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.twitter util-app_2.12 7.1.0
com.twitter util-core_2.12 7.1.0
com.twitter util-function_2.12 7.1.0
com.twitter util-jvm_2.12 7.1.0
com.twitter util-lint_2.12 7.1.0
com.twitter util-registry_2.12 7.1.0
com.twitter util-stats_2.12 7.1.0
com.typesafe config 1.2.1
com.typesafe.scala-logging scala-logging_2.12 3.7.2
com.uber h3 3.7.0
com.univocity univocity-parsers 2.9.1
com.zaxxer HikariCP 4.0.3
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.16.0
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-fileupload commons-fileupload 1.5
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.13.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4
dev.ludovic.netlib arpack 3.0.3
dev.ludovic.netlib blas 3.0.3
dev.ludovic.netlib lapack 3.0.3
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift aircompressor 0.24
io.delta delta-sharing-spark_2.12 0.7.1
io.dropwizard.metrics metrics-annotation 4.2.19
io.dropwizard.metrics metrics-core 4.2.19
io.dropwizard.metrics metrics-graphite 4.2.19
io.dropwizard.metrics metrics-healthchecks 4.2.19
io.dropwizard.metrics metrics-jetty9 4.2.19
io.dropwizard.metrics metrics-jmx 4.2.19
io.dropwizard.metrics metrics-json 4.2.19
io.dropwizard.metrics metrics-jvm 4.2.19
io.dropwizard.metrics metrics-servlets 4.2.19
io.netty netty-all 4.1.93.Final
io.netty netty-buffer 4.1.93.Final
io.netty netty-codec 4.1.93.Final
io.netty netty-codec-http 4.1.93.Final
io.netty netty-codec-http2 4.1.93.Final
io.netty netty-codec-socks 4.1.93.Final
io.netty netty-common 4.1.93.Final
io.netty netty-handler 4.1.93.Final
io.netty netty-handler-proxy 4.1.93.Final
io.netty netty-resolver 4.1.93.Final
io.netty netty-transport 4.1.93.Final
io.netty netty-transport-classes-epoll 4.1.93.Final
io.netty netty-transport-classes-kqueue 4.1.93.Final
io.netty netty-transport-native-epoll 4.1.93.Final
io.netty netty-transport-native-epoll 4.1.93.Final-linux-aarch_64
io.netty netty-transport-native-epoll 4.1.93.Final-linux-x86_64
io.netty netty-transport-native-kqueue 4.1.93.Final-osx-aarch_64
io.netty netty-transport-native-kqueue 4.1.93.Final-osx-x86_64
io.netty netty-transport-native-unix-common 4.1.93.Final
io.prometheus simpleclient 0.7.0
io.prometheus simpleclient_common 0.7.0
io.prometheus simpleclient_dropwizard 0.7.0
io.prometheus simpleclient_pushgateway 0.7.0
io.prometheus simpleclient_servlet 0.7.0
io.prometheus.jmx 收集器 0.12.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation activation 1.1.1
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.transaction transaction-api 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.12.1
net.java.dev.jna jna 5.8.0
net.razorvine pickle 1.3
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake snowflake-ingest-sdk 0.9.6
net.snowflake snowflake-jdbc 3.13.33
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.9.3
org.antlr stringtemplate 3.2.1
org.apache.ant ant 1.9.16
org.apache.ant ant-jsch 1.9.16
org.apache.ant ant-launcher 1.9.16
org.apache.arrow arrow-format 12.0.1
org.apache.arrow arrow-memory-core 12.0.1
org.apache.arrow arrow-memory-netty 12.0.1
org.apache.arrow arrow-vector 12.0.1
org.apache.avro avro 1.11.2
org.apache.avro avro-ipc 1.11.2
org.apache.avro avro-mapred 1.11.2
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.23.0
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.datasketches datasketches-java 3.1.0
org.apache.datasketches datasketches-memory 2.0.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-client-runtime 3.3.6
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-client 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-storage-api 2.8.1
org.apache.hive.shims hive-shims-0.23 2.3.9
org.apache.hive.shims hive-shims-common 2.3.9
org.apache.hive.shims hive-shims-scheduler 2.3.9
org.apache.httpcomponents httpclient 4.5.14
org.apache.httpcomponents httpcore 4.4.16
org.apache.ivy ivy 2.5.1
org.apache.logging.log4j log4j-1.2-api 2.20.0
org.apache.logging.log4j log4j-api 2.20.0
org.apache.logging.log4j log4j-core 2.20.0
org.apache.logging.log4j log4j-slf4j2-impl 2.20.0
org.apache.mesos mesos 1.11.0-shaded-protobuf
org.apache.orc orc-core 1.9.0-shaded-protobuf
org.apache.orc orc-mapreduce 1.9.0-shaded-protobuf
org.apache.orc orc-shims 1.9.0
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.xbean xbean-asm9-shaded 4.23
org.apache.yetus audience-annotations 0.13.0
org.apache.zookeeper zookeeper 3.6.3
org.apache.zookeeper zookeeper-jute 3.6.3
org.checkerframework checker-qual 3.31.0
org.codehaus.jackson jackson-core-asl 1.9.13
org.codehaus.jackson jackson-mapper-asl 1.9.13
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.51.v20230217
org.eclipse.jetty jetty-continuation 9.4.51.v20230217
org.eclipse.jetty jetty-http 9.4.51.v20230217
org.eclipse.jetty jetty-io 9.4.51.v20230217
org.eclipse.jetty jetty-jndi 9.4.51.v20230217
org.eclipse.jetty jetty-plus 9.4.51.v20230217
org.eclipse.jetty jetty-proxy 9.4.51.v20230217
org.eclipse.jetty jetty-security 9.4.51.v20230217
org.eclipse.jetty jetty-server 9.4.51.v20230217
org.eclipse.jetty jetty-servlet 9.4.51.v20230217
org.eclipse.jetty jetty-servlets 9.4.51.v20230217
org.eclipse.jetty jetty-util 9.4.51.v20230217
org.eclipse.jetty jetty-util-ajax 9.4.51.v20230217
org.eclipse.jetty jetty-webapp 9.4.51.v20230217
org.eclipse.jetty jetty-xml 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-api 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-client 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-common 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-server 9.4.51.v20230217
org.eclipse.jetty.websocket websocket-servlet 9.4.51.v20230217
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers jersey-container-servlet 2.40
org.glassfish.jersey.containers jersey-container-servlet-core 2.40
org.glassfish.jersey.core jersey-client 2.40
org.glassfish.jersey.core jersey-common 2.40
org.glassfish.jersey.core jersey-server 2.40
org.glassfish.jersey.inject jersey-hk2 2.40
org.hibernate.validator hibernate-validator 6.1.7.Final
org.ini4j ini4j 0.5.4
org.javassist javassist 3.29.2-GA
org.jboss.logging jboss-logging 3.3.2.Final
org.jdbi jdbi 2.63.1
org.jetbrains annotations 17.0.0
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.lz4 lz4-java 1.8.0
org.mariadb.jdbc mariadb-java-client 2.7.9
org.mlflow mlflow-spark 2.2.0
org.objenesis objenesis 2.5.1
org.postgresql postgresql 42.6.0
org.roaringbitmap RoaringBitmap 0.9.45
org.roaringbitmap shims 0.9.45
org.rocksdb rocksdbjni 8.3.2
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.12 2.12.15
org.scala-lang scala-library_2.12 2.12.15
org.scala-lang scala-reflect_2.12 2.12.15
org.scala-lang.modules scala-collection-compat_2.12 2.9.0
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scala-sbt test-interface 1.0
org.scalacheck scalacheck_2.12 1.14.2
org.scalactic scalactic_2.12 3.2.15
org.scalanlp breeze-macros_2.12 2.1.0
org.scalanlp breeze_2.12 2.1.0
org.scalatest scalatest-compatible 3.2.15
org.scalatest scalatest-core_2.12 3.2.15
org.scalatest scalatest-diagrams_2.12 3.2.15
org.scalatest scalatest-featurespec_2.12 3.2.15
org.scalatest scalatest-flatspec_2.12 3.2.15
org.scalatest scalatest-freespec_2.12 3.2.15
org.scalatest scalatest-funspec_2.12 3.2.15
org.scalatest scalatest-funsuite_2.12 3.2.15
org.scalatest scalatest-matchers-core_2.12 3.2.15
org.scalatest scalatest-mustmatchers_2.12 3.2.15
org.scalatest scalatest-propspec_2.12 3.2.15
org.scalatest scalatest-refspec_2.12 3.2.15
org.scalatest scalatest-shouldmatchers_2.12 3.2.15
org.scalatest scalatest-wordspec_2.12 3.2.15
org.scalatest scalatest_2.12 3.2.15
org.slf4j jcl-over-slf4j 2.0.7
org.slf4j jul-to-slf4j 2.0.7
org.slf4j slf4j-api 2.0.7
org.threeten threeten-extra 1.7.1
org.tukaani xz 1.9
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.typelevel spire_2.12 0.17.0
org.wildfly.openssl wildfly-openssl 1.1.3.Final
org.xerial sqlite-jdbc 3.42.0.0
org.xerial.snappy snappy-java 1.1.10.3
org.yaml snakeyaml 2.0
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.cryptools AmazonCorrettoCryptoProvider 1.6.1-linux-x86_64
software.amazon.ion ion-java 1.0.2
stax stax-api 1.0.1