Databricks Runtime 12.1(不受支持)

以下发行说明提供了由 Apache Spark 3.3.1 提供支持的 Databricks Runtime 12.1 的相关信息。

Databricks 于 2023 年 1 月发布了这些映像。

新增功能和改进

支持用于协议管理的 Delta Lake 表功能

Azure Databricks 引入了对 Delta Lake 表功能的支持,其中引入了细化的标志用于指定给定的表支持哪些功能。 请参阅 Azure Databricks 如何管理 Delta Lake 功能兼容性?

更新的预测性 I/O 目前为公共预览版

借助在启用了 Photon 的计算中启用的删除向量,预测性 I/O 现在可以加速对 Delta 表的 DELETEMERGEUPDATE 操作。 请参阅什么是预测性 I/O?

目录资源管理器现在可供所有角色使用

使用 Databricks Runtime 7.3 LTS 及更高版本时,目录资源管理器现在可供所有 Azure Databricks 角色使用。

支持在单个流式处理查询中使用多个有状态运算符

用户现在可以在流式处理查询中使用追加模式链接有状态运算符。 并非完全支持所有运算符。 流-流时间间隔联接和 flatMapGroupsWithState 不允许链接其他有状态运算符。

对协议缓冲区的支持推出了公共预览版

可以使用 from_protobufto_protobuf 函数在二进制和结构类型之间交换数据。 请参阅读取和写入协议缓冲区

支持 Confluent 架构注册表身份验证

Azure Databricks 与 Confluent 架构注册表的集成现在支持具有身份验证的外部架构注册表地址。 此功能适用于 from_avroto_avrofrom_protobufto_protobuf 函数。 请参阅 ProtobufAvro

支持使用 Delta Sharing 共享来共享表历史记录

现在,可以使用 Delta Sharing 来共享某个表及其完整历史记录,使接收者能够执行按时间顺序查看查询,并使用 Spark 结构化流式处理来查询表。 建议使用 WITH HISTORY 而不是 CHANGE DATA FEED,不过后者仍受支持。 请参阅 ALTER SHARE将表添加到共享

支持使用 Delta Sharing 共享进行流式处理

Spark 结构化流式处理现在支持已使用 WITH HISTORY 共享的源 Delta Sharing 表中的格式 deltasharing

目录中的 Delta Sharing 表现在支持使用时间戳的表版本

现在可以在 SELECT 语句中使用 SQL 语法 TIMESTAMP AS OF 来指定目录中装载的 Delta Sharing 表的版本。 必须使用 WITH HISTORY 共享表。

支持 MERGE INTO 的 WHEN NOT MATCHED BY SOURCE

现在可以将 WHEN NOT MATCHED BY SOURCE 子句添加到 MERGE INTO,以根据合并条件更新或删除所选表中的、在源表中没有匹配项的行。 新子句在 SQL、Python、Scala 和 Java 中可用。 请参阅 MERGE INTO

针对 CONVERT TO DELTA 优化的统计信息收集

CONVERT TO DELTA 操作的统计信息收集现在速度要快得多。 这减少了可使用 NO STATISTICS 提高效率的工作负载数。

Unity 目录支持撤销删除表

此功能最初在公共预览版中发布。 自 2023 年 10 月 25 日起进入正式发布阶段。

现在可以在删除后 7 天内在现有架构中取消删除某个已删除的托管表或外部表。 请参阅 UNDROP TABLESHOW TABLES DROPPED

库升级

  • 升级了 Python 库:
    • filelock 已从 3.8.0 升级到 3.8.2
    • platformdirs 已从 2.5.4 升级到 2.6.0
    • setuptools 已从 58.0.4 升级到 61.2.0
  • 升级了 R 库:
  • 升级了 Java 库:
    • io.delta.delta-sharing-spark_2.12 已从 0.5.2 升级到 0.6.2
    • org.apache.hive.hive-storage-api 已从 2.7.2 升级到 2.8.1
    • org.apache.parquet.parquet-column 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.apache.parquet.parquet-common 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.apache.parquet.parquet-encoding 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.apache.parquet.parquet-format-structures 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.apache.parquet.parquet-hadoop 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.apache.parquet.parquet-jackson 已从 1.12.3-databricks-0001 升级到 1.12.3-databricks-0002
    • org.tukaani.xz 已从 1.8 升级到 1.9

Apache Spark

Databricks Runtime 12.1 包含 Apache Spark 3.3.1。 此版本包括 Databricks Runtime 12.0(不受支持)中所包含的所有 Spark 修复和改进,以及对 Spark 进行的以下其他 bug 修复和改进:

  • [SPARK-41405] [SC-119769][12.1.0] 还原“[SC-119411][SQL] 集中化列解析逻辑”和“[SC-117170][SPARK-41338][SQL] 在同一个分析器批中解析外部引用和普通列”
  • [SPARK-41405] [SC-119411][SQL] 集中化列解析逻辑
  • [SPARK-41859] [SC-119514][SQL] CreateHiveTableAsSelectCommand 应正确设置覆盖标志
  • [SPARK-41659] [SC-119526][CONNECT][12.X] 在 pyspark.sql.connect.readwriter 中启用 doctests
  • [SPARK-41858] [SC-119427][SQL] 修复默认值功能导致的 ORC 读取器性能回归
  • [SPARK-41807] [SC-119399][CORE] 删除不存在的错误类:UNSUPPORTED_FEATURE.DISTRIBUTE_BY
  • [SPARK-41578] [12.x][SC-119273][SQL] 为 _LEGACY_ERROR_TEMP_2141 分配名称
  • [SPARK-41571] [SC-119362][SQL] 为 _LEGACY_ERROR_TEMP_2310 分配名称
  • [SPARK-41810] [SC-119373][CONNECT] 从 SparkSession.createDataFrame 中的字典列表推理名称
  • [SPARK-40993] [SC-119504][SPARK-41705][CONNECT][12.X] 将 Spark Connect 文档和脚本移至 dev/ 和 Python 文档
  • [SPARK-41534] [SC-119456][CONNECT][SQL][12.x] 为 Spark Connect 设置初始客户端模块
  • [SPARK-41365] [SC-118498][UI][3.3] 无法为特定 yarn 环境中的代理加载阶段 UI 页
  • [SPARK-41481] [SC-118150][CORE][SQL] 重用 INVALID_TYPED_LITERAL 而不是 _LEGACY_ERROR_TEMP_0020
  • [SPARK-41049] [SC-119305][SQL] 重新审查有状态表达式处理
  • [SPARK-41726] [SC-119248][SQL] 删除 OptimizedCreateHiveTableAsSelectCommand
  • [SPARK-41271] [SC-118648][SC-118348][SQL] sql() 支持参数化 SQL 查询
  • [SPARK-41066] [SC-119344][CONNECT][PYTHON] 实现 DataFrame.sampleBy DataFrame.stat.sampleBy
  • [SPARK-41407] [SC-119402][SC-119012][SQL][ALL TESTS] 将 v1 写入拉取到 WriteFiles
  • [SPARK-41565] [SC-118868][SQL] 添加错误类 UNRESOLVED_ROUTINE
  • [SPARK-41668] [SC-118925][SQL] DECODE 函数在传递 NULL 时返回错误结果
  • [SPARK-41554] [SC-119274] 修复小数位数减少 m 时小数位数的变化...
  • [SPARK-41065] [SC-119324][CONNECT][PYTHON] 实现 DataFrame.freqItems DataFrame.stat.freqItems
  • [SPARK-41742] [SC-119404][SPARK-41745][CONNECT][12.X] 重新启用文档测试并将缺失的列别名添加到 count()
  • [SPARK-41069] [SC-119310][CONNECT][PYTHON] 实现 DataFrame.approxQuantileDataFrame.stat.approxQuantile
  • [SPARK-41809] [SC-119367][CONNECT][PYTHON] 使函数 from_json 支持 DataType 架构
  • [SPARK-41804] [SC-119382][SQL] 在 InterpretedUnsafeProjection 中为 UDT 数组选择正确的元素大小
  • [SPARK-41786] [SC-119308][CONNECT][PYTHON] 删除重复的帮助器函数
  • [SPARK-41745] [SC-119378][SPARK-41789][12.X] 使 createDataFrame 支持行列表
  • [SPARK-41344] [SC-119217][SQL] 在 SupportsCatalogOptions 目录中找不到表时使错误的表达更明确
  • [SPARK-41803] [SC-119380][CONNECT][PYTHON] 添加缺失的函数 log(arg1, arg2)
  • [SPARK-41808] [SC-119356][CONNECT][PYTHON] 使 JSON 函数支持选项
  • [SPARK-41779] [SC-119275][SPARK-41771][CONNECT][PYTHON] 使 __getitem__ 支持筛选器和 select
  • [SPARK-41783] [SC-119288][SPARK-41770][CONNECT][PYTHON] 使列操作支持 None
  • [SPARK-41440] [SC-119279][CONNECT][PYTHON] 避免对一般示例使用缓存运算符。
  • [SPARK-41785] [SC-119290][CONNECT][PYTHON] 实现 GroupedData.mean
  • [SPARK-41629] [SC-119276][CONNECT] 支持关系和表达式中的协议扩展
  • [SPARK-41417] [SC-118000][CORE][SQL] 将 _LEGACY_ERROR_TEMP_0019 重命名为 INVALID_TYPED_LITERAL
  • [SPARK-41533] [SC-119342][CONNECT][12.X] Spark Connect 服务器/客户端的正确错误处理
  • [SPARK-41292] [SC-119357][CONNECT][12.X] 支持 pyspark.sql.window 命名空间中的窗口
  • [SPARK-41493] [SC-119339][CONNECT][PYTHON] 使 csv 函数支持选项
  • [SPARK-39591] [SC-118675][SS] 异步进度跟踪
  • [SPARK-41767] [SC-119337][CONNECT][PYTHON][12.X] 实现 Column.{withField, dropFields}
  • [SPARK-41068] [SC-119268][CONNECT][PYTHON] 实现 DataFrame.stat.corr
  • [SPARK-41655] [SC-119323][CONNECT][12.X] 在 pyspark.sql.connect.column 中启用 doctests
  • [SPARK-41738] [SC-119170][CONNECT] 在 SparkSession 缓存中混合 ClientId
  • [SPARK-41354] [SC-119194][CONNECT] 将 RepartitionByExpression 添加到 proto
  • [SPARK-41784] [SC-119289][CONNECT][PYTHON] 在列中添加缺失的 __rmod__
  • [SPARK-41778] [SC-119262][SQL] 向 ArrayAggregate 添加别名“reduce”
  • [SPARK-41067] [SC-119171][CONNECT][PYTHON] 实现 DataFrame.stat.cov
  • [SPARK-41764] [SC-119216][CONNECT][PYTHON] 使内部字符串操作名称与 FunctionRegistry 保持一致
  • [SPARK-41734] [SC-119160][CONNECT] 为目录添加父消息
  • [SPARK-41742] [SC-119263] 支持 df.groupBy().agg({"*":"count"})
  • [SPARK-41761] [SC-119213][CONNECT][PYTHON] 修复算术运算:__neg____pow____rpow__
  • [SPARK-41062] [SC-118182][SQL] 将 UNSUPPORTED_CORRELATED_REFERENCE 重命名为 CORRELATED_REFERENCE
  • [SPARK-41751] [SC-119211][CONNECT][PYTHON] 修复 Column.{isNull, isNotNull, eqNullSafe}
  • [SPARK-41728] [SC-119164][CONNECT][PYTHON][12.X] 实现 unwrap_udt 函数
  • [SPARK-41333] [SC-119195][SPARK-41737] 实现 GroupedData.{min, max, avg, sum}
  • [SPARK-41751] [SC-119206][CONNECT][PYTHON] 修复 Column.{bitwiseAND, bitwiseOR, bitwiseXOR}
  • [SPARK-41631] [SC-101081][SQL] 支持 Aggregate 中的隐式横向列别名解析
  • [SPARK-41529] [SC-119207][CONNECT][12.X] 实现 SparkSession.stop
  • [SPARK-41729] [SC-119205][CORE][SQL][12.X] 将 _LEGACY_ERROR_TEMP_0011 重命名为 UNSUPPORTED_FEATURE.COMBINATION_QUERY_RESULT_CLAUSES
  • [SPARK-41717] [SC-119078][CONNECT][12.X] 在 LogicalPlan 中删除重复的输出和 repr_html
  • [SPARK-41740] [SC-119169][CONNECT][PYTHON] 实现 Column.name
  • [SPARK-41733] [SC-119163][SQL][SS] 对 ResolveWindowTime 规则应用基于树模式的修剪
  • [SPARK-41732] [SC-119157][SQL][SS] 对 SessionWindowing 规则应用基于树模式的修剪
  • [SPARK-41498] [SC-119018] 通过联合传播元数据
  • [SPARK-41731] [SC-119166][CONNECT][PYTHON][12.X] 实现列访问器
  • [SPARK-41736] [SC-119161][CONNECT][PYTHON] pyspark_types_to_proto_types 应支持 ArrayType
  • [SPARK-41473] [SC-119092][CONNECT][PYTHON] 实现 format_number 函数
  • [SPARK-41707] [SC-119141][CONNECT][12.X] 在 Spark Connect 中实现目录 API
  • [SPARK-41710] [SC-119062][CONNECT][PYTHON] 实现 Column.between
  • [SPARK-41235] [SC-119088][SQL][PYTHON] 高阶函数:array_compact 实现
  • [SPARK-41518] [SC-118453][SQL] 为错误类 _LEGACY_ERROR_TEMP_2422 分配名称
  • [SPARK-41723] [SC-119091][CONNECT][PYTHON] 实现 sequence 函数
  • [SPARK-41703] [SC-119060][CONNECT][PYTHON] 在 Literal 中组合 NullType 和 typed_null
  • [SPARK-41722] [SC-119090][CONNECT][PYTHON] 实现 3 个缺失的时间窗口函数
  • [SPARK-41503] [SC-119043][CONNECT][PYTHON] 实现分区转换函数
  • [SPARK-41413] [SC-118968][SQL] 避免当分区键不匹配但联接表达式兼容时存储分区联接中出现随机排列
  • [SPARK-41700] [SC-119046][CONNECT][PYTHON] 删除 FunctionBuilder
  • [SPARK-41706] [SC-119094][CONNECT][PYTHON] pyspark_types_to_proto_types 应支持 MapType
  • [SPARK-41702] [SC-119049][CONNECT][PYTHON] 添加无效的列操作
  • [SPARK-41660] [SC-118866][SQL] 仅在使用元数据列时才传播这些列
  • [SPARK-41637] [SC-119003][SQL] ORDER BY ALL
  • [SPARK-41513] [SC-118945][SQL] 实现累加器以收集每个映射器的行计数指标
  • [SPARK-41647] [SC-119064][CONNECT][12.X] 删除 pyspark.sql.connect.functions 中的重复 docstrings
  • [SPARK-41701] [SC-119048][CONNECT][PYTHON] 使列操作支持 decimal
  • [SPARK-41383] [SC-119015][SPARK-41692][SPARK-41693] 实现 rollupcubepivot
  • [SPARK-41635] [SC-118944][SQL] GROUP BY ALL
  • [SPARK-41645] [SC-119057][CONNECT][12.X] 删除 pyspark.sql.connect.dataframe 中的重复 docstrings
  • [SPARK-41688] [SC-118951][CONNECT][PYTHON] 将 Expressions 移到 expressions.py
  • [SPARK-41687] [SC-118949][CONNECT] 删除 pyspark.sql.connect.group 中的重复 docstrings
  • [SPARK-41649] [SC-118950][CONNECT] 删除 pyspark.sql.connect.window 中的重复 docstrings
  • [SPARK-41681] [SC-118939][CONNECT] 将 GroupedData 析出到 group.py
  • [SPARK-41292] [SC-119038][SPARK-41640][SPARK-41641][CONNECT][PYTHON][12.X] 实现 Window 函数
  • [SPARK-41675] [SC-119031][SC-118934][CONNECT][PYTHON][12.X] 使列操作支持 datetime
  • [SPARK-41672] [SC-118929][CONNECT][PYTHON] 启用已弃用的函数
  • [SPARK-41673] [SC-118932][CONNECT][PYTHON] 实现 Column.astype
  • [SPARK-41364] [SC-118865][CONNECT][PYTHON] 实现 broadcast 函数
  • [SPARK-41648] [SC-118914][CONNECT][12.X] 删除 pyspark.sql.connect.readwriter 中的重复 docstrings
  • [SPARK-41646] [SC-118915][CONNECT][12.X] 删除 pyspark.sql.connect.session 中的重复 docstrings
  • [SPARK-41643] [SC-118862][CONNECT][12.X] 删除 pyspark.sql.connect.column 中的重复 docstrings
  • [SPARK-41663] [SC-118936][CONNECT][PYTHON][12.X] 实现其余的 Lambda 函数
  • [SPARK-41441] [SC-118557][SQL] 支持在不需要子输出的情况下生成以托管外部引用
  • [SPARK-41669] [SC-118923][SQL] canCollapseExpressions 中的早期修剪
  • [SPARK-41639] [SC-118927][SQL][PROTOBUF]:从 SchemaConverters 中删除 ScalaReflectionLock
  • [SPARK-41464] [SC-118861][CONNECT][PYTHON] 实现 DataFrame.to
  • [SPARK-41434] [SC-118857][CONNECT][PYTHON] 初始 LambdaFunction 实现
  • [SPARK-41539] [SC-118802][SQL] 针对 LogicalRDD 的逻辑计划中的输出重新映射统计信息和约束
  • [SPARK-41396] [SC-118786][SQL][PROTOBUF] OneOf 字段支持和递归检查
  • [SPARK-41528] [SC-118769][CONNECT][12.X] 合并 Spark Connect 和 PySpark API 的命名空间
  • [SPARK-41568] [SC-118715][SQL] 为 _LEGACY_ERROR_TEMP_1236 分配名称
  • [SPARK-41440] [SC-118788][CONNECT][PYTHON] 实现 DataFrame.randomSplit
  • [SPARK-41583] [SC-118718][SC-118642][CONNECT][PROTOBUF] 将 Spark Connect 和 protobuf 添加到 setup.py 并指定依赖项
  • [SPARK-27561] [SC-101081][12.x][SQL] 支持 Project 中的隐式横向列别名解析
  • [SPARK-41535] [SC-118645][SQL] 为 InterpretedUnsafeProjectionInterpretedMutableProjection 中的日历间隔字段正确设置 null
  • [SPARK-40687] [SC-118439][SQL] 支持数据掩码内置函数“mask”
  • [SPARK-41520] [SC-118440][SQL] 拆分 AND_OR TreePattern 以分隔 AND 和 OR TreePattern
  • [SPARK-41349] [SC-118668][CONNECT][PYTHON] 实现 DataFrame.hint
  • [SPARK-41546] [SC-118541][CONNECT][PYTHON] pyspark_types_to_proto_types 应支持 StructType。
  • [SPARK-41334] [SC-118549][CONNECT][PYTHON] 将 SortOrder proto 从关系移到表达式
  • [SPARK-41387] [SC-118450][SS] 为 Trigger.AvailableNow 声明来自 Kafka 数据源的当前结束偏移量
  • [SPARK-41508] [SC-118445][CORE][SQL] 将 _LEGACY_ERROR_TEMP_1180 重命名为 UNEXPECTED_INPUT_TYPE 并删除 _LEGACY_ERROR_TEMP_1179
  • [SPARK-41319] [SC-118441][CONNECT][PYTHON] 使用 UnresolvedFunction 实现 Column.{when, otherwise} 和函数 when
  • [SPARK-41541] [SC-118460][SQL] 修复对 SQLShuffleWriteMetricsReporter.decRecordsWritten() 中错误子方法的调用
  • [SPARK-41453] [SC-118458][CONNECT][PYTHON] 实现 DataFrame.subtract
  • [SPARK-41248] [SC-118436][SC-118303][SQL] 添加“spark.sql.json.enablePartialResults”以启用/禁用 JSON 部分结果
  • [SPARK-41437] 还原“[SC-117601][SQL] 不要为 v1 写入回退优化输入查询两次”
  • [SPARK-41472] [SC-118352][CONNECT][PYTHON] 实现其余的字符串/二进制函数
  • [SPARK-41526] [SC-118355][CONNECT][PYTHON] 实现 Column.isin
  • [SPARK-32170] [SC-118384] [CORE] 通过阶段任务指标改进推测。
  • [SPARK-41524] [SC-118399][SS] 区分 StateStoreConf 中的 SQLConf 和 extraOptions 在 RocksDBConf 中的用法
  • [SPARK-41465] [SC-118381][SQL] 为错误类 _LEGACY_ERROR_TEMP_1235 分配名称
  • [SPARK-41511] [SC-118365][SQL] LongToUnsafeRowMap 支持 ignoresDuplicatedKey
  • [SPARK-41409] [SC-118302][CORE][SQL] 将 _LEGACY_ERROR_TEMP_1043 重命名为 WRONG_NUM_ARGS.WITHOUT_SUGGESTION
  • [SPARK-41438] [SC-118344][CONNECT][PYTHON] 实现 DataFrame.colRegex
  • [SPARK-41437] [SC-117601][SQL] 不要为 v1 写入回退优化输入查询两次
  • [SPARK-41314] [SC-117172][SQL] 为错误类 _LEGACY_ERROR_TEMP_1094 分配名称
  • [SPARK-41443] [SC-118004][SQL] 为错误类 _LEGACY_ERROR_TEMP_1061 分配名称
  • [SPARK-41506] [SC-118241][CONNECT][PYTHON] 重构 LiteralExpression 以支持 DataType
  • [SPARK-41448] [SC-118046] 在 FileBatchWriter 和 FileFormatWriter 中创建一致的 MR 作业 ID
  • [SPARK-41456] [SC-117970][SQL] 提高 try_cast 的性能
  • [SPARK-41495] [SC-118125][CONNECT][PYTHON] 实现 collection 函数:P~Z
  • [SPARK-41478] [SC-118167][SQL] 为错误类 _LEGACY_ERROR_TEMP_1234 分配名称
  • [SPARK-41406] [SC-118161][SQL] 重构 NUM_COLUMNS_MISMATCH 的错误消息以使其更一般化
  • [SPARK-41404] [SC-118016][SQL] 重构 ColumnVectorUtils#toBatch 以使 ColumnarBatchSuite#testRandomRows 测试更多基元 dataType
  • [SPARK-41468] [SC-118044][SQL] 修复 EquivalentExpressions 中的 PlanExpression 处理
  • [SPARK-40775] [SC-118045][SQL] 修复 V2 文件扫描的重复描述条目
  • [SPARK-41492] [SC-118042][CONNECT][PYTHON] 实现 MISC 函数
  • [SPARK-41459] [SC-118005][SQL] 修复 thrift 服务器操作日志输出为空的问题
  • [SPARK-41395] [SC-117899][SQL] InterpretedMutableProjection 应使用 setDecimal 为不安全行中的小数设置 null 值
  • [SPARK-41376] [SC-117840][CORE][3.3] 更正执行程序启动时的 Netty preferDirectBufs 检查逻辑
  • [SPARK-41484] [SC-118159][SC-118036][CONNECT][PYTHON][12.x] 实现 collection 函数:E~M
  • [SPARK-41389] [SC-117426][CORE][SQL] 重用 WRONG_NUM_ARGS 而不是 _LEGACY_ERROR_TEMP_1044
  • [SPARK-41462] [SC-117920][SQL] 日期和时间戳类型可以向上强制转换为 TimestampNTZ
  • [SPARK-41435] [SC-117810][SQL] 更改为在 expressions 不为空时为 curdate() 调用 invalidFunctionArgumentsError
  • [SPARK-41187] [SC-118030][CORE] 发生 ExecutorLost 时 AppStatusListener 中的 LiveExecutor MemoryLeak
  • [SPARK-41360] [SC-118083][CORE] 避免当执行程序丢失时重新注册 BlockManager
  • [SPARK-41378] [SC-117686][SQL] 支持 DS v2 中的列统计信息
  • [SPARK-41402] [SC-117910][SQL][CONNECT][12.X] 重写 StringDecode 的 prettyName
  • [SPARK-41414] [SC-118041][CONNECT][PYTHON][12.x] 实现日期/时间戳函数
  • [SPARK-41329] [SC-117975][CONNECT] 解决 Spark Connect 中的循环导入
  • [SPARK-41477] [SC-118025][CONNECT][PYTHON] 正确推理文本整数的数据类型
  • [SPARK-41446] [SC-118024][CONNECT][PYTHON][12.x] 使 createDataFrame 支持架构和更多输入数据集类型
  • [SPARK-41475] [SC-117997][CONNECT] 修复 lint-scala 命令错误和拼写错误
  • [SPARK-38277] [SC-117799][SS] RocksDB 状态存储提交后清除写入批
  • [SPARK-41375] [SC-117801][SS] 避免空的最新 KafkaSourceOffset
  • [SPARK-41412] [SC-118015][CONNECT] 实现 Column.cast
  • [SPARK-41439] [SC-117893][CONNECT][PYTHON] 实现 DataFrame.meltDataFrame.unpivot
  • [SPARK-41399] [SC-118007][SC-117474][CONNECT] 将列相关测试重构为 test_connect_column
  • [SPARK-41351] [SC-117957][SC-117412][CONNECT][12.x] 列应支持 != 运算符
  • [SPARK-40697] [SC-117806][SC-112787][SQL] 添加读取端字符填充以涵盖外部数据文件
  • [SPARK-41349] [SC-117594][CONNECT][12.X] 实现 DataFrame.hint
  • [SPARK-41338] [SC-117170][SQL] 在同一个分析器批中解析外部引用和正常列
  • [SPARK-41436] [SC-117805][CONNECT][PYTHON] 实现 collection 函数:A~C
  • [SPARK-41445] [SC-117802][CONNECT] 实现 DataFrameReader.parquet
  • [SPARK-41452] [SC-117865][SQL] 当格式为 null 时 to_char 应返回 null
  • [SPARK-41444] [SC-117796][CONNECT] 支持 read.json()
  • [SPARK-41398] [SC-117508][SQL] 当运行时筛选后的分区键不匹配时,放宽存储分区联接的约束
  • [SPARK-41228] [SC-117169][SQL] 重命名并改进 COLUMN_NOT_IN_GROUP_BY_CLAUSE 的错误消息。
  • [SPARK-41381] [SC-117593][CONNECT][PYTHON] 实现 count_distinctsum_distinct 函数
  • [SPARK-41433] [SC-117596][CONNECT] 使 Max Arrow BatchSize 可配置
  • [SPARK-41397] [SC-117590][CONNECT][PYTHON] 实现部分字符串/二进制函数
  • [SPARK-41382] [SC-117588][CONNECT][PYTHON] 实现 product 函数
  • [SPARK-41403] [SC-117595][CONNECT][PYTHON] 实现 DataFrame.describe
  • [SPARK-41366] [SC-117580][CONNECT] DF.groupby.agg() 应该兼容
  • [SPARK-41369] [SC-117584][CONNECT] 将 connect common 添加到服务器的阴影 jar
  • [SPARK-41411] [SC-117562][SS] 多状态运算符水印支持 bug 修复
  • [SPARK-41176] [SC-116630][SQL] 为错误类 _LEGACY_ERROR_TEMP_1042 分配名称
  • [SPARK-41380] [SC-117476][CONNECT][PYTHON][12.X] 实现聚合函数
  • [SPARK-41363] [SC-117470][CONNECT][PYTHON][12.X] 实现常规函数
  • [SPARK-41305] [SC-117411][CONNECT] 改进命令 proto 的文档
  • [SPARK-41372] [SC-117427][CONNECT][PYTHON] 实现数据帧 TempView
  • [SPARK-41379] [SC-117420][SS][PYTHON] 在 PySpark 中的 foreachBatch 接收器的用户函数中的数据帧中提供克隆的 spark 会话
  • [SPARK-41373] [SC-117405][SQL][ERROR] 将 CAST_WITH_FUN_SUGGESTION 重命名为 CAST_WITH_FUNC_SUGGESTION
  • [SPARK-41358] [SC-117417][SQL] 重构 ColumnVectorUtils#populate 方法以使用 PhysicalDataType 而不是 DataType
  • [SPARK-41355] [SC-117423][SQL] 解决 hive 表名称验证问题
  • [SPARK-41390] [SC-117429][SQL] 更新用于在 UDFRegistration 中生成 register 函数的脚本
  • [SPARK-41206] [SC-117233][SC-116381][SQL] 将错误类 _LEGACY_ERROR_TEMP_1233 重命名为 COLUMN_ALREADY_EXISTS
  • [SPARK-41357] [SC-117310][CONNECT][PYTHON][12.X] 实现数学函数
  • [SPARK-40970] [SC-117308][CONNECT][PYTHON] 在参数中支持联接的 List[Column]
  • [SPARK-41345] [SC-117178][CONNECT] 将提示添加到 Connect Proto
  • [SPARK-41226] [SC-117194][SQL][12.x] 引入物理类型重构 Spark 类型
  • [SPARK-41317] [SC-116902][CONNECT][PYTHON][12.X] 添加对 DataFrameWriter 的基本支持
  • [SPARK-41347] [SC-117173][CONNECT] 将强制转换添加到表达式 proto
  • [SPARK-41323] [SC-117128][SQL] 支持 current_schema
  • [SPARK-41339] [SC-117171][SQL] 关闭并重新创建 RocksDB 写入批而不是仅仅清除
  • [SPARK-41227] [SC-117165][CONNECT][PYTHON] 实现数据帧交叉联接
  • [SPARK-41346] [SC-117176][CONNECT][PYTHON] 实现 ascdesc 函数
  • [SPARK-41343] [SC-117166][CONNECT] 将 FunctionName 分析移到服务器端
  • [SPARK-41321] [SC-117163][CONNECT] 支持 UnresolvedStar 的目标字段
  • [SPARK-41237] [SC-117167][SQL] 为 _LEGACY_ERROR_TEMP_0030 重用错误类 UNSUPPORTED_DATATYPE
  • [SPARK-41309] [SC-116916][SQL] 重用 INVALID_SCHEMA.NON_STRING_LITERAL 而不是 _LEGACY_ERROR_TEMP_1093
  • [SPARK-41276] [SC-117136][SQL][ML][MLLIB][PROTOBUF][PYTHON][R][SS][AVRO] 优化 StructType 的构造函数用法
  • [SPARK-41335] [SC-117135][CONNECT][PYTHON] 支持列中的 IsNull 和 IsNotNull
  • [SPARK-41332] [SC-117131][CONNECT][PYTHON] 修复 SortOrder 中的 nullOrdering
  • [SPARK-41325] [SC-117132][CONNECT][12.X] 修复 DF 上 GroupBy 缺少的 avg()
  • [SPARK-41327] [SC-117137][CORE] 通过切换 On/OffHeapStorageMemory 信息修复 SparkStatusTracker.getExecutorInfos
  • [SPARK-41315] [SC-117129][CONNECT][PYTHON] 实现 DataFrame.replaceDataFrame.na.replace
  • [SPARK-41328] [SC-117125][CONNECT][PYTHON] 向列添加逻辑和字符串 API
  • [SPARK-41331] [SC-117127][CONNECT][PYTHON] 添加 orderBydrop_duplicates
  • [SPARK-40987] [SC-117124][CORE] BlockManager#removeBlockInternal 应确保正常解锁
  • [SPARK-41268] [SC-117102][SC-116970][CONNECT][PYTHON] 重构“Column”以实现 API 兼容性
  • [SPARK-41312] [SC-116881][CONNECT][PYTHON][12.X] 实现 DataFrame.withColumnRenamed
  • [SPARK-41221] [SC-116607][SQL] 添加错误类 INVALID_FORMAT
  • [SPARK-41272] [SC-116742][SQL] 为错误类 _LEGACY_ERROR_TEMP_2019 分配名称
  • [SPARK-41180] [SC-116760][SQL] 重用 INVALID_SCHEMA 而不是 _LEGACY_ERROR_TEMP_1227
  • [SPARK-41260] [SC-116880][PYTHON][SS][12.X] 在 GroupState 更新中将 NumPy 实例强制转换为 Python 基元类型
  • [SPARK-41174] [SC-116609][CORE][SQL] 针对 to_binary() 的无效 format,向用户传播错误类
  • [SPARK-41264] [SC-116971][CONNECT][PYTHON] 使 Literal 支持更多数据类型
  • [SPARK-41326] [SC-116972] [CONNECT] 修复重复数据删除缺失输入的问题
  • [SPARK-41316] [SC-116900][SQL] 尽可能启用尾递归
  • [SPARK-41297] [SC-116931] [CONNECT] [PYTHON] 支持筛选器中的字符串表达式。
  • [SPARK-41256] [SC-116932][SC-116883][CONNECT] 实现 DataFrame.withColumn(s)
  • [SPARK-41182] [SC-116632][SQL] 为错误类 _LEGACY_ERROR_TEMP_1102 分配名称
  • [SPARK-41181] [SC-116680][SQL] 将映射选项错误迁移到错误类
  • [SPARK-40940] [SC-115993][12.x] 删除流式处理查询的多状态运算符检查程序。
  • [SPARK-41310] [SC-116885][CONNECT][PYTHON] 实现 DataFrame.toDF
  • [SPARK-41179] [SC-116631][SQL] 为错误类 _LEGACY_ERROR_TEMP_1092 分配名称
  • [SPARK-41003] [SC-116741][SQL] 在禁用 codegen 时 BHJ LeftAnti 不更新 numOutputRows
  • [SPARK-41148] [SC-116878][CONNECT][PYTHON] 实现 DataFrame.dropnaDataFrame.na.drop
  • [SPARK-41217] [SC-116380][SQL] 添加错误类 FAILED_FUNCTION_CALL
  • [SPARK-41308] [SC-116875][CONNECT][PYTHON] 改进 DataFrame.count()
  • [SPARK-41301] [SC-116786] [CONNECT] 均匀化 SparkSession.range() 的行为
  • [SPARK-41306] [SC-116860][CONNECT] 改进 Connect Expression proto 文档
  • [SPARK-41280] [SC-116733][CONNECT] 实现 DataFrame.tail
  • [SPARK-41300] [SC-116751] [CONNECT] 将未设置的架构解释为架构
  • [SPARK-41255] [SC-116730][SC-116695] [CONNECT] 重命名 RemoteSparkSession
  • [SPARK-41250] [SC-116788][SC-116633][CONNECT][PYTHON] DataFrame. toPandas 不应返回可选的 pandas 数据帧
  • [SPARK-41291] [SC-116738][CONNECT][PYTHON] DataFrame.explain 应输出并返回 None
  • [SPARK-41278] [SC-116732][CONNECT] 清理 Expression.proto 中未使用的 QualifiedAttribute
  • [SPARK-41097] [SC-116653][CORE][SQL][SS][PROTOBUF] 基于 Scala 2.13 代码删除多余的集合转换
  • [SPARK-41261] [SC-116718][PYTHON][SS] 修复当分组键的列未按从早到晚的时间顺序排列时 applyInPandasWithState 的问题
  • [SPARK-40872] [SC-116717][3.3] 当推送合并的随机排列块大小为零时回退到原始随机排列块
  • [SPARK-41114] [SC-116628][CONNECT] 支持 LocalRelation 的本地数据
  • [SPARK-41216] [SC-116678][CONNECT][PYTHON] 实现 DataFrame.{isLocal, isStreaming, printSchema, inputFiles}
  • [SPARK-41238] [SC-116670][CONNECT][PYTHON] 支持更多内置数据类型
  • [SPARK-41230] [SC-116674][CONNECT][PYTHON] 从聚合表达式类型中删除 str
  • [SPARK-41224] [SC-116652][SPARK-41165][SPARK-41184][CONNECT] 优化了用于从服务器流式传输到客户端的基于 Arrow 的收集实现
  • [SPARK-41222] [SC-116625][CONNECT][PYTHON] 统一类型化定义
  • [SPARK-41225] [SC-116623] [CONNECT] [PYTHON] 禁用不受支持的函数。
  • [SPARK-41201] [SC-116526][CONNECT][PYTHON] 在 Python 客户端中实现 DataFrame.SelectExpr
  • [SPARK-41203] [SC-116258] [CONNECT] 在 Python 客户端中支持 Dataframe.tansform。
  • [SPARK-41213] [SC-116375][CONNECT][PYTHON] 实现 DataFrame.__repr__DataFrame.dtypes
  • [SPARK-41169] [SC-116378][CONNECT][PYTHON] 实现 DataFrame.drop
  • [SPARK-41172] [SC-116245][SQL] 将不明确的引用错误迁移到错误类
  • [SPARK-41122] [SC-116141][CONNECT] 解释 API 可以支持不同的模式
  • [SPARK-41209] [SC-116584][SC-116376][PYTHON] 改进 _merge_type 方法中的 PySpark 类型推理
  • [SPARK-41196] [SC-116555][SC-116179] [CONNECT] 均匀化 Spark 连接服务器上的 protobuf 版本以使用相同的主版本。
  • [SPARK-35531] [SC-116409][SQL] 在无需进行不必要转换的情况下更新 hive 表统计信息
  • [SPARK-41154] [SC-116289][SQL] 遵循按时间顺序查看规范的查询的错误关系缓存
  • [SPARK-41212] [SC-116554][SC-116389][CONNECT][PYTHON] 实现 DataFrame.isEmpty
  • [SPARK-41135] [SC-116400][SQL] 将 UNSUPPORTED_EMPTY_LOCATION 重命名为 INVALID_EMPTY_LOCATION
  • [SPARK-41183] [SC-116265][SQL] 添加一个扩展 API 以执行缓存计划规范化
  • [SPARK-41054] [SC-116447][UI][CORE] 在实时 UI 中支持将 RocksDB 用作 KVStore
  • [SPARK-38550] [SC-115223] 还原“[SQL][CORE] 使用基于磁盘的存储为实时 UI 保存更多调试信息”
  • [SPARK-41173] [SC-116185][SQL] 将 require() 从字符串表达式的构造函数中移出
  • [SPARK-41188] [SC-116242][CORE][ML] 对于 spark 执行程序 JVM 进程,默认将 executorEnv OMP_NUM_THREADS 默认设置为 spark.task.cpus
  • [SPARK-41130] [SC-116155][SQL] 将 OUT_OF_DECIMAL_TYPE_RANGE 重命名为 NUMERIC_OUT_OF_SUPPORTED_RANGE
  • [SPARK-41175] [SC-116238][SQL] 为错误类 _LEGACY_ERROR_TEMP_1078 分配名称
  • [SPARK-41106] [SC-116073][SQL] 创建 AttributeMap 时减少集合转换
  • [SPARK-41139] [SC-115983][SQL] 改进错误类:PYTHON_UDF_IN_ON_CLAUSE
  • [SPARK-40657] [SC-115997][PROTOBUF] 需要为 Java 类 jar 分装,改进错误处理
  • [SPARK-40999] [SC-116168] 提示传播到子查询
  • [SPARK-41017] [SC-116054][SQL] 支持使用多个非确定性筛选器进行列修剪
  • [SPARK-40834] [SC-114773][SQL] 使用 SparkListenerSQLExecutionEnd 跟踪 UI 中的最终 SQL 状态
  • [SPARK-41118] [SC-116027][SQL] 当格式为 null 时,to_number/try_to_number 应返回 null
  • [SPARK-39799] [SC-115984][SQL] DataSourceV2:查看目录接口
  • [SPARK-40665] [SC-116210][SC-112300][CONNECT] 避免在 Apache Spark 二进制版本中嵌入 Spark Connect
  • [SPARK-41048] [SC-116043][SQL] 使用 AQE 缓存改进输出分区和排序
  • [SPARK-41198] [SC-116256][SS] 修复具有 CTE 和 DSv1 流式处理源的流式处理查询中的指标
  • [SPARK-41199] [SC-116244][SS] 修复同时使用 DSv1 流式处理源和 DSv2 流式处理源时的指标问题
  • [SPARK-40957] [SC-116261][SC-114706] 在 HDFSMetadataLog 中添加内存中缓存
  • [SPARK-40940] 还原“[SC-115993] 删除流式处理查询的多状态运算符检查程序。”
  • [SPARK-41090] [SC-116040][SQL] 在通过数据集 API 创建临时视图时为 db_name.view_name 引发异常
  • [SPARK-41133] [SC-116085][SQL] 将 UNSCALED_VALUE_TOO_LARGE_FOR_PRECISION 集成到 NUMERIC_VALUE_OUT_OF_RANGE
  • [SPARK-40557] [SC-116182][SC-111442][CONNECT] 代码转储 9 提交
  • [SPARK-40448] [SC-114447][SC-111314][CONNECT] Spark Connect 生成为具有阴影依赖项的驱动程序插件
  • [SPARK-41096] [SC-115812][SQL] 支持读取 parquet FIXED_LEN_BYTE_ARRAY 类型
  • [SPARK-41140] [SC-115879][SQL] 将错误类 _LEGACY_ERROR_TEMP_2440 重命名为 INVALID_WHERE_CONDITION
  • [SPARK-40918] [SC-114438][SQL] 生成列式输出时 FileSourceScanExec 与 Orc 和 ParquetFileFormat 之间不匹配
  • [SPARK-41155] [SC-115991][SQL] 向 SchemaColumnConvertNotSupportedException 添加错误消息
  • [SPARK-40940] [SC-115993] 删除流式处理查询的多状态运算符检查程序。
  • [SPARK-41098] [SC-115790][SQL] 将 GROUP_BY_POS_REFERS_AGG_EXPR 重命名为 GROUP_BY_POS_AGGREGATE
  • [SPARK-40755] [SC-115912][SQL] 将数字格式的类型检查失败迁移到错误类
  • [SPARK-41059] [SC-115658][SQL] 将 _LEGACY_ERROR_TEMP_2420 重命名为 NESTED_AGGREGATE_FUNCTION
  • [SPARK-41044] [SC-115662][SQL] 将 DATATYPE_MISMATCH.UNSPECIFIED_FRAME 转换为 INTERNAL_ERROR
  • [SPARK-40973] [SC-115132][SQL] 将 _LEGACY_ERROR_TEMP_0055 重命名为 UNCLOSED_BRACKETED_COMMENT

维护更新

请参阅 Databricks Runtime 12.1 维护更新

系统环境

  • 操作系统:Ubuntu 20.04.5 LTS
  • Java:Zulu 8.64.0.19-CA-linux64
  • Scala:2.12.14
  • Python:3.9.5
  • R:4.2.2
  • Delta Lake:2.2.0

已安装的 Python 库

版本 版本 版本
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 asttokens 2.0.5
attrs 21.4.0 backcall 0.2.0 backports.entry-points-selectable 1.2.0
beautifulsoup4 4.11.1 black 22.3.0 bleach 4.1.0
boto3 1.21.32 botocore 1.24.32 certifi 2021.10.8
cffi 1.15.0 chardet 4.0.0 charset-normalizer 2.0.4
单击 8.0.4 密码系统 3.4.8 cycler 0.11.0
Cython 0.29.28 dbu-python 1.2.16 debugpy 1.5.1
decorator 5.1.1 defusedxml 0.7.1 distlib 0.3.6
docstring-to-markdown 0.11 entrypoints 0.4 执行 0.8.3
facets-overview 1.0.0 fastjsonschema 2.16.2 filelock 3.8.2
fonttools 4.25.0 idna 3.3 ipykernel 6.15.3
ipython 8.5.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
jedi 0.18.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.1.0 jsonschema 4.4.0 jupyter-client 6.1.12
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
kiwisolver 1.3.2 MarkupSafe 2.0.1 matplotlib 3.5.1
matplotlib-inline 0.1.2 mccabe 0.7.0 mistune 0.8.4
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.3.0 nest-asyncio 1.5.5 nodeenv 1.7.0
笔记本 6.4.8 numpy 1.21.5 打包 21.3
pandas 1.4.2 pandocfilters 1.5.0 parso 0.8.3
pathspec 0.9.0 patsy 0.5.2 pexpect 4.8.0
pickleshare 0.7.5 Pillow 9.0.1 pip 21.2.4
platformdirs 2.6.0 plotly 5.6.0 pluggy 1.0.0
prometheus-client 0.13.1 prompt-toolkit 3.0.20 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pycparser 2.21
pyflakes 2.5.0 Pygments 2.11.2 PyGObject 3.36.0
pyodbc 4.0.32 pyparsing 3.0.4 pyright 1.1.283
pyrsistent 0.18.0 python-dateutil 2.8.2 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.6.0 pytz 2021.3 pyzmq 22.3.0
请求 2.27.1 requests-unixsocket 0.2.0 rope 0.22.0
s3transfer 0.5.0 scikit-learn 1.0.2 scipy 1.7.3
seaborn 0.11.2 Send2Trash 1.8.0 setuptools 61.2.0
6 1.16.0 soupsieve 2.3.1 ssh-import-id 5.10
stack-data 0.2.0 statsmodels 0.13.2 tenacity 8.0.1
terminado 0.13.1 testpath 0.5.0 threadpoolctl 2.2.0
tokenize-rt 4.2.1 tomli 1.2.2 tornado 6.1
traitlets 5.1.1 typing_extensions 4.1.1 ujson 5.1.0
unattended-upgrades 0.1 urllib3 1.26.9 virtualenv 20.8.0
wcwidth 0.2.5 webencodings 0.5.1 whatthepatch 1.0.3
wheel 0.37.0 widgetsnbextension 3.6.1 yapf 0.31.0

已安装的 R 库

R 库安装自 2022-11-11 版本中的 Microsoft CRAN 快照。

版本 版本 版本
箭头 10.0.0 askpass 1.1 assertthat 0.2.1
backports 1.4.1 base 4.2.2 base64enc 0.1-3
bit 4.0.4 bit64 4.0.5 blob 1.2.3
启动 1.3-28 brew 1.0-8 brio 1.1.3
broom 1.0.1 bslib 0.4.1 cachem 1.0.6
callr 3.7.3 caret 6.0-93 cellranger 1.1.0
chron 2.3-58 class 7.3-20 cli 3.4.1
clipr 0.8.0 clock 0.6.1 cluster 2.1.4
codetools 0.2-18 colorspace 2.0-3 commonmark 1.8.1
compiler 4.2.2 config 0.3.1 cpp11 0.4.3
crayon 1.5.2 凭据 1.3.2 curl 4.3.3
data.table 1.14.4 datasets 4.2.2 DBI 1.1.3
dbplyr 2.2.1 desc 1.4.2 devtools 2.4.5
diffobj 0.3.5 digest 0.6.30 downlit 0.4.2
dplyr 1.0.10 dtplyr 1.2.2 e1071 1.7-12
ellipsis 0.3.2 评估 0.18 fansi 1.0.3
farver 2.1.1 fastmap 1.1.0 fontawesome 0.4.0
forcats 0.5.2 foreach 1.5.2 foreign 0.8-82
forge 0.2.0 fs 1.5.2 future 1.29.0
future.apply 1.10.0 gargle 1.2.1 generics 0.1.3
gert 1.9.1 ggplot2 3.4.0 gh 1.3.1
gitcreds 0.1.2 glmnet 4.1-4 globals 0.16.1
glue 1.6.2 googledrive 2.0.0 googlesheets4 1.0.1
gower 1.0.0 graphics 4.2.2 grDevices 4.2.2
grid 4.2.2 gridExtra 2.3 gsubfn 0.7
gtable 0.3.1 hardhat 1.2.0 haven 2.5.1
highr 0.9 hms 1.1.2 htmltools 0.5.3
htmlwidgets 1.5.4 httpuv 1.6.6 httr 1.4.4
ids 1.0.1 ini 0.3.1 ipred 0.9-13
isoband 0.2.6 iterators 1.0.14 jquerylib 0.1.4
jsonlite 1.8.3 KernSmooth 2.23-20 knitr 1.40
labeling 0.4.2 later 1.3.0 lattice 0.20-45
lava 1.7.0 lifecycle 1.0.3 listenv 0.8.0
lubridate 1.9.0 magrittr 2.0.3 markdown 1.3
MASS 7.3-58 Matrix 1.5-1 memoise 2.0.1
方法 4.2.2 mgcv 1.8-41 mime 0.12
miniUI 0.1.1.1 ModelMetrics 1.2.2.2 modelr 0.1.9
munsell 0.5.0 nlme 3.1-160 nnet 7.3-18
numDeriv 2016.8-1.1 openssl 2.0.4 parallel 4.2.2
parallelly 1.32.1 pillar 1.8.1 pkgbuild 1.3.1
pkgconfig 2.0.3 pkgdown 2.0.6 pkgload 1.3.1
plogr 0.2.0 plyr 1.8.7 praise 1.0.0
prettyunits 1.1.1 pROC 1.18.0 processx 3.8.0
prodlim 2019.11.13 profvis 0.3.7 进度 1.2.2
progressr 0.11.0 promises 1.2.0.1 proto 1.0.0
proxy 0.4-27 ps 1.7.2 purrr 0.3.5
r2d3 0.2.6 R6 2.5.1 ragg 1.2.4
randomForest 4.7-1.1 rappdirs 0.3.3 rcmdcheck 1.4.0
RColorBrewer 1.1-3 Rcpp 1.0.9 RcppEigen 0.3.3.9.3
readr 2.1.3 readxl 1.4.1 recipes 1.0.3
rematch 1.0.1 rematch2 2.1.2 remotes 2.4.2
reprex 2.0.2 reshape2 1.4.4 rlang 1.0.6
rmarkdown 2.18 RODBC 1.3-19 roxygen2 7.2.1
rpart 4.1.19 rprojroot 2.0.3 Rserve 1.8-11
RSQLite 2.2.18 rstudioapi 0.14 rversions 2.1.2
rvest 1.0.3 sass 0.4.2 scales 1.2.1
selectr 0.4-2 sessioninfo 1.2.2 shape 1.4.6
shiny 1.7.3 sourcetools 0.1.7 sparklyr 1.7.8
SparkR 3.3.1 spatial 7.3-11 splines 4.2.2
sqldf 0.4-11 SQUAREM 2021.1 stats 4.2.2
stats4 4.2.2 stringi 1.7.8 stringr 1.4.1
survival 3.4-0 sys 3.4.1 systemfonts 1.0.4
tcltk 4.2.2 testthat 3.1.5 textshaping 0.3.6
tibble 3.1.8 tidyr 1.2.1 tidyselect 1.2.0
tidyverse 1.3.2 timechange 0.1.1 timeDate 4021.106
tinytex 0.42 工具 4.2.2 tzdb 0.3.0
urlchecker 1.0.1 usethis 2.1.6 utf8 1.2.2
utils 4.2.2 uuid 1.1-0 vctrs 0.5.0
viridisLite 0.4.1 vroom 1.6.0 waldo 0.4.0
whisker 0.4 withr 2.5.0 xfun 0.34
xml2 1.3.3 xopen 1.0.0 xtable 1.8-4
yaml 2.3.6 zip 2.2.2

已安装的 Java 库和 Scala 库(Scala 2.12 群集版本)

组 ID 项目 ID 版本
antlr antlr 2.7.7
com.amazonaws amazon-kinesis-client 1.12.0
com.amazonaws aws-java-sdk-autoscaling 1.12.189
com.amazonaws aws-java-sdk-cloudformation 1.12.189
com.amazonaws aws-java-sdk-cloudfront 1.12.189
com.amazonaws aws-java-sdk-cloudhsm 1.12.189
com.amazonaws aws-java-sdk-cloudsearch 1.12.189
com.amazonaws aws-java-sdk-cloudtrail 1.12.189
com.amazonaws aws-java-sdk-cloudwatch 1.12.189
com.amazonaws aws-java-sdk-cloudwatchmetrics 1.12.189
com.amazonaws aws-java-sdk-codedeploy 1.12.189
com.amazonaws aws-java-sdk-cognitoidentity 1.12.189
com.amazonaws aws-java-sdk-cognitosync 1.12.189
com.amazonaws aws-java-sdk-config 1.12.189
com.amazonaws aws-java-sdk-core 1.12.189
com.amazonaws aws-java-sdk-datapipeline 1.12.189
com.amazonaws aws-java-sdk-directconnect 1.12.189
com.amazonaws aws-java-sdk-directory 1.12.189
com.amazonaws aws-java-sdk-dynamodb 1.12.189
com.amazonaws aws-java-sdk-ec2 1.12.189
com.amazonaws aws-java-sdk-ecs 1.12.189
com.amazonaws aws-java-sdk-efs 1.12.189
com.amazonaws aws-java-sdk-elasticache 1.12.189
com.amazonaws aws-java-sdk-elasticbeanstalk 1.12.189
com.amazonaws aws-java-sdk-elasticloadbalancing 1.12.189
com.amazonaws aws-java-sdk-elastictranscoder 1.12.189
com.amazonaws aws-java-sdk-emr 1.12.189
com.amazonaws aws-java-sdk-glacier 1.12.189
com.amazonaws aws-java-sdk-glue 1.12.189
com.amazonaws aws-java-sdk-iam 1.12.189
com.amazonaws aws-java-sdk-importexport 1.12.189
com.amazonaws aws-java-sdk-kinesis 1.12.189
com.amazonaws aws-java-sdk-kms 1.12.189
com.amazonaws aws-java-sdk-lambda 1.12.189
com.amazonaws aws-java-sdk-logs 1.12.189
com.amazonaws aws-java-sdk-machinelearning 1.12.189
com.amazonaws aws-java-sdk-opsworks 1.12.189
com.amazonaws aws-java-sdk-rds 1.12.189
com.amazonaws aws-java-sdk-redshift 1.12.189
com.amazonaws aws-java-sdk-route53 1.12.189
com.amazonaws aws-java-sdk-s3 1.12.189
com.amazonaws aws-java-sdk-ses 1.12.189
com.amazonaws aws-java-sdk-simpledb 1.12.189
com.amazonaws aws-java-sdk-simpleworkflow 1.12.189
com.amazonaws aws-java-sdk-sns 1.12.189
com.amazonaws aws-java-sdk-sqs 1.12.189
com.amazonaws aws-java-sdk-ssm 1.12.189
com.amazonaws aws-java-sdk-storagegateway 1.12.189
com.amazonaws aws-java-sdk-sts 1.12.189
com.amazonaws aws-java-sdk-support 1.12.189
com.amazonaws aws-java-sdk-swf-libraries 1.11.22
com.amazonaws aws-java-sdk-workspaces 1.12.189
com.amazonaws jmespath-java 1.12.189
com.chuusai shapeless_2.12 2.3.3
com.clearspring.analytics 流 (stream) 2.9.6
com.databricks Rserve 1.8-3
com.databricks jets3t 0.7.1-0
com.databricks.scalapb compilerplugin_2.12 0.4.15-10
com.databricks.scalapb scalapb-runtime_2.12 0.4.15-10
com.esotericsoftware kryo-shaded 4.0.2
com.esotericsoftware minlog 1.3.0
com.fasterxml classmate 1.3.4
com.fasterxml.jackson.core jackson-annotations 2.13.4
com.fasterxml.jackson.core jackson-core 2.13.4
com.fasterxml.jackson.core jackson-databind 2.13.4.2
com.fasterxml.jackson.dataformat jackson-dataformat-cbor 2.13.4
com.fasterxml.jackson.datatype jackson-datatype-joda 2.13.4
com.fasterxml.jackson.datatype jackson-datatype-jsr310 2.13.4
com.fasterxml.jackson.module jackson-module-paranamer 2.13.4
com.fasterxml.jackson.module jackson-module-scala_2.12 2.13.4
com.github.ben-manes.caffeine caffeine 2.3.4
com.github.fommil jniloader 1.1
com.github.fommil.netlib core 1.1.2
com.github.fommil.netlib native_ref-java 1.1
com.github.fommil.netlib native_ref-java-natives 1.1
com.github.fommil.netlib native_system-java 1.1
com.github.fommil.netlib native_system-java-natives 1.1
com.github.fommil.netlib netlib-native_ref-linux-x86_64-natives 1.1
com.github.fommil.netlib netlib-native_system-linux-x86_64-natives 1.1
com.github.luben zstd-jni 1.5.2-1
com.github.wendykierp JTransforms 3.1
com.google.code.findbugs jsr305 3.0.0
com.google.code.gson gson 2.8.6
com.google.crypto.tink tink 1.6.1
com.google.flatbuffers flatbuffers-java 1.12.0
com.google.guava guava 15.0
com.google.protobuf protobuf-java 2.6.1
com.h2database h2 2.0.204
com.helger profiler 1.1.1
com.jcraft jsch 0.1.50
com.jolbox bonecp 0.8.0.RELEASE
com.lihaoyi sourcecode_2.12 0.1.9
com.microsoft.azure azure-data-lake-store-sdk 2.3.9
com.ning compress-lzf 1.1
com.sun.mail javax.mail 1.5.2
com.tdunning json 1.8
com.thoughtworks.paranamer paranamer 2.8
com.trueaccord.lenses lenses_2.12 0.4.12
com.twitter chill-java 0.10.0
com.twitter chill_2.12 0.10.0
com.twitter util-app_2.12 7.1.0
com.twitter util-core_2.12 7.1.0
com.twitter util-function_2.12 7.1.0
com.twitter util-jvm_2.12 7.1.0
com.twitter util-lint_2.12 7.1.0
com.twitter util-registry_2.12 7.1.0
com.twitter util-stats_2.12 7.1.0
com.typesafe config 1.2.1
com.typesafe.scala-logging scala-logging_2.12 3.7.2
com.uber h3 3.7.0
com.univocity univocity-parsers 2.9.1
com.zaxxer HikariCP 4.0.3
commons-cli commons-cli 1.5.0
commons-codec commons-codec 1.15
commons-collections commons-collections 3.2.2
commons-dbcp commons-dbcp 1.4
commons-fileupload commons-fileupload 1.3.3
commons-httpclient commons-httpclient 3.1
commons-io commons-io 2.11.0
commons-lang commons-lang 2.6
commons-logging commons-logging 1.1.3
commons-pool commons-pool 1.5.4
dev.ludovic.netlib arpack 2.2.1
dev.ludovic.netlib blas 2.2.1
dev.ludovic.netlib lapack 2.2.1
info.ganglia.gmetric4j gmetric4j 1.0.10
io.airlift aircompressor 0.21
io.delta delta-sharing-spark_2.12 0.6.2
io.dropwizard.metrics metrics-core 4.1.1
io.dropwizard.metrics metrics-graphite 4.1.1
io.dropwizard.metrics metrics-healthchecks 4.1.1
io.dropwizard.metrics metrics-jetty9 4.1.1
io.dropwizard.metrics metrics-jmx 4.1.1
io.dropwizard.metrics metrics-json 4.1.1
io.dropwizard.metrics metrics-jvm 4.1.1
io.dropwizard.metrics metrics-servlets 4.1.1
io.netty netty-all 4.1.74.Final
io.netty netty-buffer 4.1.74.Final
io.netty netty-codec 4.1.74.Final
io.netty netty-common 4.1.74.Final
io.netty netty-handler 4.1.74.Final
io.netty netty-resolver 4.1.74.Final
io.netty netty-tcnative-classes 2.0.48.Final
io.netty netty-transport 4.1.74.Final
io.netty netty-transport-classes-epoll 4.1.74.Final
io.netty netty-transport-classes-kqueue 4.1.74.Final
io.netty netty-transport-native-epoll-linux-aarch_64 4.1.74.Final
io.netty netty-transport-native-epoll-linux-x86_64 4.1.74.Final
io.netty netty-transport-native-kqueue-osx-aarch_64 4.1.74.Final
io.netty netty-transport-native-kqueue-osx-x86_64 4.1.74.Final
io.netty netty-transport-native-unix-common 4.1.74.Final
io.prometheus simpleclient 0.7.0
io.prometheus simpleclient_common 0.7.0
io.prometheus simpleclient_dropwizard 0.7.0
io.prometheus simpleclient_pushgateway 0.7.0
io.prometheus simpleclient_servlet 0.7.0
io.prometheus.jmx 收集器 0.12.0
jakarta.annotation jakarta.annotation-api 1.3.5
jakarta.servlet jakarta.servlet-api 4.0.3
jakarta.validation jakarta.validation-api 2.0.2
jakarta.ws.rs jakarta.ws.rs-api 2.1.6
javax.activation activation 1.1.1
javax.el javax.el-api 2.2.4
javax.jdo jdo-api 3.0.1
javax.transaction jta 1.1
javax.transaction transaction-api 1.1
javax.xml.bind jaxb-api 2.2.11
javolution javolution 5.5.1
jline jline 2.14.6
joda-time joda-time 2.10.13
net.java.dev.jna jna 5.8.0
net.razorvine pickle 1.2
net.sf.jpam jpam 1.1
net.sf.opencsv opencsv 2.3
net.sf.supercsv super-csv 2.2.0
net.snowflake snowflake-ingest-sdk 0.9.6
net.snowflake snowflake-jdbc 3.13.22
net.sourceforge.f2j arpack_combined_all 0.1
org.acplt.remotetea remotetea-oncrpc 1.1.2
org.antlr ST4 4.0.4
org.antlr antlr-runtime 3.5.2
org.antlr antlr4-runtime 4.8
org.antlr stringtemplate 3.2.1
org.apache.ant ant 1.9.2
org.apache.ant ant-jsch 1.9.2
org.apache.ant ant-launcher 1.9.2
org.apache.arrow arrow-format 7.0.0
org.apache.arrow arrow-memory-core 7.0.0
org.apache.arrow arrow-memory-netty 7.0.0
org.apache.arrow arrow-vector 7.0.0
org.apache.avro avro 1.11.0
org.apache.avro avro-ipc 1.11.0
org.apache.avro avro-mapred 1.11.0
org.apache.commons commons-collections4 4.4
org.apache.commons commons-compress 1.21
org.apache.commons commons-crypto 1.1.0
org.apache.commons commons-lang3 3.12.0
org.apache.commons commons-math3 3.6.1
org.apache.commons commons-text 1.10.0
org.apache.curator curator-client 2.13.0
org.apache.curator curator-framework 2.13.0
org.apache.curator curator-recipes 2.13.0
org.apache.derby derby 10.14.2.0
org.apache.hadoop hadoop-client-api 3.3.4-databricks
org.apache.hadoop hadoop-client-runtime 3.3.4
org.apache.hive hive-beeline 2.3.9
org.apache.hive hive-cli 2.3.9
org.apache.hive hive-jdbc 2.3.9
org.apache.hive hive-llap-client 2.3.9
org.apache.hive hive-llap-common 2.3.9
org.apache.hive hive-serde 2.3.9
org.apache.hive hive-shims 2.3.9
org.apache.hive hive-storage-api 2.8.1
org.apache.hive.shims hive-shims-0.23 2.3.9
org.apache.hive.shims hive-shims-common 2.3.9
org.apache.hive.shims hive-shims-scheduler 2.3.9
org.apache.httpcomponents httpclient 4.5.13
org.apache.httpcomponents httpcore 4.4.14
org.apache.ivy ivy 2.5.0
org.apache.logging.log4j log4j-1.2-api 2.18.0
org.apache.logging.log4j log4j-api 2.18.0
org.apache.logging.log4j log4j-core 2.18.0
org.apache.logging.log4j log4j-slf4j-impl 2.18.0
org.apache.mesos mesos-shaded-protobuf 1.4.0
org.apache.orc orc-core 1.7.6
org.apache.orc orc-mapreduce 1.7.6
org.apache.orc orc-shims 1.7.6
org.apache.parquet parquet-column 1.12.3-databricks-0002
org.apache.parquet parquet-common 1.12.3-databricks-0002
org.apache.parquet parquet-encoding 1.12.3-databricks-0002
org.apache.parquet parquet-format-structures 1.12.3-databricks-0002
org.apache.parquet parquet-hadoop 1.12.3-databricks-0002
org.apache.parquet parquet-jackson 1.12.3-databricks-0002
org.apache.thrift libfb303 0.9.3
org.apache.thrift libthrift 0.12.0
org.apache.xbean xbean-asm9-shaded 4.20
org.apache.yetus audience-annotations 0.13.0
org.apache.zookeeper zookeeper 3.6.2
org.apache.zookeeper zookeeper-jute 3.6.2
org.checkerframework checker-qual 3.5.0
org.codehaus.jackson jackson-core-asl 1.9.13
org.codehaus.jackson jackson-mapper-asl 1.9.13
org.codehaus.janino commons-compiler 3.0.16
org.codehaus.janino janino 3.0.16
org.datanucleus datanucleus-api-jdo 4.2.4
org.datanucleus datanucleus-core 4.1.17
org.datanucleus datanucleus-rdbms 4.1.19
org.datanucleus javax.jdo 3.2.0-m3
org.eclipse.jetty jetty-client 9.4.46.v20220331
org.eclipse.jetty jetty-continuation 9.4.46.v20220331
org.eclipse.jetty jetty-http 9.4.46.v20220331
org.eclipse.jetty jetty-io 9.4.46.v20220331
org.eclipse.jetty jetty-jndi 9.4.46.v20220331
org.eclipse.jetty jetty-plus 9.4.46.v20220331
org.eclipse.jetty jetty-proxy 9.4.46.v20220331
org.eclipse.jetty jetty-security 9.4.46.v20220331
org.eclipse.jetty jetty-server 9.4.46.v20220331
org.eclipse.jetty jetty-servlet 9.4.46.v20220331
org.eclipse.jetty jetty-servlets 9.4.46.v20220331
org.eclipse.jetty jetty-util 9.4.46.v20220331
org.eclipse.jetty jetty-util-ajax 9.4.46.v20220331
org.eclipse.jetty jetty-webapp 9.4.46.v20220331
org.eclipse.jetty jetty-xml 9.4.46.v20220331
org.eclipse.jetty.websocket websocket-api 9.4.46.v20220331
org.eclipse.jetty.websocket websocket-client 9.4.46.v20220331
org.eclipse.jetty.websocket websocket-common 9.4.46.v20220331
org.eclipse.jetty.websocket websocket-server 9.4.46.v20220331
org.eclipse.jetty.websocket websocket-servlet 9.4.46.v20220331
org.fusesource.leveldbjni leveldbjni-all 1.8
org.glassfish.hk2 hk2-api 2.6.1
org.glassfish.hk2 hk2-locator 2.6.1
org.glassfish.hk2 hk2-utils 2.6.1
org.glassfish.hk2 osgi-resource-locator 1.0.3
org.glassfish.hk2.external aopalliance-repackaged 2.6.1
org.glassfish.hk2.external jakarta.inject 2.6.1
org.glassfish.jersey.containers jersey-container-servlet 2.36
org.glassfish.jersey.containers jersey-container-servlet-core 2.36
org.glassfish.jersey.core jersey-client 2.36
org.glassfish.jersey.core jersey-common 2.36
org.glassfish.jersey.core jersey-server 2.36
org.glassfish.jersey.inject jersey-hk2 2.36
org.hibernate.validator hibernate-validator 6.1.0.Final
org.javassist javassist 3.25.0-GA
org.jboss.logging jboss-logging 3.3.2.Final
org.jdbi jdbi 2.63.1
org.jetbrains annotations 17.0.0
org.joda joda-convert 1.7
org.jodd jodd-core 3.5.2
org.json4s json4s-ast_2.12 3.7.0-M11
org.json4s json4s-core_2.12 3.7.0-M11
org.json4s json4s-jackson_2.12 3.7.0-M11
org.json4s json4s-scalap_2.12 3.7.0-M11
org.lz4 lz4-java 1.8.0
org.mariadb.jdbc mariadb-java-client 2.7.4
org.mlflow mlflow-spark 1.27.0
org.objenesis objenesis 2.5.1
org.postgresql postgresql 42.3.3
org.roaringbitmap RoaringBitmap 0.9.25
org.roaringbitmap shims 0.9.25
org.rocksdb rocksdbjni 6.24.2
org.rosuda.REngine REngine 2.1.0
org.scala-lang scala-compiler_2.12 2.12.14
org.scala-lang scala-library_2.12 2.12.14
org.scala-lang scala-reflect_2.12 2.12.14
org.scala-lang.modules scala-collection-compat_2.12 2.4.3
org.scala-lang.modules scala-parser-combinators_2.12 1.1.2
org.scala-lang.modules scala-xml_2.12 1.2.0
org.scala-sbt test-interface 1.0
org.scalacheck scalacheck_2.12 1.14.2
org.scalactic scalactic_2.12 3.0.8
org.scalanlp breeze-macros_2.12 1.2
org.scalanlp breeze_2.12 1.2
org.scalatest scalatest_2.12 3.0.8
org.slf4j jcl-over-slf4j 1.7.36
org.slf4j jul-to-slf4j 1.7.36
org.slf4j slf4j-api 1.7.36
org.spark-project.spark unused 1.0.0
org.threeten threeten-extra 1.5.0
org.tukaani xz 1.9
org.typelevel algebra_2.12 2.0.1
org.typelevel cats-kernel_2.12 2.1.1
org.typelevel macro-compat_2.12 1.1.1
org.typelevel spire-macros_2.12 0.17.0
org.typelevel spire-platform_2.12 0.17.0
org.typelevel spire-util_2.12 0.17.0
org.typelevel spire_2.12 0.17.0
org.wildfly.openssl wildfly-openssl 1.0.7.Final
org.xerial sqlite-jdbc 3.8.11.2
org.xerial.snappy snappy-java 1.1.8.4
org.yaml snakeyaml 1.24
oro oro 2.0.8
pl.edu.icm JLargeArrays 1.5
software.amazon.ion ion-java 1.0.2
stax stax-api 1.0.1