共用方式為

无服务器环境版本 4

本文概述了无服务器环境版本 4 的系统环境信息。

为了确保应用程序的兼容性,无服务器工作负荷使用版本控制 API(称为环境版本),该 API 与较新的服务器版本保持兼容。

可以使用无服务器笔记本中的 环境 侧面板选择环境版本。 请参阅 “选择环境版本”。

新功能和改进

无服务器环境 4 中提供了以下新功能和改进。

无服务器计算上的 Spark ML 支持

无服务器计算现在支持 PySpark 中的 Spark ML(pyspark.ml)和环境版本 4 中的 Spark 的 MLflow(mlflow.spark)。 对于无服务器计算上的超参数优化,Databricks 建议使用 Optuna 和 Joblib Spark。

在无服务器计算上运行 SparkML 时,存在以下限制:

  • 最大模型大小为 100MB。
  • 每个会话的内存中模型的最大总大小为 1GB。
  • 如果模型大小约为 100MB,则树模型训练会提前停止。
  • 不支持以下 SparkML 模型:
    • DistributedLDAModel(分布式LDA模型)
    • FPGrowthModel

标量 Python UDF 现在支持服务凭据

标量 Python UDF 可以使用 Unity 目录服务凭据安全地访问外部云服务。 有关详细信息,请参阅 Scalar Python UDF 中的服务凭据

PySpark 和 Spark Connect 现在支持 DataFrames df.mergeInto API

PySpark 和 Spark Connect 现在支持 df.mergeInto API,该 API 以前仅适用于 Scala。

API 更新

无服务器环境 4 包含以下 API 更新:

  • SPARK-50915getCondition中添加getErrorClass和弃用PySparkException
  • SPARK-50719对 PySpark 的支持interruptOperation
  • SPARK-50718对 PySpark 的支持addArtifact(s)
  • SPARK-49530 支持 PySpark 绘图中的饼图子图
  • SPARK-50357Interrupt(Tag|All)支持 PySpark 的 API
  • SPARK-51178 引发正确的 PySpark 错误,而不是 SparkConnectGrpcException
  • SPARK-51227 修复 PySpark Connect 升级至 _minimum_grpc_version 1.67.0
  • SPARK-50778 添加到 metadataColumn PySpark 数据帧
  • SPARK-50311(add|remove|get|clear)Tag(s)支持 PySpark 的 API
  • SPARK-50310 添加用于禁用 DataFrameQueryContext PySpark 的标志
  • SPARK-50238 在 PySpark UDF/UDDF/UDAF 和 Python UC UDF 中添加变体支持
  • SPARK-50183 统一 Pandas API 和 PySpark 绘图的内部函数
  • SPARK-50170_invoke_internal_function_over_columns 移动到 pyspark.sql.utils
  • SPARK-50167 改进 PySpark 绘图错误消息和导入
  • SPARK-48961 使参数命名与 PySparkException JVM 保持一致
  • SPARK-49567 使用经典代码库而不是 PySpark 代码库中的 vanilla
  • SPARK-48755transformWithStatePySpark 基本实现和支持ValueState
  • SPARK-48714在 PySpark 中实现DataFrame.mergeInto
  • SPARK-47365 向 PySpark 添加 toArrow() DataFrame 方法
  • SPARK-48075 PySpark avro 函数的类型检查
  • SPARK-46984 删除 pyspark.copy_func
  • SPARK-46213 为错误框架引入 PySparkImportError
  • SPARK-46226 将所有剩余部分 RuntimeError 迁移到 PySpark 错误框架
  • SPARK-45450 根据 PEP8 修复导入: pyspark.pandaspyspark (核心)

系统环境

  • 操作系统:Ubuntu 24.04.2 LTS
  • Python:3.12.3
  • Databricks Connect:17(Databricks Connect 在最新的无服务器环境版本中持续更新。运行 pip list 以确认当前环境中的确切版本。
  • Scala:2.13.16
  • JDK:17

已安装的 Python 库

若要在本地 Python 虚拟环境中重现无服务器环境 4,请下载 requirements-env-4.txt 文件并运行 pip install -r requirements-env-4.txt。 此命令从无服务器环境 4 安装所有开源库。

图书馆 版本 图书馆 版本 图书馆 版本
annotated-types 0.7.0 anyio 4.6.2 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 箭头 1.3.0 asttokens 2.0.5
astunparse 1.6.3 async-lru 2.0.4 属性 24.3.0
自动命令 2.2.2 azure-common 1.1.28 azure-core 1.34.0
Azure 身份识别 1.20.0 azure-mgmt-core 1.5.0 azure-mgmt-web 8.0.0
azure-storage-blob 12.23.0 azure-storage-file-datalake 12.17.0 巴别塔 2.16.0
backports.tarfile 1.2.0 beautifulsoup4 4.12.3 黑色 24.10.0
漂白剂 6.2.0 闪烁器 1.7.0 boto3 1.36.2
botocore 1.36.3 cachetools (缓存工具) 5.5.1 certifi 2025年1月31日
cffi 1.17.1 chardet 4.0.0 charset-normalizer (字符集正常化工具) 3.3.2
click 8.1.7 cloudpickle 3.0.0 通讯 0.2.1
contourpy 1.3.1 加密 43.0.3 骑行者 0.11.0
Cython 3.0.12 databricks-connect 17.2.3 Databricks软件开发工具包 (databricks-sdk) 0.49.0
dbus-python 1.3.2 debugpy 1.8.11 修饰器 5.1.1
defusedxml 0.7.1 Deprecated 1.2.13 distlib 0.3.9
docstring-to-markdown 0.11 正在执行 0.8.3 各个方面概述 1.1.1
fastapi 0.115.12 fastjsonschema 2.21.1 文件锁 (filelock) 3.18.0
fonttools(字体工具) 4.55.3 fqdn 1.5.1 fsspec 2023.5.0
gitdb (Git数据库) 4.0.11 GitPython 3.1.43 google-api-core (谷歌 API 核心库) 2.20.0
google-auth (谷歌身份验证) 2.40.0 google-cloud-core (Google云核心) 2.4.3 谷歌云存储 (Google Cloud Storage) 3.1.0
google-crc32c 1.7.1 google-resumable-media (谷歌可恢复媒体) 2.7.2 googleapis-common-protos 1.65.0
grpcio 1.67.0 grpcio-status 1.67.0 h11 0.14.0
httpcore 1.0.2 httplib2 0.20.4 httpx 0.27.0
IDNA 3.7 importlib-metadata 6.6.0 importlib_resources 6.4.0
inflect 7.3.1 iniconfig 1.1.1 ipyflow-core 0.0.209
ipykernel 6.29.5 ipython 8.30.0 ipython-genutils(IPython通用工具) 0.2.0
ipywidgets 7.8.1 isodate 0.6.1 isoduration 20.11.0
jaraco.context 5.3.0 jaraco.functools 4.0.1 jaraco.text 3.12.1
jedi 0.19.2 Jinja2 3.1.5 jmespath 1.0.1
joblib 1.4.2 json5 0.9.25 jsonpointer 3.0.0
jsonschema 4.23.0 JSON模式规范 2023年7月1日 jupyter-events 0.10.0
jupyter-lsp 2.2.0 jupyter_client(Jupyter 客户端) 8.6.3 jupyter_core(Jupyter核心) 5.7.2
Jupyter服务器 2.14.1 Jupyter服务器终端 0.4.4 jupyterlab 4.3.4
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 jupyterlab_server (JupyterLab 服务器) 2.27.3
kiwisolver 1.4.8 launchpadlib 1.11.0 lazr.restfulclient 0.14.6
lazr.uri 1.0.6 markdown-it-py 2.2.0 MarkupSafe 3.0.2
matplotlib 3.10.0 matplotlib-inline 0.1.7 麦卡贝 0.7.0
mdurl 0.1.0 mistune 2.0.4 mlflow-skinny 2.22.0
mmh3 5.1.0 more-itertools 10.3.0 MSAL 1.32.3
msal-extensions 1.3.1 mypy-extensions 1.0.0 nbclient 0.8.0
nbconvert 7.16.4 nbformat 5.10.4 nest-asyncio 1.6.0
nodeenv 1.9.1 笔记本 7.3.2 notebook_shim 0.2.3
numpy 2.1.3 oauthlib 3.2.2 OpenTelemetry API 1.32.1
opentelemetry-sdk(开源遥测软件开发工具包) 1.32.1 opentelemetry-semantic-conventions 0.53b1 overrides 7.4.0
包装 24.1 熊猫 2.2.3 pandocfilters 1.5.0
帕尔索 0.8.4 pathspec 0.10.3 替罪羊 1.0.1
pexpect 4.8.0 枕头 11.1.0 pip 25.0.1
platformdirs 3.10.0 plotly 5.24.1 Pluggy (Python库) 1.5.0
prometheus_client 0.21.0 提示工具包 (prompt-toolkit) 3.0.43 proto-plus 1.26.1
protobuf 5.29.4 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 py4j 0.10.9.9
pyarrow 19.0.1 pyasn1 0.4.8 pyasn1-modules 0.2.8
pyccolo 0.0.71 Python代码解析器 2.21 pydantic (Python 数据验证库) 2.10.6
pydantic_core 2.27.2 pyflakes 3.2.0 Pygments 2.15.1
PyGObject 3.48.2 pyiceberg 0.9.0 PyJWT 2.10.1
pyodbc 5.2.0 pyparsing 3.2.0 pyright 1.1.394
pyspark 4.0.0+databricks.connect.17.2.3 pytest(Python 测试框架) 8.3.5 python-dateutil 2.9.0.post0
python-json-logger 3.2.1 python-lsp-jsonrpc 1.1.2 python-lsp-server 1.12.0
pytoolconfig 1.2.6 pytz 2024.1 PyYAML 6.0.2
pyzmq 26.2.0 referencing 0.30.2 requests 2.32.3
rfc3339-validator 0.1.4 rfc3986验证器 0.1.1 rich 13.9.4
绳子 1.12.0 rpds-py 0.22.3 rsa 4.9.1
s3transfer 0.11.3 scikit-learn 1.6.1 scipy 1.15.1
seaborn 0.13.2 Send2Trash 1.8.2 setuptools 74.0.0
6 1.16.0 smmap 5.0.0 sniffio 1.3.0
排序容器 2.4.0 soupsieve 2.5 sqlparse 0.5.3
ssh-import-id 5.11 堆栈数据 0.2.0 starlette 0.46.2
statsmodels 0.14.4 strictyaml 1.7.3 毅力 9.0.0
terminado 0.17.1 threadpoolctl 3.5.0 tinycss2 1.4.0
tokenize_rt 6.1.0 tomli 2.0.1 龙卷风 6.4.2
Traitlets 5.14.3 typeguard 4.3.0 types-python-dateutil 2.9.0.20241206
输入扩展 (typing_extensions) 4.12.2 tzdata 2024.1 ujson 5.10.0
unattended-upgrades 0.1 URI 模板 1.3.0 urllib3 2.3.0
uvicorn 0.34.2 virtualenv 20.29.3 wadllib 1.3.6
wcwidth 0.2.5 webcolors 24.11.1 Web编码 0.5.1
WebSocket客户端 1.8.0 whatthepatch 1.0.2 wheel 0.45.1
widgetsnbextension 3.6.6 裹住 1.17.0 yapf 0.40.2
齐普 3.21.0 zstandard 0.23.0

已安装的 Java 和 Scala 库(Scala 2.13 群集版本)

群组标识符 工件编号 版本
com.databricks databricks-connect_2.13(Databricks 连接工具 2.13 版) 17.2.0
com.fasterxml.jackson.core Jackson注解 2.15.2
com.fasterxml.jackson.core jackson-core 2.15.2
com.fasterxml.jackson.core jackson-databind 2.15.2
com.lihaoyi 鲍鱼石编译器接口_2.13.16 3.0.2
com.lihaoyi ammonite-compiler_2.13.16 3.0.2
com.lihaoyi 阿蒙奈特-interp-api_2.13.16 3.0.2
com.lihaoyi ammonite-interp_2.13.16 3.0.2
com.lihaoyi ammonite-repl-api_2.13.16 3.0.2
com.lihaoyi ammonite-repl_2.13.16 3.0.2
com.lihaoyi ammonite-runtime_2.13.16 3.0.2
com.lihaoyi ammonite-util_2.13 3.0.2
com.lihaoyi fansi_2.13 0.5.0
com.lihaoyi os-lib_2.13 0.11.3
com.lihaoyi pprint_2.13 0.9.0
com.lihaoyi scalaparse_2.13 3.1.1
org.apache.logging.log4j log4j-api 2.20.0
org.apache.logging.log4j log4j-core 2.20.0
org.json4s json4s-core_2.13 4.0.7
org.json4s json4s-jackson_2.13 4.0.7
sh.almond channels_2.13 0.14.1-1
sh.almond interpreter-api_2.13 0.14.1-1
sh.almond interpreter_2.13 0.14.1-1
sh.almond jupyter-api_2.13 0.14.1-1
sh.almond kernel_2.13 0.14.1-1
sh.almond logger_2.13 0.14.1-1
sh.almond protocol_2.13 0.14.1-1
sh.almond scala-interpreter_2.13.16 0.14.1-1
sh.almond scala-kernel_2.13.16 0.14.1-1
sh.almond shared-directives_2.13 0.14.1-1