用于Machine Learning的 Databricks Runtime 11.3 LTS (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks Runtime 11.3 LTS for Machine Learning 基于Databricks Runtime 11.3 LTS (EoS) 提供一个用于机器学习和数据科学的随时可用环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

注意

LTS 表示此版本受长期支持。 请参阅 Databricks Runtime LTS 版本生命周期

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能和改进

Databricks Runtime 11.3 LTS ML 是基于 Databricks Runtime 11.3 LTS 构建的。 有关 Databricks Runtime 11.3 LTS(包括 Apache Spark MLlib 和 SparkR)中的新增功能的信息,请参阅 Databricks Runtime 11.3 LTS(EoS) 发行说明。

AutoML 的增强功能

AutoML 现在支持在 AutoML 试验中使用现有的特征存储特征表。 有关详细信息,请参阅 AutoML 特征存储集成

AutoML 生成的试用版笔记本现在包含支持用户重新运行超参数优化的代码片段。

AutoML 现在支持 DecimalType 功能。

错误修复

Databricks Runtime 11.3 LTS ML 包括 sparkdl.xgboost 的升级版本。 sparkdl.xgboost 的早期版本包含此版本中得到修复的错误,因此 Databricks 建议该库的用户升级到 Databricks Runtime 11.3 LTS ML。

为后续版本做好准备

即将发布的 Databricks Runtime ML 版本将包括 sklearn 1.0 版。 有关如何为此更改进行准备的信息,请访问 sklearn文档

Databricks Runtime ML 包含两个 openblas 包。 Databricks Runtime 11.3 LTS ML 已弃用 /opt/OpenBLAS 包,在即将发布的版本中将会删除该包。

系统环境

Databricks Runtime 11.3 LTS ML 中的系统环境与 Databricks Runtime 11.3 LTS 不同,如下所示:

  • DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。 请改用 %pip 命令。 请参阅 Notebook 范围内的 Python 库
  • 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
    • CUDA 11.3
    • cuDNN 8.0.5.39
    • NCCL 2.9.9
    • TensorRT 7.2.2

Databricks Runtime 11.3 LTS ML 包括 XGBoost 1.6.1,它不支持计算功能 5.2 及以下的 GPU 群集。

以下部分列出了 Databricks Runtime 11.3 LTS ML 中包含的库,这些库与 Databricks Runtime 11.3 LTS 中包含的不同。

本节内容:

顶级库

Databricks Runtime 11.3 LTS ML 包含以下顶层

Python库

Databricks Runtime 11.3 LTS ML 使用 Virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 11.3 LTS ML 还包含以下包:

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • feature_store 0.7.0
  • automl 1.13.2

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-11.3.txt 文件并运行 pip install -r requirements-11.3.txt。 此命令安装 Databricks Runtime ML 使用的所有open source库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

Python 库在中央处理器 (CPU) 群集上

版本 版本 版本
absl-py 1.0.0 argon2-cffi 20.1.0 astor 0.8.1
astunparse 1.6.3 异步生成器 1.10 属性 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 回调 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 黑色 22.3.0
漂白剂 4.0.0 blis 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 糖果 0.0.1 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 cycler 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbu-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.6
入口点 0.3 ephem 4.1.3 面概述 1.0.0
fasttext 0.9.2 文件锁 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 未来 0.18.2
加斯特 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 假期 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 imbalanced-learn(用于处理不平衡数据集的Python库) 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 韩国农历 0.3.1
语言代码 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 农历 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 multimethod 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 笔记本 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 包装 21.0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 pathspec 0.9.0 病理 0.6.2
替罪羊 0.5.2 petastorm 0.11.4 pexpect 4.8.0
phik 0.12.2 pickleshare 0.7.5 Pillow 8.4.0
pip(Python 包管理工具) 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 prometheus-client 0.11.0
prompt-toolkit 3.0.20 先知 1.0.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.0 pycparser 2.20 pydantic 1.9.2
Pygments 2.10.0 PyGObject 3.36.0 PyJWT 2.5.0
PyMeeus 0.5.11 PyNaCl 1.5.0 pyodbc 4.0.31
pyparsing 3.0.4 pyrsistent 0.18.0 pystan 2.19.1.1
python-dateutil 2.8.2 python-editor 1.0.4 pytz 2021.3
PyWavelets 1.1.1 PyYAML 6.0 pyzmq 22.2.1
regex 2021年8月3日 请求 2.26.0 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4.9 s3transfer 0.5.2
scikit-learn 0.24.2 scipy 1.7.1 seaborn 0.11.3
Send2Trash 1.8.0 setuptools 58.0.4 setuptools-git 1.2
shap 0.41.0 simplejson 3.17.6 6 1.16.0
切片器 0.0.7 smart-open 5.2.1 smmap 5.0.0
spacy 3.4.1 spacy-legacy 3.0.10 spacy-loggers 1.0.3
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 认真地说 2.4.4
ssh-import-id 5.10 statsmodels 0.12.2 制表 0.8.9
Unicode 纠缠 0.1.0 韧性 8.0.1 tensorboard 2.9.1
tensorboard数据服务器 0.6.1 tensorboard-plugin-profile(张量板插件配置文件) 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.9.1 tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0
termcolor 2.0.1 terminado 0.9.4 测试路径 0.5.0
thinc 8.1.2 threadpoolctl 2.2.0 tokenize-rt 4.2.1
分词器 0.12.1 tomli 2.0.1 torch 1.12.1+cpu
torchvision 0.13.1+cpu tornado 6.1 tqdm 4.62.3
traitlets 5.1.0 transformers 4.21.2 打字员 0.4.2
typing-extensions 3.10.0.2 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.26.7 virtualenv 20.8.0 愿景 0.7.4
wasabi 0.10.1 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 1.3.1 Werkzeug 2.0.2 wheel 0.37.0
widgetsnbextension 3.6.0 包裹 1.12.1 xgboost 1.6.2
zipp 3.6.0

Python GPU 集群上的库

版本 版本 版本
absl-py 1.0.0 argon2-cffi 20.1.0 astor 0.8.1
astunparse 1.6.3 异步生成器 1.10 属性 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 回调 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 黑色 22.3.0
漂白剂 4.0.0 blis 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 糖果 0.0.1 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 cycler 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbu-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.6
入口点 0.3 ephem 4.1.3 面概述 1.0.0
fasttext 0.9.2 文件锁 3.3.1 Flask 1.1.2
flatbuffers 1.12 fsspec 2021.8.1 未来 0.18.2
加斯特 0.4.0 gitdb 4.0.9 GitPython 3.1.27
google-auth 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 假期 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
idna 3.2 ImageHash 4.3.0 imbalanced-learn(用于处理不平衡数据集的Python库) 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 jupyter-client 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 韩国农历 0.3.1
语言代码 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 农历 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 missingno 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 multimethod 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
networkx 2.6.3 nltk 3.6.5 笔记本 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 包装 21.0 pandas 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
parso 0.8.2 pathspec 0.9.0 病理 0.6.2
替罪羊 0.5.2 petastorm 0.11.4 pexpect 4.8.0
phik 0.12.2 pickleshare 0.7.5 Pillow 8.4.0
pip(Python 包管理工具) 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 prompt-toolkit 3.0.20
先知 1.0.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.0
pycparser 2.20 pydantic 1.9.2 Pygments 2.10.0
PyGObject 3.36.0 PyJWT 2.5.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.31 pyparsing 3.0.4
pyrsistent 0.18.0 pystan 2.19.1.1 python-dateutil 2.8.2
python-editor 1.0.4 pytz 2021.3 PyWavelets 1.1.1
PyYAML 6.0 pyzmq 22.2.1 regex 2021年8月3日
请求 2.26.0 requests-oauthlib 1.3.1 requests-unixsocket 0.2.0
rsa 4.9 s3transfer 0.5.2 scikit-learn 0.24.2
scipy 1.7.1 seaborn 0.11.3 Send2Trash 1.8.0
setuptools 58.0.4 setuptools-git 1.2 shap 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 spacy 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 认真地说 2.4.4 ssh-import-id 5.10
statsmodels 0.12.2 制表 0.8.9 Unicode 纠缠 0.1.0
韧性 8.0.1 tensorboard 2.9.1 tensorboard数据服务器 0.6.1
tensorboard-plugin-profile(张量板插件配置文件) 2.8.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.9.1
tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0 termcolor 2.0.1
terminado 0.9.4 测试路径 0.5.0 thinc 8.1.2
threadpoolctl 2.2.0 tokenize-rt 4.2.1 分词器 0.12.1
tomli 2.0.1 torch 1.12.1+cu113 torchvision 0.13.1+cu113
tornado 6.1 tqdm 4.62.3 traitlets 5.1.0
transformers 4.21.2 打字员 0.4.2 typing-extensions 3.10.0.2
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.26.7
virtualenv 20.8.0 愿景 0.7.4 wasabi 0.10.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 1.3.1
Werkzeug 2.0.2 wheel 0.37.0 widgetsnbextension 3.6.0
包裹 1.12.1 xgboost 1.6.2 zipp 3.6.0

R 库

R 库与 Databricks Runtime 11.3 LTS 中的 R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 11.3 LTS 中的Java库和 Scala 库,Databricks Runtime 11.3 LTS ML 还包含以下 JAR:

CPU 群集

组标识 构件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组标识 构件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0