用于机器学习的 Databricks Runtime 11.3 LTS (EoS)

注释

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks Runtime 11.3 LTS for Machine Learning 提供了一个基于 Databricks Runtime 11.3 LTS (EoS)的机器学习和数据科学的现成环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

注释

LTS 表示此版本受长期支持。 请参阅 Databricks Runtime LTS 版本生命周期

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新功能和改进

Databricks Runtime 11.3 LTS ML 基于 Databricks Runtime 11.3 LTS 构建。 有关 Databricks Runtime 11.3 LTS(包括 Apache Spark MLlib 和 SparkR)中的新增功能的信息,请参阅 Databricks Runtime 11.3 LTS(EoS) 发行说明。

AutoML 的增强功能

AutoML 现在支持在 AutoML 试验中使用现有的功能存储功能表。 有关详细信息,请参阅 AutoML 功能存储集成

AutoML 生成的试用笔记本现在包含代码片段,使用户能够重新运行超参数优化。

AutoML 现在支持 DecimalType 功能。

故障修复

Databricks Runtime 11.3 LTS ML 包含升级版本的 sparkdl.xgboost. 早期版本的 sparkdl.xgboost 包含一些bug,这些bug已在此版本中得到修复,因此Databricks建议数学库的用户升级到Databricks Runtime 11.3 LTS ML。

准备未来的版本

即将发布的 Databricks Runtime ML 版本将包括 sklearn 版本 1.0。 sklearn有关如何准备此更改的信息,请访问文档

Databricks Runtime ML 包含两个 openblas 包。 包 /opt/OpenBLAS 在 Databricks Runtime 11.3 LTS ML 中已弃用,将在即将发布的版本中删除。

系统环境

Databricks Runtime 11.3 LTS ML 中的系统环境不同于 Databricks Runtime 11.3 LTS,如下所示:

Databricks Runtime 11.3 LTS ML 包括 XGBoost 1.6.1,它不支持 计算功能 为 5.2 及更低功能的 GPU 群集。

图书馆

以下部分列出了 Databricks Runtime 11.3 LTS ML 中包含的库,这些库不同于 Databricks Runtime 11.3 LTS 中包含的库。

本节内容:

顶级图书馆

Databricks Runtime 11.3 LTS ML 包含以下顶级

Python 库

Databricks Runtime 11.3 LTS ML 使用 Virtualenv 进行 Python 包管理,并包括许多常用的 ML 包。

除了以下部分中指定的包外,Databricks Runtime 11.3 LTS ML 还包括以下包:

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • feature_store 0.7.0
  • automl 1.13.2

若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-11.3.txt 文件并运行 pip install -r requirements-11.3.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

CPU 群集上的 Python 库

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 argon2-cffi 20.1.0 阿斯托尔 0.8.1
astunparse 1.6.3 异步生成器 1.10 属性 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 backcall 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 黑色 22.3.0
漂白剂 4.0.0 布利斯 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools (缓存工具) 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 click 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 糖果 0.0.1 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.6
入口点 0.3 伊菲姆 4.1.3 各个方面概述 1.0.0
fasttext 0.9.2 文件锁 (filelock) 3.3.1 Flask 1.1.2
FlatBuffers 1.12 fsspec 2021年8月1日 未来 0.18.2
加斯特 0.4.0 gitdb (Git数据库) 4.0.9 GitPython 3.1.27
google-auth (谷歌身份验证) 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 假期 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
IDNA 3.2 ImageHash 4.3.0 imbalanced-learn 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
它很危险 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 Jupyter客户端 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 韩国农历 0.3.1
语言代码 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 农历 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 缺失号 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 多方法 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
NetworkX 2.6.3 nltk 3.6.5 笔记本 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 包装 21.0 熊猫 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
帕尔索 0.8.2 pathspec 0.9.0 pathy 0.6.2
替罪羊 0.5.2 petastorm 0.11.4 pexpect 4.8.0
Φ系数 0.12.2 pickleshare 0.7.5 枕头 8.4.0
pip 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 prometheus-client 0.11.0
提示工具包 (prompt-toolkit) 3.0.20 先知 1.0.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.0 Python代码解析器 2.20 pydantic (Python 数据验证库) 1.9.2
Pygments 2.10.0 PyGObject 3.36.0 PyJWT 2.5.0
PyMeeus 0.5.11 PyNaCl 1.5.0 pyodbc 4.0.31
pyparsing 3.0.4 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pystan 2.19.1.1
python-dateutil 2.8.2 Python代码编辑器 1.0.4 pytz 2021.3
PyWavelets 1.1.1 PyYAML 6.0 pyzmq 22.2.1
regex 2021.8.3 requests 2.26.0 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4.9 s3transfer 0.5.2
scikit-learn 0.24.2 scipy 1.7.1 seaborn 0.11.3
Send2Trash 1.8.0 setuptools 58.0.4 setuptools-git 1.2
沙普 0.41.0 simplejson 3.17.6 6 1.16.0
切片器 0.0.7 smart-open 5.2.1 smmap 5.0.0
spacy 3.4.1 spacy-legacy 3.0.10 spacy-loggers 1.0.3
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 srsly 2.4.4
ssh-import-id 5.10 statsmodels 0.12.2 制表 0.8.9
tangled -up-in-unicode 0.1.0 毅力 8.0.1 tensorboard 2.9.1
TensorBoard数据服务器 0.6.1 tensorboard-profile插件 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.9.1 tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0
termcolor 2.0.1 terminado 0.9.4 测试路径 0.5.0
thinc 8.1.2 threadpoolctl 2.2.0 tokenize-rt 4.2.1
分词器 0.12.1 tomli 2.0.1 火炬 1.12.1+cpu
torchvision 0.13.1+cpu 龙卷风 6.1 tqdm 4.62.3
Traitlets 5.1.0 变压器 4.21.2 打字员 0.4.2
打字扩展 3.10.0.2 ujson 4.0.2 unattended-upgrades 0.1
urllib3 1.26.7 virtualenv 20.8.0 visions 0.7.4
山葵 0.10.1 wcwidth 0.2.5 Web编码 0.5.1
WebSocket客户端 1.3.1 Werkzeug 2.0.2 wheel 0.37.0
widgetsnbextension 3.6.0 裹住 1.12.1 xgboost 1.6.2
齐普 3.6.0

GPU 群集上的 Python 库

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 argon2-cffi 20.1.0 阿斯托尔 0.8.1
astunparse 1.6.3 异步生成器 1.10 属性 21.2.0
azure-core 1.22.1 azure-cosmos 4.2.0 backcall 0.2.0
backports.entry-points-selectable 1.1.1 bcrypt 4.0.0 黑色 22.3.0
漂白剂 4.0.0 布利斯 0.7.8 boto3 1.21.18
botocore 1.24.18 cachetools (缓存工具) 5.2.0 catalogue 2.0.8
certifi 2021.10.8 cffi 1.14.6 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 click 8.0.3 cloudpickle 2.0.0
cmdstanpy 0.9.68 糖果 0.0.1 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.11
databricks-cli 0.17.3 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.6
入口点 0.3 伊菲姆 4.1.3 各个方面概述 1.0.0
fasttext 0.9.2 文件锁 (filelock) 3.3.1 Flask 1.1.2
FlatBuffers 1.12 fsspec 2021年8月1日 未来 0.18.2
加斯特 0.4.0 gitdb (Git数据库) 4.0.9 GitPython 3.1.27
google-auth (谷歌身份验证) 2.6.0 google-auth-oauthlib 0.4.6 google-pasta 0.2.0
grpcio 1.44.0 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.3.0 hijri-converter 2.2.4 假期 0.15
horovod 0.25.0 htmlmin 0.1.12 huggingface-hub 0.9.1
IDNA 3.2 ImageHash 4.3.0 imbalanced-learn 0.8.1
importlib-metadata 4.8.1 ipykernel 6.12.1 ipython 7.32.0
ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.0 isodate 0.6.1
它很危险 2.0.1 jedi 0.18.0 Jinja2 2.11.3
jmespath 0.10.0 joblib 1.0.1 joblibspark 0.5.0
jsonschema 3.2.0 Jupyter客户端 6.1.12 jupyter-core 4.8.1
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.9.0
Keras-Preprocessing 1.1.2 kiwisolver 1.3.1 韩国农历 0.3.1
语言代码 3.3.0 libclang 14.0.6 lightgbm 3.3.2
llvmlite 0.37.0 农历 0.0.9 Mako 1.2.0
Markdown 3.3.6 MarkupSafe 2.0.1 matplotlib 3.4.3
matplotlib-inline 0.1.2 缺失号 0.5.1 mistune 0.8.4
mleap 0.20.0 mlflow-skinny 1.29.0 多方法 1.9
murmurhash 1.0.8 mypy-extensions 0.4.3 nbclient 0.5.3
nbconvert 6.1.0 nbformat 5.1.3 nest-asyncio 1.5.1
NetworkX 2.6.3 nltk 3.6.5 笔记本 6.4.5
numba 0.54.1 numpy 1.20.3 oauthlib 3.2.0
opt-einsum 3.3.0 包装 21.0 熊猫 1.3.4
pandas-profiling 3.1.0 pandocfilters 1.4.3 paramiko 2.9.2
帕尔索 0.8.2 pathspec 0.9.0 pathy 0.6.2
替罪羊 0.5.2 petastorm 0.11.4 pexpect 4.8.0
Φ系数 0.12.2 pickleshare 0.7.5 枕头 8.4.0
pip 21.2.4 platformdirs 2.5.2 plotly 5.9.0
pmdarima 1.8.5 preshed 3.0.7 提示工具包 (prompt-toolkit) 3.0.20
先知 1.0.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.0
Python代码解析器 2.20 pydantic (Python 数据验证库) 1.9.2 Pygments 2.10.0
PyGObject 3.36.0 PyJWT 2.5.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.31 pyparsing 3.0.4
pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pystan 2.19.1.1 python-dateutil 2.8.2
Python代码编辑器 1.0.4 pytz 2021.3 PyWavelets 1.1.1
PyYAML 6.0 pyzmq 22.2.1 regex 2021.8.3
requests 2.26.0 requests-oauthlib 1.3.1 requests-unixsocket 0.2.0
rsa 4.9 s3transfer 0.5.2 scikit-learn 0.24.2
scipy 1.7.1 seaborn 0.11.3 Send2Trash 1.8.0
setuptools 58.0.4 setuptools-git 1.2 沙普 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 spacy 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.4 ssh-import-id 5.10
statsmodels 0.12.2 制表 0.8.9 tangled -up-in-unicode 0.1.0
毅力 8.0.1 tensorboard 2.9.1 TensorBoard数据服务器 0.6.1
tensorboard-profile插件 2.8.0 tensorboard-plugin-wit 1.8.1 TensorFlow 2.9.1
tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.27.0 termcolor 2.0.1
terminado 0.9.4 测试路径 0.5.0 thinc 8.1.2
threadpoolctl 2.2.0 tokenize-rt 4.2.1 分词器 0.12.1
tomli 2.0.1 火炬 1.12.1+cu113 torchvision 0.13.1+cu113
龙卷风 6.1 tqdm 4.62.3 Traitlets 5.1.0
变压器 4.21.2 打字员 0.4.2 打字扩展 3.10.0.2
ujson 4.0.2 unattended-upgrades 0.1 urllib3 1.26.7
virtualenv 20.8.0 visions 0.7.4 山葵 0.10.1
wcwidth 0.2.5 Web编码 0.5.1 WebSocket客户端 1.3.1
Werkzeug 2.0.2 wheel 0.37.0 widgetsnbextension 3.6.0
裹住 1.12.1 xgboost 1.6.2 齐普 3.6.0

R 软件库

R 库与 Databricks Runtime 11.3 LTS 中的 R 库 相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 11.3 LTS 中的 Java 和 Scala 库外,Databricks Runtime 11.3 LTS ML 还包含以下 JAR:

CPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.29.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0