用于Machine Learning的 Databricks Runtime 12.2 LTS (EoS)

注释

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

基于Databricks Runtime 12.2 LTS(EoS),Databricks Runtime 12.2 LTS for Machine Learning 为机器学习和数据科学提供了一个现成的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

新功能和改进

Databricks Runtime 12.2 LTS ML 是基于 Databricks Runtime 12.2 LTS 构建的。 有关 Databricks Runtime 12.2 LTS(包括 Apache Spark MLlib 和 SparkR)中的新增功能的信息,请参阅 Databricks Runtime 12.2 LTS(EoS) 发行说明。

AutoML

可以使用特征存储中的现有特征表来为 AutoML 预测问题补充原始输入数据集。 有关详细信息,请参阅 AutoML 功能存储集成

有关 AutoML 的详细信息,请参阅什么是 AutoML?

系统环境

Databricks Runtime 12.2 LTS ML 中的系统环境与 Databricks Runtime 12.2 LTS 不同,如下所示:

  • DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。 请改用 %pip 命令。 请参阅 Notebook 范围内的 Python 库
  • 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
    • CUDA 11.3
    • cuDNN 8.0.5.39
    • NCCL 2.9.9
    • TensorRT 7.2.2

Databricks Runtime 12.2 LTS ML 包括 XGBoost 1.7.2,它不支持计算功能 5.2 及以下的 GPU 群集。

图书馆

以下部分列出了 Databricks Runtime 12.2 LTS ML 中包含的库,这些库与 Databricks Runtime 12.2 LTS 中包含的不同。

本节内容:

顶层库

Databricks Runtime 12.2 LTS ML 包含以下顶层

Python库

Databricks Runtime 12.2 LTS ML 使用 Virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 12.2 LTS ML 还包含以下包:

  • hyperopt 0.2.7+db3
  • sparkdl 2.3.0-db3
  • automl 1.16.0

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-12.2.txt 文件并运行 pip install -r requirements-12.2.txt。 此命令安装 Databricks Runtime ML 使用的所有open source库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

Python库在CPU集群上

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
阿斯托尔 0.8.1 asttokens 2.0.5 astunparse 1.6.3
属性 21.4.0 azure-core 1.26.3 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 黑色 22.3.0 漂白剂 4.1.0
布利斯 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools (缓存工具) 4.2.2 catalogue 2.0.8 类别编码器 (category-encoders) 2.5.1.post0
certifi 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 点击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 甜点 0.0.4 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.15
databricks-cli 0.17.4 Databricks特征商店 0.10.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 修饰器 5.1.1
defusedxml 0.7.1 莳萝 0.3.4 磁盘缓存 5.4.0
distlib 0.3.6 docstring-to-markdown 0.11 入口点 0.4
伊菲姆 4.1.4 执行 0.8.3 各个方面概述 1.0.0
fastjsonschema 2.16.2 fasttext 0.9.2 文件锁 (filelock) 3.6.0
Flask 1.1.2 FlatBuffers 23.1.21 fonttools(字体工具) 4.25.0
fsspec 2022.2.0 未来 0.18.2 加斯特 0.4.0
gitdb (Git数据库) 4.0.10 GitPython 3.1.27 google-auth (谷歌身份验证) 1.33.0
google-auth-oauthlib 0.4.6 google-pasta 0.2.0 grpcio 1.42.0
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.6.0
hijri-converter 2.2.4 假期 0.18 horovod 0.27.0
htmlmin 0.1.12 huggingface-hub 0.12.0 idna 3.3
ImageHash 4.3.1 imbalanced-learn 0.10.1 importlib-metadata 4.11.3
ipykernel 6.15.3 ipython 8.5.0 ipython-genutils(IPython通用工具) 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 它很危险 2.0.1
jedi 0.18.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.1.1 joblibspark 0.5.1 jsonschema 4.4.0
Jupyter客户端 6.1.12 jupyter_core(Jupyter核心) 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 kiwisolver 1.3.2
韩国农历 0.3.1 语言代码 3.3.0 libclang 15.0.6.1
lightgbm 3.3.4 llvmlite 0.38.0 农历 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 麦卡贝 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.1.1
多方法 1.9.1 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 NetworkX 2.7.1 nltk 3.7
nodeenv 1.7.0 笔记本 6.4.8 numba(用于Python的数值计算库) 0.55.1
numpy 1.21.5 oauthlib 3.2.0 opt-einsum 3.3.0
包装 21.3 熊猫 1.4.2 pandas-profiling 3.6.2
pandocfilters 1.5.0 paramiko 2.9.2 帕尔索 0.8.3
pathspec 0.9.0 pathy 0.10.1 替罪羊 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare(软件名称) 0.7.5 枕头 9.0.1 pip 21.2.4
platformdirs 2.6.2 plotly 5.6.0 Pluggy (Python库) 1.0.0
pmdarima 2.0.2 preshed 3.0.8 prometheus-client 0.13.1
prompt-toolkit(提示工具包) 3.0.20 预言者 1.1.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.3 Python代码解析器 2.21
pydantic (Python 数据验证库) 1.10.2 pyflakes 2.5.0 Pygments 2.11.2
PyGObject 3.36.0 PyJWT 2.6.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing Python解析库 3.0.4
pyright 1.1.283 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 python-dateutil 2.8.2
Python代码编辑器 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.6.0
pytz 2021.3 PyWavelets 1.3.0 PyYAML 6.0
pyzmq 22.3.0 regex 2022年3月15日 请求 2.27.1
requests-oauthlib 1.3.1 requests-unixsocket 0.2.0 绳子 0.22.0
RSA加密算法 4.7.2 s3transfer 0.5.0 scikit-learn 1.0.2
scipy 1.7.3 seaborn 0.11.2 Send2Trash 1.8.0
setuptools 61.2.0 setuptools-git 1.2 SHAP算法 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 soupsieve 2.3.1
spacy 3.4.4 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2 srsly 2.4.5
ssh-import-id 5.10 堆栈数据 0.2.0 statsmodels 0.13.2
制表 0.8.9 tangled -up-in-unicode 0.2.0 毅力 8.0.1
tensorboard 2.11.2 TensorBoard数据服务器 0.6.1 tensorboard-plugin-profile 2.11.1
tensorboard-plugin-wit 1.8.1 tensorflow-cpu 2.11.0 tensorflow-estimator 2.11.0
tensorflow-io-gcs-filesystem 0.30.0 termcolor 2.2.0 terminado 0.13.1
测试路径 0.5.0 thinc 8.1.7 threadpoolctl 2.2.0
tokenize-rt 4.2.1 分词器 0.13.2 tomli 1.2.2
火炬 1.13.1+cpu torchvision 0.14.1+cpu 龙卷风 6.1
tqdm 4.64.0 Traitlets 5.1.1 变压器 4.25.1
typeguard 2.13.3 打字员 0.7.0 输入扩展 (typing_extensions) 4.1.1
ujson 5.1.0 unattended-upgrades 0.1 urllib3 1.26.9
virtualenv 20.8.0 愿景 0.7.5 山葵 0.10.1
wcwidth 0.2.5 Web编码 0.5.1 WebSocket客户端 0.58.0
Werkzeug 2.0.3 whatthepatch (一种用于查看和编辑补丁文件的工具) 1.0.4 wheel 0.37.1
widgetsnbextension 3.6.1 封装 1.12.1 xgboost 1.7.2
yapf 0.31.0 齐普 3.7.0

Python 库在 GPU 集群上

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
阿斯托尔 0.8.1 asttokens 2.0.5 astunparse 1.6.3
属性 21.4.0 azure-core 1.26.3 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 黑色 22.3.0 漂白剂 4.1.0
布利斯 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools (缓存工具) 4.2.2 catalogue 2.0.8 类别编码器 (category-encoders) 2.5.1.post0
certifi 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer (字符集正常化工具) 2.0.4 点击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 甜点 0.0.4 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.15
databricks-cli 0.17.4 Databricks特征商店 0.10.0 dbl-tempo 0.1.12
dbus-python 1.2.16 debugpy 1.5.1 修饰器 5.1.1
defusedxml 0.7.1 莳萝 0.3.4 磁盘缓存 5.4.0
distlib 0.3.6 docstring-to-markdown 0.11 入口点 0.4
伊菲姆 4.1.4 执行 0.8.3 各个方面概述 1.0.0
fastjsonschema 2.16.2 fasttext 0.9.2 文件锁 (filelock) 3.6.0
Flask 1.1.2 FlatBuffers 23.1.21 fonttools(字体工具) 4.25.0
fsspec 2022.2.0 未来 0.18.2 加斯特 0.4.0
gitdb (Git数据库) 4.0.10 GitPython 3.1.27 google-auth (谷歌身份验证) 1.33.0
google-auth-oauthlib 0.4.6 google-pasta 0.2.0 grpcio 1.42.0
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.6.0
hijri-converter 2.2.4 假期 0.18 horovod 0.27.0
htmlmin 0.1.12 huggingface-hub 0.12.0 idna 3.3
ImageHash 4.3.1 imbalanced-learn 0.10.1 importlib-metadata 4.11.3
ipykernel 6.15.3 ipython 8.5.0 ipython-genutils(IPython通用工具) 0.2.0
ipywidgets 7.7.2 isodate 0.6.1 它很危险 2.0.1
jedi 0.18.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.1.1 joblibspark 0.5.1 jsonschema 4.4.0
Jupyter客户端 6.1.12 jupyter_core(Jupyter核心) 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 kiwisolver 1.3.2
韩国农历 0.3.1 语言代码 3.3.0 libclang 15.0.6.1
lightgbm 3.3.4 llvmlite 0.38.0 农历 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 麦卡贝 0.7.0
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.1.1
多方法 1.9.1 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 NetworkX 2.7.1 nltk 3.7
nodeenv 1.7.0 笔记本 6.4.8 numba(用于Python的数值计算库) 0.55.1
numpy 1.21.5 oauthlib 3.2.0 opt-einsum 3.3.0
包装 21.3 熊猫 1.4.2 pandas-profiling 3.6.2
pandocfilters 1.5.0 paramiko 2.9.2 帕尔索 0.8.3
pathspec 0.9.0 pathy 0.10.1 替罪羊 0.5.2
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare(软件名称) 0.7.5 枕头 9.0.1 pip 21.2.4
platformdirs 2.6.2 plotly 5.6.0 Pluggy (Python库) 1.0.0
pmdarima 2.0.2 preshed 3.0.8 prompt-toolkit(提示工具包) 3.0.20
预言者 1.1.1 protobuf 3.19.4 psutil 5.8.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.3 Python代码解析器 2.21 pydantic (Python 数据验证库) 1.10.2
pyflakes 2.5.0 Pygments 2.11.2 PyGObject 3.36.0
PyJWT 2.6.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing Python解析库 3.0.4 pyright 1.1.283
pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 python-dateutil 2.8.2 Python代码编辑器 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.6.0 pytz 2021.3
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 22.3.0
regex 2022年3月15日 请求 2.27.1 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 绳子 0.22.0 RSA加密算法 4.7.2
s3transfer 0.5.0 scikit-learn 1.0.2 scipy 1.7.3
seaborn 0.11.2 Send2Trash 1.8.0 setuptools 61.2.0
setuptools-git 1.2 SHAP算法 0.41.0 simplejson 3.17.6
6 1.16.0 切片器 0.0.7 smart-open 5.2.1
smmap 5.0.0 soupsieve 2.3.1 spacy 3.4.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.5 ssh-import-id 5.10
堆栈数据 0.2.0 statsmodels 0.13.2 制表 0.8.9
tangled -up-in-unicode 0.2.0 毅力 8.0.1 tensorboard 2.11.2
TensorBoard数据服务器 0.6.1 tensorboard-plugin-profile 2.11.1 tensorboard-plugin-wit 1.8.1
tensorflow(TensorFlow 是一个开源机器学习框架) 2.11.0 tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.30.0
termcolor 2.2.0 terminado 0.13.1 测试路径 0.5.0
thinc 8.1.7 threadpoolctl 2.2.0 tokenize-rt 4.2.1
分词器 0.13.2 tomli 1.2.2 火炬 1.13.1+cu117
torchvision 0.14.1+cu117 龙卷风 6.1 tqdm 4.64.0
Traitlets 5.1.1 变压器 4.25.1 typeguard 2.13.3
打字员 0.7.0 输入扩展 (typing_extensions) 4.1.1 ujson 5.1.0
unattended-upgrades 0.1 urllib3 1.26.9 virtualenv 20.8.0
愿景 0.7.5 山葵 0.10.1 wcwidth 0.2.5
Web编码 0.5.1 WebSocket客户端 0.58.0 Werkzeug 2.0.3
whatthepatch (一种用于查看和编辑补丁文件的工具) 1.0.4 wheel 0.37.1 widgetsnbextension 3.6.1
封装 1.12.1 xgboost 1.7.2 yapf 0.31.0
齐普 3.7.0

R 库

R 库与 Databricks Runtime 12.2 LTS 中的 R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 12.2 LTS 中的Java库和 Scala 库,Databricks Runtime 12.2 LTS ML 还包含以下 JAR:

CPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.1.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0