用于机器学习的 Databricks Runtime 12.0 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

用于机器学习的 Databricks Runtime 12.0 基于 Databricks Runtime 12.0 (EoS) 为机器学习和数据科学提供随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能和改进

Databricks Runtime 12.0 ML 基于 Databricks Runtime 12.0 构建。 若要了解 Databricks Runtime 12.0 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 12.0 (EoS) 发行说明。

Databricks AutoML 的增强功能

  • 预测模型现在可以选择性地包含国家/地区假日。
  • 预测现在支持每月、每季度和每年的频率。
  • AutoML 现在可以使用更大的数据集进行训练。 AutoML 会自动为大型数据集分配更多 CPU 核心。

有关 Databricks AutoML 的详细信息,请参阅什么是 AutoML?

MLflow 2.0

Databricks Runtime 12.0 ML 包括 MLflow 2.0。 MLflow 2.0 构建在 MLflow 的强大平台基础之上,并整合了广泛的用户反馈来简化数据科学工作流,并为 MLOps 提供创新的一流工具。 功能和改进包括对 MLflow Recipes(以前称为 MLflow Pipelines)的扩展,例如 AutoML、超参数优化和分类支持,以及与 ML 生态系统的现代化集成、简化的 MLflow 跟踪 UI、跨 MLflow 的平台组件刷新核心 API 等。 有关详细信息,请参阅 MLflow 2.0 文档或查看博客文章

scikit-learn 1.0

Databricks Runtime ML 12.0 包括 scikit-learn 版本 1.0。 请访问scikit-learn 文档,了解此 scikit-learn 发布的更改。

系统环境

Databricks Runtime 12.0 ML 中的系统环境在以下方面不同于 Databricks Runtime 12.0:

Databricks Runtime 12.0 ML 包括 XGBoost 1.6.2,它不支持计算功能 5.2 及以下的 GPU 群集。

以下部分列出了 Databricks Runtime 12.0 ML 中包含的库,这些库不同于 Databricks Runtime 12.0 中包含的库。

本节内容:

顶层库

Databricks Runtime 12.0 ML 包含以下顶层

Python 库

Databricks Runtime 12.0 ML 使用 Virtualenv 进行 Python 包管理,并包含许多常用的 ML 包。

除了在以下部分中指定的包,Databricks Runtime 12.0 ML 还包含以下包:

  • hyperopt 0.2.7.db1
  • sparkdl 2.3.0-db3
  • automl 1.14.1

若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-12.0.txt 文件并运行 pip install -r requirements-12.0.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-store,或 hyperopt 的 Databricks 分支。

CPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
attrs 21.4.0 azure-core 1.26.1 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 black 22.3.0 bleach 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools 4.2.2 catalogue 2.0.8 category-encoders 2.5.1.post0
certifi 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.0.8 confection 0.0.3 configparser 5.2.0
convertdate 2.4.0 密码系统 3.4.8 cycler 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.13
databricks-cli 0.17.3 databricks-feature-store 0.8.0 dbl-tempo 0.1.12
dbu-python 1.2.16 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 entrypoints 0.4 ephem 4.1.3
执行 0.8.3 facets-overview 1.0.0 fastjsonschema 2.16.2
fasttext 0.9.2 filelock 3.6.0 Flask 1.1.2
flatbuffers 22.10.26 fonttools 4.25.0 fsspec 2022.2.0
future 0.18.2 gast 0.4.0 gitdb 4.0.9
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.42.0 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.6.0 hijri-converter 2.2.4
holidays 0.16 horovod 0.25.0 htmlmin 0.1.12
huggingface-hub 0.11.0 idna 3.3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.15.3
ipython 8.5.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.1.0
joblibspark 0.5.0 jsonschema 4.4.0 jupyter-client 6.1.12
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.10.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.2
korean-lunar-calendar 0.3.1 langcodes 3.3.0 libclang 14.0.6
lightgbm 3.3.3 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 missingno 0.5.1
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.0.1
multimethod 1.8 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk 3.7
笔记本 6.4.8 numba 0.55.1 numpy 1.21.5
oauthlib 3.2.0 opt-einsum 3.3.0 打包 21.3
pandas 1.4.2 pandas-profiling 3.3.0 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.9.0
pathy 0.6.1 patsy 0.5.2 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
Pillow 9.0.1 pip 21.2.4 platformdirs 2.5.4
plotly 5.6.0 pmdarima 2.0.1 preshed 3.0.8
prometheus-client 0.13.1 prompt-toolkit 3.0.20 prophet 1.1.1
protobuf 3.19.4 psutil 5.8.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 pyarrow 7.0.0
pyasn1 0.4.8 pyasn1-modules 0.2.8 pybind11 2.10.1
pycparser 2.21 pydantic 1.9.2 Pygments 2.11.2
PyGObject 3.36.0 PyJWT 2.6.0 PyMeeus 0.5.11
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.4
pyrsistent 0.18.0 python-dateutil 2.8.2 python-editor 1.0.4
pytz 2021.3 PyWavelets 1.3.0 PyYAML 6.0
pyzmq 22.3.0 regex 2022.3.15 请求 2.27.1
requests-oauthlib 1.3.1 requests-unixsocket 0.2.0 rsa 4.7.2
s3transfer 0.5.0 scikit-learn 1.0.2 scipy 1.7.3
seaborn 0.11.2 Send2Trash 1.8.0 setuptools 61.2.0
setuptools-git 1.2 shap 0.41.0 simplejson 3.17.6
6 1.16.0 slicer 0.0.7 smart-open 5.1.0
smmap 5.0.0 soupsieve 2.3.1 spacy 3.4.1
spacy-legacy 3.0.10 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.5 ssh-import-id 5.10
stack-data 0.2.0 statsmodels 0.13.2 tabulate 0.8.9
tangled-up-in-unicode 0.2.0 tenacity 8.0.1 tensorboard 2.10.0
tensorboard-data-server 0.6.1 tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1
tensorflow-cpu 2.10.0 tensorflow-estimator 2.10.0 tensorflow-io-gcs-filesystem 0.28.0
termcolor 2.1.1 terminado 0.13.1 testpath 0.5.0
thinc 8.1.5 threadpoolctl 2.2.0 tokenize-rt 4.2.1
tokenizers 0.13.2 tomli 1.2.2 torch 1.12.1+cpu
torchvision 0.13.1+cpu tornado 6.1 tqdm 4.64.0
traitlets 5.1.1 transformers 4.23.1 typer 0.4.2
typing_extensions 4.1.1 unattended-upgrades 0.1 urllib3 1.26.9
virtualenv 20.8.0 visions 0.7.5 wasabi 0.10.1
wcwidth 0.2.5 webencodings 0.5.1 websocket-client 0.58.0
Werkzeug 2.0.3 wheel 0.37.1 widgetsnbextension 3.6.1
wrapt 1.12.1 zipp 3.7.0

GPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0
astor 0.8.1 asttokens 2.0.5 astunparse 1.6.3
attrs 21.4.0 azure-core 1.26.1 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.2.0 bcrypt 3.2.0
beautifulsoup4 4.11.1 black 22.3.0 bleach 4.1.0
blis 0.7.9 boto3 1.21.32 botocore 1.24.32
cachetools 4.2.2 catalogue 2.0.8 category-encoders 2.5.1.post0
certifi 2021.10.8 cffi 1.15.0 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.0.8 confection 0.0.3 configparser 5.2.0
convertdate 2.4.0 密码系统 3.4.8 cycler 0.11.0
cymem 2.0.7 Cython 0.29.28 databricks-automl-runtime 0.2.13
databricks-cli 0.17.3 databricks-feature-store 0.8.0 dbl-tempo 0.1.12
dbu-python 1.2.16 debugpy 1.5.1 decorator 5.1.1
defusedxml 0.7.1 dill 0.3.4 diskcache 5.4.0
distlib 0.3.6 entrypoints 0.4 ephem 4.1.3
执行 0.8.3 facets-overview 1.0.0 fastjsonschema 2.16.2
fasttext 0.9.2 filelock 3.6.0 Flask 1.1.2
flatbuffers 22.10.26 fonttools 4.25.0 fsspec 2022.2.0
future 0.18.2 gast 0.4.0 gitdb 4.0.9
GitPython 3.1.27 google-auth 1.33.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.42.0 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.6.0 hijri-converter 2.2.4
holidays 0.16 horovod 0.25.0 htmlmin 0.1.12
huggingface-hub 0.11.0 idna 3.3 ImageHash 4.3.1
imbalanced-learn 0.8.1 importlib-metadata 4.11.3 ipykernel 6.15.3
ipython 8.5.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.1.0
joblibspark 0.5.0 jsonschema 4.4.0 jupyter-client 6.1.12
jupyter_core 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.10.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.2
korean-lunar-calendar 0.3.1 langcodes 3.3.0 libclang 14.0.6
lightgbm 3.3.3 llvmlite 0.38.0 LunarCalendar 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
matplotlib 3.5.1 matplotlib-inline 0.1.2 missingno 0.5.1
mistune 0.8.4 mleap 0.20.0 mlflow-skinny 2.0.1
multimethod 1.8 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.3.0
nest-asyncio 1.5.5 networkx 2.7.1 nltk 3.7
笔记本 6.4.8 numba 0.55.1 numpy 1.21.5
oauthlib 3.2.0 opt-einsum 3.3.0 打包 21.3
pandas 1.4.2 pandas-profiling 3.3.0 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.9.0
pathy 0.6.1 patsy 0.5.2 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
Pillow 9.0.1 pip 21.2.4 platformdirs 2.5.4
plotly 5.6.0 pmdarima 2.0.1 preshed 3.0.8
prompt-toolkit 3.0.20 prophet 1.1.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.1 pycparser 2.21
pydantic 1.9.2 Pygments 2.11.2 PyGObject 3.36.0
PyJWT 2.6.0 PyMeeus 0.5.11 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing 3.0.4 pyrsistent 0.18.0
python-dateutil 2.8.2 python-editor 1.0.4 pytz 2021.3
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 22.3.0
regex 2022.3.15 请求 2.27.1 requests-oauthlib 1.3.1
requests-unixsocket 0.2.0 rsa 4.7.2 s3transfer 0.5.0
scikit-learn 1.0.2 scipy 1.7.3 seaborn 0.11.2
Send2Trash 1.8.0 setuptools 61.2.0 setuptools-git 1.2
shap 0.41.0 simplejson 3.17.6 6 1.16.0
slicer 0.0.7 smart-open 5.1.0 smmap 5.0.0
soupsieve 2.3.1 spacy 3.4.1 spacy-legacy 3.0.10
spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2
srsly 2.4.5 ssh-import-id 5.10 stack-data 0.2.0
statsmodels 0.13.2 tabulate 0.8.9 tangled-up-in-unicode 0.2.0
tenacity 8.0.1 tensorboard 2.10.0 tensorboard-data-server 0.6.1
tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1 tensorflow 2.10.0
tensorflow-estimator 2.10.0 tensorflow-io-gcs-filesystem 0.28.0 termcolor 2.1.1
terminado 0.13.1 testpath 0.5.0 thinc 8.1.5
threadpoolctl 2.2.0 tokenize-rt 4.2.1 tokenizers 0.13.2
tomli 1.2.2 torch 1.12.1+cu113 torchvision 0.13.1+cu113
tornado 6.1 tqdm 4.64.0 traitlets 5.1.1
transformers 4.23.1 typer 0.4.2 typing_extensions 4.1.1
unattended-upgrades 0.1 urllib3 1.26.9 virtualenv 20.8.0
visions 0.7.5 wasabi 0.10.1 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 Werkzeug 2.0.3
wheel 0.37.1 widgetsnbextension 3.6.1 wrapt 1.12.1
zipp 3.7.0

R 库

R 库与 Databricks Runtime 12.0 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 12.0 中的 Java 库和 Scala 库,Databricks Runtime 12.0 ML 还包含以下 JAR:

CPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.6.2
ml.dmlc xgboost4j_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.0.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组 ID 项目 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.6.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.6.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 2.0.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0