Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
适用于机器学习的 Databricks Runtime 12.2 LTS 基于 Databricks Runtime 12.2 LTS,为机器学习和数据科学提供了随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。
注意
LTS 表示此版本受长期支持。 请参阅 Databricks Runtime LTS 版本生命周期。
有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习。
提示
若要查看已终止支持 (EoS) 的 Databricks Runtime 版本的发行说明,请参阅终止支持 Databricks Runtime 发行说明。 EoS Databricks Runtime 版本已停用,可能不会更新。
新增功能和改进
Databricks Runtime 12.2 LTS ML 是基于 Databricks Runtime 12.2 LTS 构建的。 若要了解 Databricks Runtime 12.2 LTS 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 12.2 LTS 发行说明。
AutoML
可以使用特征存储中的现有特征表来为 AutoML 预测问题补充原始输入数据集。 有关详细信息,请参阅 AutoML 特征存储集成。
有关 AutoML 的详细信息,请参阅什么是 AutoML?。
系统环境
Databricks Runtime 12.2 LTS ML 中的系统环境与 Databricks Runtime 12.2 LTS 不同,如下所示:
- DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。
请改用
%pip命令。 请参阅限于笔记本的 Python 库。 - 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
- CUDA 11.3
- cuDNN 8.0.5.39
- NCCL 2.9.9
- TensorRT 7.2.2
Databricks Runtime 12.2 LTS ML 包括 XGBoost 1.7.2,它不支持计算功能 5.2 及以下的 GPU 群集。
库
以下部分列出了 Databricks Runtime 12.2 LTS ML 中包含的库,这些库与 Databricks Runtime 12.2 LTS 中包含的不同。
本节内容:
顶尖图书馆
Databricks Runtime 12.2 LTS ML 包含以下顶层库:
- GraphFrames
- Horovod 和 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
- Scikit-learn
Python 库
Databricks Runtime 12.2 LTS ML 使用 Virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。
除了在以下部分中指定的包,Databricks Runtime 12.2 LTS ML 还包含以下包:
- hyperopt 0.2.7+db3
- sparkdl 2.3.0-db3
- automl 1.16.0
若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-12.2.txt 文件并运行 pip install -r requirements-12.2.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automl、databricks-feature-store,或 hyperopt 的 Databricks 分支。
CPU 群集上的 Python 库
| 库 | 版本 | 库 | 版本 | 库 | 版本 |
|---|---|---|---|---|---|
| absl-py | 1.0.0 | argon2-cffi | 21.3.0 | argon2-cffi-bindings | 21.2.0 |
| astor | 0.8.1 | asttokens | 2.0.5 | astunparse | 1.6.3 |
| 属性 | 21.4.0 | azure-core | 1.26.3 | azure-cosmos | 4.2.0 |
| 返回调用 | 0.2.0 | backports.entry-points-selectable (用于选择性入口点的回溯) | 1.2.0 | bcrypt | 3.2.0 |
| beautifulsoup4 | 4.11.1 | 黑色 | 22.3.0 | 漂白剂 | 4.1.0 |
| blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
| cachetools | 4.2.2 | catalogue | 2.0.8 | category-encoders | 2.5.1.post0 |
| certifi | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
| charset-normalizer | 2.0.4 | 单击 | 8.0.4 | cloudpickle | 2.0.0 |
| cmdstanpy | 1.1.0 | 糖果 | 0.0.4 | configparser | 5.2.0 |
| convertdate | 2.4.0 | 加密 | 3.4.8 | cycler | 0.11.0 |
| cymem | 2.0.7 | Cython | 0.29.28 | databricks-automl-runtime | 0.2.15 |
| databricks-cli | 0.17.4 | databricks特征存储商店 | 0.10.0 | dbl-tempo | 0.1.12 |
| dbu-python | 1.2.16 | debugpy | 1.5.1 | 修饰器 | 5.1.1 |
| defusedxml | 0.7.1 | 莳萝 | 0.3.4 | 磁盘缓存 | 5.4.0 |
| distlib | 0.3.6 | 从docstring到Markdown | 0.11 | 入口点 | 0.4 |
| ephem | 4.1.4 | 执行 | 0.8.3 | 面向概述 | 1.0.0 |
| fastjsonschema | 2.16.2 | fasttext | 0.9.2 | 文件锁 | 3.6.0 |
| Flask | 1.1.2 | flatbuffers | 23.1.21 | fonttools | 4.25.0 |
| fsspec | 2022.2.0 | 未来 | 0.18.2 | gast | 0.4.0 |
| gitdb | 4.0.10 | GitPython | 3.1.27 | 谷歌认证 | 1.33.0 |
| google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 | grpcio | 1.42.0 |
| gunicorn | 20.1.0 | gviz-api | 1.10.0 | h5py | 3.6.0 |
| hijri-converter | 2.2.4 | 假期 | 0.18 | horovod | 0.27.0 |
| htmlmin | 0.1.12 | huggingface-hub | 0.12.0 | idna | 3.3 |
| ImageHash | 4.3.1 | imbalanced-learn | 0.10.1 | importlib-metadata | 4.11.3 |
| ipykernel | 6.15.3 | ipython | 8.5.0 | ipython-genutils | 0.2.0 |
| ipywidgets | 7.7.2 | isodate | 0.6.1 | itsdangerous | 2.0.1 |
| jedi | 0.18.1 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
| joblib | 1.1.1 | joblibspark | 0.5.1 | jsonschema | 4.4.0 |
| jupyter-client | 6.1.12 | jupyter_core | 4.11.2 | jupyterlab-pygments | 0.1.2 |
| jupyterlab-widgets | 1.0.0 | keras | 2.11.0 | kiwisolver | 1.3.2 |
| 韩国农历 | 0.3.1 | 语言代码 | 3.3.0 | libclang | 15.0.6.1 |
| lightgbm | 3.3.4 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
| matplotlib | 3.5.1 | matplotlib-inline | 0.1.2 | mccabe | 0.7.0 |
| mistune | 0.8.4 | mleap | 0.20.0 | mlflow-skinny | 2.1.1 |
| multimethod | 1.9.1 | murmurhash | 1.0.9 | mypy-extensions | 0.4.3 |
| nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
| nest-asyncio | 1.5.5 | networkx | 2.7.1 | nltk | 3.7 |
| nodeenv | 1.7.0 | 笔记本 | 6.4.8 | numba | 0.55.1 |
| numpy | 1.21.5 | oauthlib | 3.2.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | pandas | 1.4.2 | pandas-profiling | 3.6.2 |
| pandocfilters | 1.5.0 | paramiko | 2.9.2 | parso | 0.8.3 |
| pathspec | 0.9.0 | pathy | 0.10.1 | 替罪羊 | 0.5.2 |
| petastorm | 0.12.1 | pexpect | 4.8.0 | phik | 0.12.3 |
| pickleshare | 0.7.5 | Pillow | 9.0.1 | pip | 21.2.4 |
| platformdirs | 2.6.2 | plotly | 5.6.0 | pluggy | 1.0.0 |
| pmdarima | 2.0.2 | preshed | 3.0.8 | prometheus-client | 0.13.1 |
| prompt-toolkit | 3.0.20 | 先知 | 1.1.1 | protobuf | 3.19.4 |
| psutil | 5.8.0 | psycopg2 | 2.9.3 | ptyprocess | 0.7.0 |
| pure-eval | 0.2.2 | pyarrow | 7.0.0 | pyasn1 | 0.4.8 |
| pyasn1-modules | 0.2.8 | pybind11 | 2.10.3 | pycparser | 2.21 |
| pydantic | 1.10.2 | pyflakes | 2.5.0 | Pygments | 2.11.2 |
| PyGObject | 3.36.0 | PyJWT | 2.6.0 | PyMeeus | 0.5.12 |
| PyNaCl | 1.5.0 | pyodbc | 4.0.32 | pyparsing | 3.0.4 |
| pyright | 1.1.283 | pyrsistent | 0.18.0 | python-dateutil | 2.8.2 |
| Python代码编辑器 | 1.0.4 | python-lsp-jsonrpc | 1.0.0 | python-lsp-server | 1.6.0 |
| pytz | 2021.3 | PyWavelets | 1.3.0 | PyYAML | 6.0 |
| pyzmq | 22.3.0 | regex | 2022年3月15日 | 请求 | 2.27.1 |
| requests-oauthlib | 1.3.1 | requests-unixsocket | 0.2.0 | 绳子 | 0.22.0 |
| RSA加密算法 | 4.7.2 | s3transfer | 0.5.0 | scikit-learn | 1.0.2 |
| scipy | 1.7.3 | seaborn | 0.11.2 | Send2Trash | 1.8.0 |
| setuptools | 61.2.0 | setuptools-git | 1.2 | SHAP算法 | 0.41.0 |
| simplejson | 3.17.6 | 6 | 1.16.0 | 切片器 | 0.0.7 |
| smart-open | 5.2.1 | smmap | 5.0.0 | soupsieve | 2.3.1 |
| spacy | 3.4.4 | spacy-legacy | 3.0.12 | spacy-loggers | 1.0.4 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.2 | 认真的吗 | 2.4.5 |
| ssh-import-id | 5.10 | 堆栈数据 | 0.2.0 | statsmodels | 0.13.2 |
| 制表 | 0.8.9 | 纠结于Unicode | 0.2.0 | 坚韧 | 8.0.1 |
| tensorboard(张量板) | 2.11.2 | tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.11.1 |
| tensorboard-plugin-wit | 1.8.1 | tensorflow-cpu | 2.11.0 | tensorflow-estimator | 2.11.0 |
| tensorflow-io-gcs-filesystem | 0.30.0 | termcolor | 2.2.0 | 完成 | 0.13.1 |
| testpath(测试路径) | 0.5.0 | thinc | 8.1.7 | threadpoolctl | 2.2.0 |
| tokenize-rt | 4.2.1 | tokenizers (分词器) | 0.13.2 | tomli | 1.2.2 |
| torch | 1.13.1+cpu | torchvision | 0.14.1+cpu | tornado | 6.1 |
| tqdm | 4.64.0 | traitlets | 5.1.1 | 转换器 | 4.25.1 |
| typeguard | 2.13.3 | typer | 0.7.0 | typing_extensions | 4.1.1 |
| ujson | 5.1.0 | unattended-upgrades(自动升级) | 0.1 | urllib3 | 1.26.9 |
| virtualenv | 20.8.0 | 愿景 | 0.7.5 | wasabi | 0.10.1 |
| wcwidth | 0.2.5 | webencodings | 0.5.1 | websocket-client | 0.58.0 |
| Werkzeug | 2.0.3 | whatthepatch | 1.0.4 | wheel | 0.37.1 |
| widgetsnbextension | 3.6.1 | 封装 | 1.12.1 | xgboost | 1.7.2 |
| yapf | 0.31.0 | zipp | 3.7.0 |
GPU 群集上的 Python 库
| 库 | 版本 | 库 | 版本 | 库 | 版本 |
|---|---|---|---|---|---|
| absl-py | 1.0.0 | argon2-cffi | 21.3.0 | argon2-cffi-bindings | 21.2.0 |
| astor | 0.8.1 | asttokens | 2.0.5 | astunparse | 1.6.3 |
| 属性 | 21.4.0 | azure-core | 1.26.3 | azure-cosmos | 4.2.0 |
| 返回调用 | 0.2.0 | backports.entry-points-selectable (用于选择性入口点的回溯) | 1.2.0 | bcrypt | 3.2.0 |
| beautifulsoup4 | 4.11.1 | 黑色 | 22.3.0 | 漂白剂 | 4.1.0 |
| blis | 0.7.9 | boto3 | 1.21.32 | botocore | 1.24.32 |
| cachetools | 4.2.2 | catalogue | 2.0.8 | category-encoders | 2.5.1.post0 |
| certifi | 2021.10.8 | cffi | 1.15.0 | chardet | 4.0.0 |
| charset-normalizer | 2.0.4 | 单击 | 8.0.4 | cloudpickle | 2.0.0 |
| cmdstanpy | 1.1.0 | 糖果 | 0.0.4 | configparser | 5.2.0 |
| convertdate | 2.4.0 | 加密 | 3.4.8 | cycler | 0.11.0 |
| cymem | 2.0.7 | Cython | 0.29.28 | databricks-automl-runtime | 0.2.15 |
| databricks-cli | 0.17.4 | databricks特征存储商店 | 0.10.0 | dbl-tempo | 0.1.12 |
| dbu-python | 1.2.16 | debugpy | 1.5.1 | 修饰器 | 5.1.1 |
| defusedxml | 0.7.1 | 莳萝 | 0.3.4 | 磁盘缓存 | 5.4.0 |
| distlib | 0.3.6 | 从docstring到Markdown | 0.11 | 入口点 | 0.4 |
| ephem | 4.1.4 | 执行 | 0.8.3 | 面向概述 | 1.0.0 |
| fastjsonschema | 2.16.2 | fasttext | 0.9.2 | 文件锁 | 3.6.0 |
| Flask | 1.1.2 | flatbuffers | 23.1.21 | fonttools | 4.25.0 |
| fsspec | 2022.2.0 | 未来 | 0.18.2 | gast | 0.4.0 |
| gitdb | 4.0.10 | GitPython | 3.1.27 | 谷歌认证 | 1.33.0 |
| google-auth-oauthlib | 0.4.6 | google-pasta | 0.2.0 | grpcio | 1.42.0 |
| gunicorn | 20.1.0 | gviz-api | 1.10.0 | h5py | 3.6.0 |
| hijri-converter | 2.2.4 | 假期 | 0.18 | horovod | 0.27.0 |
| htmlmin | 0.1.12 | huggingface-hub | 0.12.0 | idna | 3.3 |
| ImageHash | 4.3.1 | imbalanced-learn | 0.10.1 | importlib-metadata | 4.11.3 |
| ipykernel | 6.15.3 | ipython | 8.5.0 | ipython-genutils | 0.2.0 |
| ipywidgets | 7.7.2 | isodate | 0.6.1 | itsdangerous | 2.0.1 |
| jedi | 0.18.1 | Jinja2 | 2.11.3 | jmespath | 0.10.0 |
| joblib | 1.1.1 | joblibspark | 0.5.1 | jsonschema | 4.4.0 |
| jupyter-client | 6.1.12 | jupyter_core | 4.11.2 | jupyterlab-pygments | 0.1.2 |
| jupyterlab-widgets | 1.0.0 | keras | 2.11.0 | kiwisolver | 1.3.2 |
| 韩国农历 | 0.3.1 | 语言代码 | 3.3.0 | libclang | 15.0.6.1 |
| lightgbm | 3.3.4 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.2.0 | Markdown | 3.3.4 | MarkupSafe | 2.0.1 |
| matplotlib | 3.5.1 | matplotlib-inline | 0.1.2 | mccabe | 0.7.0 |
| mistune | 0.8.4 | mleap | 0.20.0 | mlflow-skinny | 2.1.1 |
| multimethod | 1.9.1 | murmurhash | 1.0.9 | mypy-extensions | 0.4.3 |
| nbclient | 0.5.13 | nbconvert | 6.4.4 | nbformat | 5.3.0 |
| nest-asyncio | 1.5.5 | networkx | 2.7.1 | nltk | 3.7 |
| nodeenv | 1.7.0 | 笔记本 | 6.4.8 | numba(用于Python的数值计算库) | 0.55.1 |
| numpy | 1.21.5 | oauthlib | 3.2.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | pandas | 1.4.2 | pandas-profiling | 3.6.2 |
| pandocfilters | 1.5.0 | paramiko | 2.9.2 | parso | 0.8.3 |
| pathspec | 0.9.0 | pathy | 0.10.1 | 替罪羊 | 0.5.2 |
| petastorm | 0.12.1 | pexpect | 4.8.0 | phik | 0.12.3 |
| pickleshare | 0.7.5 | Pillow | 9.0.1 | pip | 21.2.4 |
| platformdirs | 2.6.2 | plotly | 5.6.0 | pluggy | 1.0.0 |
| pmdarima | 2.0.2 | preshed | 3.0.8 | prompt-toolkit(提示工具包) | 3.0.20 |
| 预言者 | 1.1.1 | protobuf | 3.19.4 | psutil | 5.8.0 |
| psycopg2 | 2.9.3 | ptyprocess | 0.7.0 | pure-eval | 0.2.2 |
| pyarrow | 7.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.10.3 | pycparser | 2.21 | pydantic | 1.10.2 |
| pyflakes | 2.5.0 | Pygments | 2.11.2 | PyGObject | 3.36.0 |
| PyJWT | 2.6.0 | PyMeeus | 0.5.12 | PyNaCl | 1.5.0 |
| pyodbc | 4.0.32 | pyparsing | 3.0.4 | pyright | 1.1.283 |
| pyrsistent | 0.18.0 | python-dateutil | 2.8.2 | Python代码编辑器 | 1.0.4 |
| python-lsp-jsonrpc | 1.0.0 | python-lsp-server | 1.6.0 | pytz | 2021.3 |
| PyWavelets | 1.3.0 | PyYAML | 6.0 | pyzmq | 22.3.0 |
| regex | 2022年3月15日 | 请求 | 2.27.1 | requests-oauthlib | 1.3.1 |
| requests-unixsocket | 0.2.0 | 绳子 | 0.22.0 | RSA加密算法 | 4.7.2 |
| s3transfer | 0.5.0 | scikit-learn | 1.0.2 | scipy | 1.7.3 |
| seaborn | 0.11.2 | Send2Trash | 1.8.0 | setuptools | 61.2.0 |
| setuptools-git | 1.2 | SHAP算法 | 0.41.0 | simplejson | 3.17.6 |
| 6 | 1.16.0 | 切片器 | 0.0.7 | smart-open | 5.2.1 |
| smmap | 5.0.0 | soupsieve | 2.3.1 | spacy | 3.4.4 |
| spacy-legacy | 3.0.12 | spacy-loggers | 1.0.4 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.2 | 认真的吗 | 2.4.5 | ssh-import-id | 5.10 |
| 堆栈数据 | 0.2.0 | statsmodels | 0.13.2 | 制表 | 0.8.9 |
| 纠结于Unicode | 0.2.0 | 坚韧 | 8.0.1 | tensorboard(张量板) | 2.11.2 |
| tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile | 2.11.1 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow(TensorFlow 是一个开源机器学习框架) | 2.11.0 | tensorflow-estimator | 2.11.0 | tensorflow-io-gcs-filesystem | 0.30.0 |
| termcolor | 2.2.0 | 完成 | 0.13.1 | testpath(测试路径) | 0.5.0 |
| thinc | 8.1.7 | threadpoolctl | 2.2.0 | tokenize-rt | 4.2.1 |
| tokenizers (分词器) | 0.13.2 | tomli | 1.2.2 | torch | 1.13.1+cu117 |
| torchvision | 0.14.1+cu117 | tornado | 6.1 | tqdm | 4.64.0 |
| traitlets | 5.1.1 | 转换器 | 4.25.1 | typeguard | 2.13.3 |
| typer | 0.7.0 | typing_extensions | 4.1.1 | ujson | 5.1.0 |
| unattended-upgrades(自动升级) | 0.1 | urllib3 | 1.26.9 | virtualenv | 20.8.0 |
| 愿景 | 0.7.5 | wasabi | 0.10.1 | wcwidth | 0.2.5 |
| webencodings | 0.5.1 | websocket-client | 0.58.0 | Werkzeug | 2.0.3 |
| whatthepatch | 1.0.4 | wheel | 0.37.1 | widgetsnbextension | 3.6.1 |
| 封装 | 1.12.1 | xgboost | 1.7.2 | yapf | 0.31.0 |
| zipp | 3.7.0 |
R 库
R 库与 Databricks Runtime 12.2 LTS 中的 R 库完全相同。
Java 库和 Scala 库(Scala 2.12 群集)
除了 Databricks Runtime 12.2 LTS 中的 Java 库和 Scala 库之外,Databricks Runtime 12.2 LTS ML 还包含以下 JAR:
CPU 群集
| 组身份识别码 | 工件 ID | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
| ml.dmlc | xgboost4j-spark_2.12 | 1.7.3 |
| ml.dmlc | xgboost4j_2.12 | 1.7.3 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 2.1.1 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU 群集
| 组身份识别码 | 工件 ID | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | v0.20.0-db1 |
| ml.dmlc | xgboost4j-gpu_2.12 | 1.7.3 |
| ml.dmlc | xgboost4j-spark-gpu_2.12 | 1.7.3 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 2.1.1 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |