注释
对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性。
用于机器学习的 Databricks Runtime 10.4 LTS 提供了一个即用的机器学习和数据科学环境,基于 Databricks Runtime 10.4 LTS (EoS)。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。
有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习。
新功能和改进
Databricks Runtime 10.4 LTS ML 基于 Databricks Runtime 10.4 LTS 构建。 有关 Databricks Runtime 10.4 LTS(包括 Apache Spark MLlib 和 SparkR)中的新增功能的信息,请参阅 Databricks Runtime 10.4 LTS(EoS) 发行说明。
AutoML 的增强功能
对 AutoML 进行了以下增强功能。
AutoML 已正式发布
从 Databricks Runtime 10.4 LTS ML 开始,AutoML 已正式发布。
缺失值的插补
现在可以指定空值的处理方式。 默认情况下,AutoML 会根据列类型和内容选择一种插补方法。 有关详细信息,请参阅 填充缺失值 。
UI 中的列选择
对于分类和回归问题,除了 API 之外,还可以使用 UI 指定 AutoML 在其计算过程中应忽略的列。 请参阅 列选择。
新数据类型
AutoML 现在支持数值数组类型。
自定义生成笔记本和实验的存储位置
现在可以在工作区中指定 AutoML 应保存生成的笔记本和试验的位置。 使用 experiment_dir 参数。 请参阅 AutoML Python API 参考。
Databricks 功能存储增强功能
Databricks Feature Store 进行了以下增强。
- 现在可以将现有 Delta 表 注册为功能表。
系统环境
Databricks Runtime 10.4 LTS ML 中的系统环境不同于 Databricks Runtime 10.4 LTS,如下所示:
- DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。
请改用
%pip命令。 请参阅笔记本范围的 Python 库。 - 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
图书馆
以下部分列出了 Databricks Runtime 10.4 LTS ML 中包含的库,这些库不同于 Databricks Runtime 10.4 LTS 中包含的库。
本节内容:
顶级图书馆
Databricks Runtime 10.4 LTS ML 包含以下顶级 库:
- GraphFrames
- Horovod 和 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python 库
Databricks Runtime 10.4 LTS ML 使用 Virtualenv 进行 Python 包管理,并包括许多常用的 ML 包。
除了以下部分中指定的包之外,Databricks Runtime 10.4 LTS ML 还包括以下包:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.8
- automl 1.7.2
CPU 群集上的 Python 库
若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-10.4.txt 文件并运行 pip install -r requirements-10.4.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Azure Databricks 开发的库,例如 databricks-automl, databricks-feature-store或 Databricks 分支 hyperopt。
| 图书馆 | 版本 | 图书馆 | 版本 | 图书馆 | 版本 |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs(应用程序目录) | 1.4.4 |
| argon2-cffi | 20.1.0 | 阿斯托尔 | 0.8.1 | astunparse | 1.6.3 |
| 异步生成器 | 1.10 | 属性 | 20.3.0 | backcall | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | 漂白剂 | 3.3.0 |
| 布利斯 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools (缓存工具) | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | 加密 | 3.4.7 | 骑行者 | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| 修饰器 | 5.0.6 | defusedxml | 0.7.1 | 莳萝 | 0.3.2 |
| 磁盘缓存 | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| 入口点 | 0.3 | 伊菲姆 | 4.1.3 | 各个方面概述 | 1.0.0 |
| fasttext | 0.9.2 | 文件锁 (filelock) | 3.0.12 | Flask | 1.1.2 |
| FlatBuffers | 2.0 | fsspec | 0.9.0 | 未来 | 0.18.2 |
| 加斯特 | 0.4.0 | gitdb (Git数据库) | 4.0.7 | GitPython | 3.1.12 |
| google-auth (谷歌身份验证) | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | 假期 | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| IDNA | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils(IPython通用工具) | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| 它很危险 | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Jupyter客户端 | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
| 韩国农历 | 0.2.1 | 语言代码 | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | 缺失号 | 0.5.1 | mistune | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | 多方法 | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | NetworkX | 2.5 |
| nltk | 3.6.1 | 笔记本 | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | 熊猫 | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | 帕尔索 | 0.7.0 |
| pathy | 0.6.0 | 替罪羊 | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | Φ系数 | 0.12.0 | pickleshare | 0.7.5 |
| 枕头 | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
| 提示工具包 (prompt-toolkit) | 3.0.17 | 先知 | 1.0.1 | protobuf | 3.17.2 |
| psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
| pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.9.1 | Python代码解析器 | 2.20 | pydantic (Python 数据验证库) | 1.8.2 |
| Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
| PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
| pyrsistent(持久性,类似于 persistent 的 Python 包) | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 |
| python-dateutil | 2.8.1 | Python代码编辑器 | 1.0.4 | python-engineio | 4.3.0 |
| python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
| PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
| requests | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
| rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
| scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn | 0.11.1 |
| Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
| 沙普 | 0.40.0 | simplejson | 3.17.2 | 6 | 1.15.0 |
| 切片器 | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
| spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | srsly | 2.4.1 |
| ssh-import-id | 5.10 | statsmodels | 0.12.2 | 制表 | 0.8.7 |
| tangled -up-in-unicode | 0.1.0 | 毅力 | 6.2.0 | tensorboard | 2.8.0 |
| TensorBoard数据服务器 | 0.6.1 | tensorboard-profile插件 | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow-cpu | 2.8.0 | tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 |
| termcolor | 1.1.0 | terminado | 0.9.4 | 测试路径 | 0.4.4 |
| tf-estimator-nightly | 2.8.0.dev2021122109 | thinc | 8.0.12 | threadpoolctl | 2.1.0 |
| 分词器 | 0.10.3 | 火炬 | 1.10.2+cpu | torchvision | 0.11.3+cpu |
| 龙卷风 | 6.1 | tqdm | 4.59.0 | Traitlets | 5.0.5 |
| 变压器 | 4.16.2 | 打字员 | 0.3.2 | 打字扩展 | 3.7.4.3 |
| ujson | 4.0.2 | unattended-upgrades | 0.1 | urllib3 | 1.25.11 |
| virtualenv | 20.4.1 | visions | 0.7.4 | 山葵 | 0.8.2 |
| wcwidth | 0.2.5 | Web编码 | 0.5.1 | WebSocket客户端 | 0.57.0 |
| Werkzeug | 1.0.1 | wheel | 0.36.2 | widgetsnbextension | 3.5.1 |
| 裹住 | 1.12.1 | xgboost | 1.5.2 | 齐普 | 3.4.1 |
GPU 群集上的 Python 库
| 图书馆 | 版本 | 图书馆 | 版本 | 图书馆 | 版本 |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs(应用程序目录) | 1.4.4 |
| argon2-cffi | 20.1.0 | 阿斯托尔 | 0.8.1 | astunparse | 1.6.3 |
| 异步生成器 | 1.10 | 属性 | 20.3.0 | backcall | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | 漂白剂 | 3.3.0 |
| 布利斯 | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools (缓存工具) | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | click | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | 加密 | 3.4.7 | 骑行者 | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.6 |
| databricks-cli | 0.16.3 | dbl-tempo | 0.1.2 | dbus-python | 1.2.16 |
| 修饰器 | 5.0.6 | defusedxml | 0.7.1 | 莳萝 | 0.3.2 |
| 磁盘缓存 | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| 入口点 | 0.3 | 伊菲姆 | 4.1.3 | 各个方面概述 | 1.0.0 |
| fasttext | 0.9.2 | 文件锁 (filelock) | 3.0.12 | Flask | 1.1.2 |
| FlatBuffers | 2.0 | fsspec | 0.9.0 | 未来 | 0.18.2 |
| 加斯特 | 0.4.0 | gitdb (Git数据库) | 4.0.7 | GitPython | 3.1.12 |
| google-auth (谷歌身份验证) | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.3 | 假期 | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| IDNA | 2.10 | ImageHash | 4.2.1 | imbalanced-learn | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils(IPython通用工具) | 0.2.0 | ipywidgets | 7.6.3 | isodate | 0.6.0 |
| 它很危险 | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | Jupyter客户端 | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.8.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
| 韩国农历 | 0.2.1 | 语言代码 | 3.3.0 | libclang | 13.0.0 |
| lightgbm | 3.3.2 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | 缺失号 | 0.5.1 | mistune | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.24.0 | 多方法 | 1.7 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | NetworkX | 2.5 |
| nltk | 3.6.1 | 笔记本 | 6.3.0 | numba | 0.55.1 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | 熊猫 | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | 帕尔索 | 0.7.0 |
| pathy | 0.6.0 | 替罪羊 | 0.5.1 | petastorm | 0.11.4 |
| pexpect | 4.8.0 | Φ系数 | 0.12.0 | pickleshare | 0.7.5 |
| 枕头 | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | 提示工具包 (prompt-toolkit) | 3.0.17 |
| 先知 | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
| psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
| pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.1 |
| Python代码解析器 | 2.20 | pydantic (Python 数据验证库) | 1.8.2 | Pygments | 2.8.1 |
| PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
| pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent(持久性,类似于 persistent 的 Python 包) | 0.17.3 |
| pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.7 | python-dateutil | 2.8.1 |
| Python代码编辑器 | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
| pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
| pyzmq | 20.0.0 | regex | 2021.4.4 | requests | 2.25.1 |
| requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
| s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
| scipy | 1.6.2 | seaborn | 0.11.1 | Send2Trash | 1.5.0 |
| setuptools | 52.0.0 | setuptools-git | 1.2 | 沙普 | 0.40.0 |
| simplejson | 3.17.2 | 6 | 1.15.0 | 切片器 | 0.0.7 |
| smart-open | 5.2.0 | smmap | 3.0.5 | spacy | 3.2.1 |
| spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.1 | srsly | 2.4.1 | ssh-import-id | 5.10 |
| statsmodels | 0.12.2 | 制表 | 0.8.7 | tangled -up-in-unicode | 0.1.0 |
| 毅力 | 6.2.0 | tensorboard | 2.8.0 | TensorBoard数据服务器 | 0.6.1 |
| tensorboard-profile插件 | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | TensorFlow | 2.8.0 |
| tensorflow-estimator | 2.8.0 | tensorflow-io-gcs-filesystem | 0.24.0 | termcolor | 1.1.0 |
| terminado | 0.9.4 | 测试路径 | 0.4.4 | tf-estimator-nightly | 2.8.0.dev2021122109 |
| thinc | 8.0.12 | threadpoolctl | 2.1.0 | 分词器 | 0.10.3 |
| 火炬 | 1.10.2+cu111 | torchvision | 0.11.3+cu111 | 龙卷风 | 6.1 |
| tqdm | 4.59.0 | Traitlets | 5.0.5 | 变压器 | 4.16.2 |
| 打字员 | 0.3.2 | 打字扩展 | 3.7.4.3 | ujson | 4.0.2 |
| unattended-upgrades | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
| visions | 0.7.4 | 山葵 | 0.8.2 | wcwidth | 0.2.5 |
| Web编码 | 0.5.1 | WebSocket客户端 | 0.57.0 | Werkzeug | 1.0.1 |
| wheel | 0.36.2 | widgetsnbextension | 3.5.1 | 裹住 | 1.12.1 |
| xgboost | 1.5.2 | 齐普 | 3.4.1 |
包含 Python 模块的 Spark 包
| Spark 软件包 | Python 模块 | 版本 |
|---|---|---|
| graphframes | graphframes | 0.8.2-db1-spark3.2 |
R 软件库
R 库与 Databricks Runtime 10.4 LTS 中的 R 库 相同。
Java 库和 Scala 库(Scala 2.12 群集)
除了 Databricks Runtime 10.4 LTS 中的 Java 和 Scala 库外,Databricks Runtime 10.4 LTS ML 还包含以下 JAR:
CPU 群集
| 群组标识符 | 工件编号 | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) | 1.15.0 |
GPU 群集
| 群组标识符 | 工件编号 | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.2 |
| ml.dmlc | xgboost4j_2.12 | 1.5.2 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.24.0 |
| org.mlflow | mlflow-spark | 1.24.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) | 1.15.0 |