注意
此 Databricks Runtime 版本已达到生命周期结束,不再可用。 有关停用日期,请参阅停止支持和停用历史记录。 有关 Databricks Runtime 支持策略和计划的信息,请参阅 Databricks 支持生命周期。
Databricks Runtime 10.3 提供了一个基于 Databricks Runtime 10.3 (EoL) 的机器学习和数据科学的就绪环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。
有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习。
新增功能和改进
Databricks Runtime 10.3 ML 基于 Databricks Runtime 10.3 构建。 有关 Databricks Runtime 10.3 中的新增功能(包括 Apache Spark MLlib 和 SparkR)的信息,请参阅 Databricks Runtime 10.3 (EoL) 发行说明。
AutoML 的改进
对 AutoML 进行了以下增强。
AutoML 现在支持用于预测的 ARIMA 模型
除了 Prophet 之外,AutoML 现在还创建和评估 ARIMA 模型以预测问题。
从数据集排除列
使用 AutoML API 时,可以指定 AutoML 在计算过程中应忽略的列。 这仅适用于分类和回归问题。 有关详细信息,请参阅 AutoML Python API 参考。
从 AutoML 运行中排除算法框架
可以指定 AutoML 在开发模型时不应考虑的算法框架,例如 scikit-learn。 有关详细信息,请参阅高级配置和 AutoML Python API 参考。
max_trials 不推荐使用
max_trials参数已弃用,并将在下一个主要 Databricks Runtime ML 版本中删除。
timeout_minutes 用于控制 AutoML 运行的持续时间。 此外,在 Databricks Runtime 10.1 ML 及更高版本中,AutoML 包含提前停止;如果验证指标不再改进,它将停止训练和调整模型。
Databricks 特征存储功能增强
现在,你可以将时间点查找应用于时序特征表。 有关详细信息,请参阅 时间点功能联接 。
Databricks 自动日志记录 (GA)
Databricks Autologging 现在在 Databricks Runtime 10.3 ML 中已全面可用。 Databricks 自动日志记录是一种无代码解决方案,它为 Azure Databricks 上的机器学习训练会话提供自动试验跟踪。 使用 Databricks 自动日志记录,在通过各种热门机器学习库训练模型时可自动捕获模型参数、指标、文件和世系信息。 训练会话被记录为 MLflow 跟踪运行。 还会跟踪模型文件,从而可以轻松地将这些文件记录到 MLflow 模型注册表,并通过 MLflow 模型服务部署它们进行实时评分。
有关详细信息,请参阅 Databricks 自动日志记录。
系统环境
Databricks Runtime 10.3 ML 中的系统环境在以下方面不同于 Databricks Runtime 10.3:
- DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。
请改用
%pip命令。 请参阅作用域为笔记本的 Python 库。 - 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
- CUDA 11.0
- cuDNN 8.0.5.39
- NCCL 2.10.3
- TensorRT 7.2.2
软件库
以下部分列出了 Databricks Runtime 10.3 ML 中包含的库,这些库不同于 Databricks Runtime 10.3 中包含的库。
本节内容:
顶级库
Databricks Runtime 10.3 ML 包含以下顶层库:
- GraphFrames
- Horovod 和 HorovodRunner
- MLflow
- PyTorch
- spark-tensorflow-connector
- TensorFlow
- TensorBoard
Python 库
Databricks Runtime 10.3 ML 使用 Virtualenv 进行 Python 包管理,包含许多常用的 ML 包。
除了在以下部分指定的包,Databricks Runtime 10.3 ML 还包含以下包:
- hyperopt 0.2.7.db1
- sparkdl 2.2.0-db5
- feature_store 0.3.7
- automl 1.6.0
CPU 群集上的 Python 库
| 库 | 版本 | 库 | 版本 | 库 | 版本 |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
| 异步生成器 | 1.10 | 属性 | 20.3.0 | 回调 | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | 漂白剂 | 3.3.0 |
| blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | 单击 | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | 加密 | 3.4.7 | cycler | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
| databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbu-python | 1.2.16 |
| 修饰器 | 5.0.6 | defusedxml | 0.7.1 | 莳萝 | 0.3.2 |
| 磁盘缓存 | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| 入口点 | 0.3 | ephem | 4.1.3 | facets 概述 | 1.0.0 |
| fasttext | 0.9.2 | 文件锁 | 3.0.12 | Flask | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | 未来 | 0.18.2 |
| gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.2 | 假期 | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn(用于处理不平衡数据集的库) | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate (ISO标准日期) | 0.6.0 |
| itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
| 韩国农历 | 0.2.1 | 语言代码 | 3.3.0 | libclang | 12.0.0 |
| lightgbm | 3.3.1 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.0 | mistune(一个用于Markdown解析的Python库) | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimethod | 1.6 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
| nltk | 3.6.1 | 笔记本 | 6.3.0 | numba | 0.55.0 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| pathy | 0.6.0 | 替罪羊 | 0.5.1 | petastorm | 0.11.3 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | prometheus-client | 0.10.1 |
| prompt-toolkit | 3.0.17 | 预测家 | 1.0.1 | protobuf | 3.17.2 |
| psutil | 5.8.0 | psycopg2 | 2.8.5 | ptyprocess | 0.7.0 |
| pyarrow | 4.0.0 | pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 |
| pybind11 | 2.9.0 | pycparser | 2.20 | pydantic | 1.8.2 |
| Pygments | 2.8.1 | PyGObject | 3.36.0 | PyMeeus | 0.5.11 |
| PyNaCl | 1.4.0 | pyodbc | 4.0.30 | pyparsing | 2.4.7 |
| pyrsistent | 0.17.3 | pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 |
| python-dateutil | 2.8.1 | Python 编辑器 | 1.0.4 | python-engineio | 4.3.0 |
| python-socketio | 5.4.1 | pytz | 2020.5 | PyWavelets | 1.1.1 |
| PyYAML | 5.4.1 | pyzmq | 20.0.0 | regex | 2021.4.4 |
| 请求 | 2.25.1 | requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 |
| rsa | 4.7.2 | s3transfer | 0.3.7 | sacremoses | 0.0.46 |
| scikit-learn | 0.24.1 | scipy | 1.6.2 | seaborn(Python 数据可视化库) | 0.11.1 |
| Send2Trash | 1.5.0 | setuptools | 52.0.0 | setuptools-git | 1.2 |
| shap | 0.40.0 | simplejson | 3.17.2 | 6 | 1.15.0 |
| 切片器 | 0.0.7 | smart-open | 5.2.0 | smmap | 3.0.5 |
| spacy | 3.2.1 | spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 |
| spark-tensorflow-distributor | 1.0.0 | sqlparse | 0.4.1 | 真的啦 | 2.4.1 |
| ssh-import-id | 5.10 | statsmodels | 0.12.2 | 制表 | 0.8.7 |
| Unicode纠缠问题 | 0.1.0 | 韧性 | 6.2.0 | tensorboard | 2.7.0 |
| tensorboard-data-server | 0.6.1 | tensorboard-plugin-profile (张量板插件配置文件) | 2.5.0 | tensorboard-plugin-wit | 1.8.1 |
| tensorflow-中央处理器 | 2.7.0 | tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 |
| termcolor | 1.1.0 | terminado | 0.9.4 | 测试路径 | 0.4.4 |
| thinc | 8.0.12 | threadpoolctl | 2.1.0 | 分词器 | 0.10.3 |
| Torch | 1.10.1+cpu | torchvision | 0.11.2+cpu | tornado | 6.1 |
| tqdm | 4.59.0 | traitlets | 5.0.5 | transformers | 4.15.0 |
| typer | 0.3.2 | typing-extensions | 3.7.4.3 | ujson | 4.0.2 |
| 无人参与升级 | 0.1 | urllib3 | 1.25.11 | virtualenv | 20.4.1 |
| 愿景 | 0.7.4 | wasabi | 0.8.2 | wcwidth | 0.2.5 |
| webencodings | 0.5.1 | websocket-client | 0.57.0 | Werkzeug | 1.0.1 |
| wheel | 0.36.2 | widgetsnbextension | 3.5.1 | 包裹 | 1.12.1 |
| xgboost | 1.5.1 | zipp | 3.4.1 |
GPU 群集上的 Python 库
| 库 | 版本 | 库 | 版本 | 库 | 版本 |
|---|---|---|---|---|---|
| absl-py | 0.11.0 | Antergos Linux | 2015.10 (ISO-Rolling) | appdirs | 1.4.4 |
| argon2-cffi | 20.1.0 | astor | 0.8.1 | astunparse | 1.6.3 |
| 异步生成器 | 1.10 | 属性 | 20.3.0 | 回调 | 0.2.0 |
| bcrypt | 3.2.0 | bidict | 0.21.4 | 漂白剂 | 3.3.0 |
| blis | 0.7.4 | boto3 | 1.16.7 | botocore | 1.19.7 |
| cachetools | 4.2.4 | catalogue | 2.0.6 | certifi | 2020.12.5 |
| cffi | 1.14.5 | chardet | 4.0.0 | 单击 | 7.1.2 |
| cloudpickle | 1.6.0 | cmdstanpy | 0.9.68 | configparser | 5.0.1 |
| convertdate | 2.3.2 | 加密 | 3.4.7 | cycler | 0.10.0 |
| cymem | 2.0.5 | Cython | 0.29.23 | databricks-automl-runtime | 0.2.5 |
| databricks-cli | 0.16.2 | dbl-tempo | 0.1.2 | dbu-python | 1.2.16 |
| 修饰器 | 5.0.6 | defusedxml | 0.7.1 | 莳萝 | 0.3.2 |
| 磁盘缓存 | 5.2.1 | distlib | 0.3.4 | distro-info | 0.23ubuntu1 |
| 入口点 | 0.3 | ephem | 4.1.3 | facets 概述 | 1.0.0 |
| fasttext | 0.9.2 | 文件锁 | 3.0.12 | Flask | 1.1.2 |
| flatbuffers | 2.0 | fsspec | 0.9.0 | 未来 | 0.18.2 |
| gast | 0.4.0 | gitdb | 4.0.7 | GitPython | 3.1.12 |
| google-auth | 1.22.1 | google-auth-oauthlib | 0.4.2 | google-pasta | 0.2.0 |
| grpcio | 1.39.0 | gunicorn | 20.0.4 | gviz-api | 1.10.0 |
| h5py | 3.1.0 | hijri-converter | 2.2.2 | 假期 | 0.12 |
| horovod | 0.23.0 | htmlmin | 0.1.12 | huggingface-hub | 0.1.2 |
| idna | 2.10 | ImageHash | 4.2.1 | imbalanced-learn(用于处理不平衡数据集的库) | 0.8.1 |
| importlib-metadata | 3.10.0 | ipykernel | 5.3.4 | ipython | 7.22.0 |
| ipython-genutils | 0.2.0 | ipywidgets | 7.6.3 | isodate (ISO标准日期) | 0.6.0 |
| itsdangerous | 1.1.0 | jedi | 0.17.2 | Jinja2 | 2.11.3 |
| jmespath | 0.10.0 | joblib | 1.0.1 | joblibspark | 0.3.0 |
| jsonschema | 3.2.0 | jupyter-client | 6.1.12 | jupyter-core | 4.7.1 |
| jupyterlab-pygments | 0.1.2 | jupyterlab-widgets | 1.0.0 | keras | 2.7.0 |
| Keras-Preprocessing | 1.1.2 | kiwisolver | 1.3.1 | koalas | 1.8.2 |
| 韩国农历 | 0.2.1 | 语言代码 | 3.3.0 | libclang | 12.0.0 |
| lightgbm | 3.3.1 | llvmlite | 0.38.0 | 农历 | 0.0.9 |
| Mako | 1.1.3 | Markdown | 3.3.3 | MarkupSafe | 2.0.1 |
| matplotlib | 3.4.2 | missingno | 0.5.0 | mistune(一个用于Markdown解析的Python库) | 0.8.4 |
| mleap | 0.18.1 | mlflow-skinny | 1.23.0 | multimethod | 1.6 |
| murmurhash | 1.0.5 | nbclient | 0.5.3 | nbconvert | 6.0.7 |
| nbformat | 5.1.3 | nest-asyncio | 1.5.1 | networkx | 2.5 |
| nltk | 3.6.1 | 笔记本 | 6.3.0 | numba | 0.55.0 |
| numpy | 1.20.1 | oauthlib | 3.1.0 | opt-einsum | 3.3.0 |
| 包装 | 21.3 | pandas | 1.2.4 | pandas-profiling | 3.1.0 |
| pandocfilters | 1.4.3 | paramiko | 2.7.2 | parso | 0.7.0 |
| pathy | 0.6.0 | 替罪羊 | 0.5.1 | petastorm | 0.11.3 |
| pexpect | 4.8.0 | phik | 0.12.0 | pickleshare | 0.7.5 |
| Pillow | 8.2.0 | pip | 21.0.1 | plotly | 5.5.0 |
| pmdarima | 1.8.4 | preshed | 3.0.5 | prompt-toolkit | 3.0.17 |
| 预测家 | 1.0.1 | protobuf | 3.17.2 | psutil | 5.8.0 |
| psycopg2 | 2.8.5 | ptyprocess | 0.7.0 | pyarrow | 4.0.0 |
| pyasn1 | 0.4.8 | pyasn1-modules | 0.2.8 | pybind11 | 2.9.0 |
| pycparser | 2.20 | pydantic | 1.8.2 | Pygments | 2.8.1 |
| PyGObject | 3.36.0 | PyMeeus | 0.5.11 | PyNaCl | 1.4.0 |
| pyodbc | 4.0.30 | pyparsing | 2.4.7 | pyrsistent | 0.17.3 |
| pystan | 2.19.1.1 | python-apt | 2.0.0+ubuntu0.20.4.6 | python-dateutil | 2.8.1 |
| Python 编辑器 | 1.0.4 | python-engineio | 4.3.0 | python-socketio | 5.4.1 |
| pytz | 2020.5 | PyWavelets | 1.1.1 | PyYAML | 5.4.1 |
| pyzmq | 20.0.0 | regex | 2021.4.4 | 请求 | 2.25.1 |
| requests-oauthlib | 1.3.0 | requests-unixsocket | 0.2.0 | rsa | 4.7.2 |
| s3transfer | 0.3.7 | sacremoses | 0.0.46 | scikit-learn | 0.24.1 |
| scipy | 1.6.2 | seaborn(Python 数据可视化库) | 0.11.1 | Send2Trash | 1.5.0 |
| setuptools | 52.0.0 | setuptools-git | 1.2 | shap | 0.40.0 |
| simplejson | 3.17.2 | 6 | 1.15.0 | 切片器 | 0.0.7 |
| smart-open | 5.2.0 | smmap | 3.0.5 | spacy | 3.2.1 |
| spacy-legacy | 3.0.8 | spacy-loggers | 1.0.1 | spark-tensorflow-distributor | 1.0.0 |
| sqlparse | 0.4.1 | 真的啦 | 2.4.1 | ssh-import-id | 5.10 |
| statsmodels | 0.12.2 | 制表 | 0.8.7 | Unicode纠缠问题 | 0.1.0 |
| 韧性 | 6.2.0 | tensorboard | 2.7.0 | tensorboard-data-server | 0.6.1 |
| tensorboard-plugin-profile (张量板插件配置文件) | 2.5.0 | tensorboard-plugin-wit | 1.8.1 | TensorFlow(张量流) | 2.7.0 |
| tensorflow-estimator | 2.7.0 | tensorflow-io-gcs-filesystem | 0.23.1 | termcolor | 1.1.0 |
| terminado | 0.9.4 | 测试路径 | 0.4.4 | thinc | 8.0.12 |
| threadpoolctl | 2.1.0 | 分词器 | 0.10.3 | Torch | 1.10.1+cu111 |
| torchvision | 0.11.2+cu111 | tornado | 6.1 | tqdm | 4.59.0 |
| traitlets | 5.0.5 | transformers | 4.15.0 | typer | 0.3.2 |
| typing-extensions | 3.7.4.3 | ujson | 4.0.2 | 无人参与升级 | 0.1 |
| urllib3 | 1.25.11 | virtualenv | 20.4.1 | 愿景 | 0.7.4 |
| wasabi | 0.8.2 | wcwidth | 0.2.5 | webencodings | 0.5.1 |
| websocket-client | 0.57.0 | Werkzeug | 1.0.1 | wheel | 0.36.2 |
| widgetsnbextension | 3.5.1 | 包裹 | 1.12.1 | xgboost | 1.5.1 |
| zipp | 3.4.1 |
包含 Python 模块的 Spark 包
| Spark 包 | Python 模块 | 版本 |
|---|---|---|
| graphframes | graphframes | 0.8.2-db1-spark3.2 |
R 库
R 库与 Databricks Runtime 10.3 中的 R 库完全相同。
Java 库和 Scala 库(Scala 2.12 群集)
除了 Databricks Runtime 10.3 中的 Java 库和 Scala 库,Databricks Runtime 10.3 ML 还包含以下 JAR:
CPU 群集
| 组标识 | 工件 ID | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
| ml.dmlc | xgboost4j_2.12 | 1.5.1 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.23.0 |
| org.mlflow | mlflow-spark | 1.23.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |
GPU 群集
| 组标识 | 工件 ID | 版本 |
|---|---|---|
| com.typesafe.akka | akka-actor_2.12 | 2.5.23 |
| ml.combust.mleap | mleap-databricks-runtime_2.12 | 0.18.1-23eb1ef |
| ml.dmlc | xgboost4j-spark_2.12 | 1.5.1 |
| ml.dmlc | xgboost4j_2.12 | 1.5.1 |
| org.graphframes | graphframes_2.12 | 0.8.2-db1-spark3.2 |
| org.mlflow | mlflow-client | 1.23.0 |
| org.mlflow | mlflow-spark | 1.23.0 |
| org.scala-lang.modules | scala-java8-compat_2.12 | 0.8.0 |
| org.tensorflow | spark-tensorflow-connector_2.12 | 1.15.0 |