用于Machine Learning的 Databricks Runtime 13.2 (EoS)

注释

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks Runtime 13.2 for Machine Learning 基于 Databricks Runtime 13.2 (EoS)为机器学习和数据科学提供一个现成可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新功能和改进

Databricks Runtime 13.2 ML 基于 Databricks Runtime 13.2 构建。 若要了解 Databricks Runtime 13.2 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 13.2 (EoS) 发行说明。

对 Databricks Feature Store 的更改

  • 现在所需的最低 mlflow-skinny 版本是 2.4.0。
  • 如果提供的数据帧不包含所有必需的查找键,则创建训练集会失败。

系统环境

Databricks Runtime 13.2 ML 中的系统环境在以下方面不同于 Databricks Runtime 13.2:

Databricks Runtime 13.2 ML 包括 XGBoost 1.7.3,它不支持计算功能 5.2 及以下的 GPU 群集。

图书馆

以下部分列出了 Databricks Runtime 13.2 ML 中包含的库,这些库不同于 Databricks Runtime 13.2 中包含的库。

本节内容:

顶层库

Databricks Runtime 13.2 ML 包含以下顶层

Python库

Databricks Runtime 13.2 ML 使用 Virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了以下部分中指定的包,Databricks Runtime 13.2 ML 还包含以下包:

  • hyperopt 0.2.7+db3
  • sparkdl 3.0.0_db1
  • automl 1.19.0

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-13.2.txt 文件并运行 pip install -r requirements-13.2.txt。 此命令安装 Databricks Runtime ML 使用的所有open source库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

Python 库在 CPU 集群上

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 加速 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs(应用程序目录) 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 属性 21.4.0
audioread(音频读取) 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob 12.17.0b1 azure-storage-file-datalake (Azure 存储文件数据湖) 12.11.0 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 黑色 22.6.0
漂白剂 4.1.0 闪烁器 1.4 布利斯 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools (缓存工具) 4.2.4
目录 2.0.8 类别编码器 (category-encoders) 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer (字符集正常化工具) 2.0.4
click 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
甜点 0.0.4 configparser 5.2.0 convertdate 2.4.0
加密 37.0.1 骑行者 0.11.0 cymem 2.0.7
Cython 0.29.32 英安岩 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store(Databricks 功能存储) 0.13.1 Databricks软件开发工具包 (databricks-sdk) 0.1.6
dataclasses-json 0.5.8 数据集 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 修饰器 5.1.1
defusedxml 0.7.1 莳萝 0.3.4 磁盘缓存 (diskcache) 5.6.1
distlib 0.3.6 docstring-to-markdown 0.12 入口点 0.4
伊菲姆 4.1.4 evaluate 0.4.0 执行中 1.2.0
各个方面概述 1.0.3 fastjsonschema 2.17.1 fasttext(快速文本工具) 0.9.2
文件锁 (filelock) 3.6.0 Flask 1.1.2+db1 FlatBuffers 23年5月26日
fonttools(字体工具) 4.25.0 frozenlist 1.3.3 fsspec 2022.7.1
未来 0.18.2 加斯特 0.4.0 gitdb (Git数据库) 4.0.10
GitPython 3.1.27 google-api-core (谷歌 API 核心库) 2.8.2 google-auth (谷歌身份验证) 1.33.0
google-auth-oauthlib 0.4.6 google-cloud-core (Google云核心) 2.3.2 Google 云存储 (Google Cloud Storage) 2.9.0
google-crc32c 1.5.0 google-pasta 0.2.0 google-resumable-media (谷歌可恢复媒体) 2.5.0
googleapis-common-protos 1.56.4 greenlet 1.1.1 grpcio 1.48.1
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h5py 3.7.0 假期 0.25 霍罗沃德 0.28.0
htmlmin 0.1.12 httplib2 0.20.2 huggingface-hub(哈根脸社区平台) 0.15.1
idna 3.3 ImageHash 4.3.1 imbalanced-learn(不平衡学习库) 0.8.1
importlib-metadata 4.11.3 importlib-resources 5.12.0 ipykernel 6.17.1
ipython 8.10.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.2
isodate (ISO标准日期) 0.6.1 它很危险 2.0.1 jedi 0.18.1
吉普尼 0.7.1 Jinja2 2.11.3 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.16.0
Jupyter客户端 7.3.4 jupyter_core(Jupyter核心) 4.11.2 jupyterlab-pygments 0.1.2
jupyterlab-widgets 1.0.0 keras 2.11.0 keyring 23.5.0
kiwisolver 1.4.2 韩国农历 0.3.1 langchain 0.0.181
语言代码 3.3.0 launchpadlib 1.10.16 lazr.restfulclient 0.14.4
lazr.uri 1.0.6 lazy_loader 0.2 libclang 15.0.6.1
librosa 0.10.0 lightgbm 3.3.5 llvmlite 0.38.0
农历 0.0.9 Mako 1.2.0 Markdown 3.3.4
MarkupSafe 2.0.1 棉花糖 3.19.0 marshmallow-enum 1.5.1
matplotlib 3.5.2 matplotlib-inline 0.1.6 麦卡贝 0.7.0
mistune(一个用于Markdown解析的Python库) 0.8.4 mleap 0.20.0 mlflow-skinny 2.4.1
more-itertools 8.10.0 msgpack 1.0.5 multidict 6.0.4
多方法 1.9.1 多进程 0.70.12.2 murmurhash 1.0.9
mypy-extensions 0.4.3 nbclient 0.5.13 nbconvert 6.4.4
nbformat 5.5.0 nest-asyncio 1.5.5 NetworkX 2.8.4
忍者 1.11.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.4.12 numba 0.55.1 numexpr 2.8.4
numpy 1.21.5 oauthlib 3.2.0 openai 0.27.7
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 封装 21.3
熊猫 1.4.4 pandocfilters 1.5.0 paramiko 2.9.2
帕尔索 0.8.3 pathspec 0.9.0 pathy 0.10.1
替罪羊 0.5.2 petastorm 0.12.1 pexpect 4.8.0
Φ系数 0.12.3 pickleshare 0.7.5 枕头 9.2.0
pip 22.2.2 platformdirs 2.5.2 plotly 5.9.0
Pluggy (Python库) 1.0.0 pmdarima 2.0.3 狗狗 1.7.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit(提示工具包) 3.0.36
预言者 1.1.3 protobuf 3.19.4 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.4 Python代码解析器 2.21 pydantic 1.10.6
pyflakes 3.0.1 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyMeeus 0.5.12 PyNaCl 1.5.0
pyodbc 4.0.32 pyparsing Python解析库 3.0.9 pyright 1.1.294
pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pytesseract 0.3.10 python-dateutil 2.8.2
Python代码编辑器 1.0.4 python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1
pytoolconfig 1.2.2 pytz 2022年1月 PyWavelets 1.3.0
PyYAML 6.0 pyzmq 23.2.0 regex 2022.7.9
请求 2.28.1 requests-oauthlib 1.3.1 回应 0.18.0
绳子 1.7.0 RSA加密算法 4.9 s3transfer 0.6.0
scikit-learn(机器学习库) 1.1.1 scipy 1.9.1 seaborn 0.11.2
SecretStorage 3.3.1 Send2Trash 1.8.0 sentence-transformers (句子转换器) 2.2.2
sentencepiece 0.1.99 setuptools 63.4.1 沙普 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 音频文件 0.12.1
soupsieve 2.3.1 soxr 0.3.5 spacy 3.5.3
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor(Spark TensorFlow 分布器) 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 srsly 2.4.6
ssh-import-id(用于根据提供的标识符导入SSH密钥的命令行工具) 5.11 栈数据 (stack-data) 0.6.2 statsmodels 0.13.2
制表 0.8.10 tangled -up-in-unicode 0.2.0 毅力 8.1.0
TensorBoard 2.11.0 TensorBoard数据服务器 0.6.1 tensorboard-plugin-profile 2.11.2
tensorboard-plugin-wit 1.8.1 tensorflow-中央处理器 2.11.0 tensorflow-estimator 2.11.0
tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0 terminado 0.13.1
测试路径 0.6.0 thinc 8.1.10 threadpoolctl 2.2.0
tiktoken 0.4.0 tokenize-rt 4.2.1 分词器 0.13.3
tomli 2.0.1 火炬 1.13.1+cpu torchvision 0.14.1+cpu
龙卷风 6.1 tqdm 4.64.1 Traitlets 5.1.1
转换器 4.29.2 typeguard 2.13.3 打字员 0.7.0
输入检查 0.9.0 输入扩展 (typing_extensions) 4.3.0 ujson 5.4.0
无需人工干预的升级 0.1 urllib3 1.26.11 virtualenv 20.16.3
愿景 0.7.5 wadllib 1.3.6 山葵 1.1.2
wcwidth 0.2.5 Web编码 0.5.1 WebSocket客户端 0.58.0
Werkzeug 2.0.3 whatthepatch (一种用于查看和编辑补丁文件的工具) 1.0.2 wheel 0.37.1
widgetsnbextension 3.6.1 wordcloud 1.9.2 封装 1.14.1
xgboost 1.7.5 xxhash 3.2.0 yapf 0.31.0
yarl 1.9.2 ydata-profiling 4.2.0 齐普 3.8.0

GPU 集群上的 Python 库

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 加速 0.19.0 aiohttp 3.8.4
aiosignal 1.3.1 appdirs(应用程序目录) 1.4.4 argon2-cffi 21.3.0
argon2-cffi-bindings 21.2.0 阿斯托尔 0.8.1 asttokens 2.2.1
astunparse 1.6.3 async-timeout 4.0.2 属性 21.4.0
audioread(音频读取) 3.0.0 azure-core 1.27.1 azure-cosmos 4.3.1b1
azure-storage-blob 12.17.0b1 azure-storage-file-datalake (Azure 存储文件数据湖) 12.11.0 backcall 0.2.0
bcrypt 3.2.0 beautifulsoup4 4.11.1 黑色 22.6.0
漂白剂 4.1.0 闪烁器 1.4 布利斯 0.7.9
boto3 1.24.28 botocore 1.27.28 cachetools (缓存工具) 4.2.4
目录 2.0.8 类别编码器 (category-encoders) 2.6.0 certifi 2022.9.14
cffi 1.15.1 chardet 4.0.0 charset-normalizer (字符集正常化工具) 2.0.4
click 8.0.4 cloudpickle 2.0.0 cmdstanpy 1.1.0
甜点 0.0.4 configparser 5.2.0 convertdate 2.4.0
加密 37.0.1 骑行者 0.11.0 cymem 2.0.7
Cython 0.29.32 英安岩 1.8.1 databricks-automl-runtime 0.2.16
databricks-cli 0.17.7 databricks-feature-store(Databricks 功能存储) 0.13.1 Databricks软件开发工具包 (databricks-sdk) 0.1.6
dataclasses-json 0.5.8 数据集 2.12.0 dbl-tempo 0.1.23
dbus-python 1.2.18 debugpy 1.5.1 修饰器 5.1.1
defusedxml 0.7.1 莳萝 0.3.4 磁盘缓存 (diskcache) 5.6.1
distlib 0.3.6 docstring-to-markdown 0.12 einops 0.6.1
入口点 0.4 伊菲姆 4.1.4 evaluate 0.4.0
执行中 1.2.0 各个方面概述 1.0.3 fastjsonschema 2.17.1
fasttext(快速文本工具) 0.9.2 文件锁 (filelock) 3.6.0 flash-attn 1.0.5
Flask 1.1.2+db1 FlatBuffers 23年5月26日 fonttools(字体工具) 4.25.0
frozenlist 1.3.3 fsspec 2022.7.1 未来 0.18.2
加斯特 0.4.0 gitdb (Git数据库) 4.0.10 GitPython 3.1.27
google-api-core (谷歌 API 核心库) 2.8.2 google-auth (谷歌身份验证) 1.33.0 google-auth-oauthlib 0.4.6
google-cloud-core (Google云核心) 2.3.2 Google 云存储 (Google Cloud Storage) 2.9.0 google-crc32c 1.5.0
google-pasta 0.2.0 google-resumable-media (谷歌可恢复媒体) 2.5.0 googleapis-common-protos 1.56.4
greenlet 1.1.1 grpcio 1.48.1 grpcio-status 1.48.1
gunicorn 20.1.0 gviz-api 1.10.0 h5py 3.7.0
假期 0.25 霍罗沃德 0.28.0 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub(哈根脸社区平台) 0.15.1 idna 3.3
ImageHash 4.3.1 imbalanced-learn(不平衡学习库) 0.8.1 importlib-metadata 4.11.3
importlib-resources 5.12.0 ipykernel 6.17.1 ipython 8.10.0
ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.2 isodate (ISO标准日期) 0.6.1
它很危险 2.0.1 jedi 0.18.1 吉普尼 0.7.1
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 jsonschema 4.16.0 Jupyter客户端 7.3.4
jupyter_core(Jupyter核心) 4.11.2 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.11.0 keyring 23.5.0 kiwisolver 1.4.2
韩国农历 0.3.1 langchain 0.0.181 语言代码 3.3.0
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0.2 libclang 15.0.6.1 librosa 0.10.0
lightgbm 3.3.5 llvmlite 0.38.0 农历 0.0.9
Mako 1.2.0 Markdown 3.3.4 MarkupSafe 2.0.1
棉花糖 3.19.0 marshmallow-enum 1.5.1 matplotlib 3.5.2
matplotlib-inline 0.1.6 麦卡贝 0.7.0 mistune(一个用于Markdown解析的Python库) 0.8.4
mleap 0.20.0 mlflow-skinny 2.4.1 more-itertools 8.10.0
msgpack 1.0.5 multidict 6.0.4 多方法 1.9.1
多进程 0.70.12.2 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclient 0.5.13 nbconvert 6.4.4 nbformat 5.5.0
nest-asyncio 1.5.5 NetworkX 2.8.4 忍者 1.11.1
nltk 3.7 nodeenv 1.8.0 笔记本 6.4.12
numba 0.55.1 numexpr 2.8.4 numpy 1.21.5
oauthlib 3.2.0 openai 0.27.7 openapi-schema-pydantic 1.2.4
opt-einsum 3.3.0 封装 21.3 熊猫 1.4.4
pandocfilters 1.5.0 paramiko 2.9.2 帕尔索 0.8.3
pathspec 0.9.0 pathy 0.10.1 替罪羊 0.5.2
petastorm 0.12.1 pexpect 4.8.0 Φ系数 0.12.3
pickleshare 0.7.5 枕头 9.2.0 pip 22.2.2
platformdirs 2.5.2 plotly 5.9.0 Pluggy (Python库) 1.0.0
pmdarima 2.0.3 狗狗 1.7.0 preshed 3.0.8
prompt-toolkit(提示工具包) 3.0.36 预言者 1.1.3 protobuf 3.19.4
psutil 5.9.0 psycopg2 2.9.3 ptyprocess 0.7.0
pure-eval 0.2.2 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.4 Python代码解析器 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing Python解析库 3.0.9
pyright 1.1.294 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 Python代码编辑器 1.0.4 python-lsp-jsonrpc 1.0.0
python-lsp-server 1.7.1 pytoolconfig 1.2.2 pytz 2022年1月
PyWavelets 1.3.0 PyYAML 6.0 pyzmq 23.2.0
regex 2022.7.9 请求 2.28.1 requests-oauthlib 1.3.1
回应 0.18.0 绳子 1.7.0 RSA加密算法 4.9
s3transfer 0.6.0 scikit-learn(机器学习库) 1.1.1 scipy 1.9.1
seaborn 0.11.2 SecretStorage 3.3.1 Send2Trash 1.8.0
sentence-transformers (句子转换器) 2.2.2 sentencepiece 0.1.99 setuptools 63.4.1
沙普 0.41.0 simplejson 3.17.6 6 1.16.0
切片器 0.0.7 smart-open 5.2.1 smmap 5.0.0
音频文件 0.12.1 soupsieve 2.3.1 soxr 0.3.5
spacy 3.5.3 spacy-legacy 3.0.12 spacy-loggers 1.0.4
spark-tensorflow-distributor(Spark TensorFlow 分布器) 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
srsly 2.4.6 ssh-import-id(用于根据提供的标识符导入SSH密钥的命令行工具) 5.11 栈数据 (stack-data) 0.6.2
statsmodels 0.13.2 制表 0.8.10 tangled -up-in-unicode 0.2.0
毅力 8.1.0 TensorBoard 2.11.0 TensorBoard数据服务器 0.6.1
tensorboard-plugin-profile 2.11.2 tensorboard-plugin-wit 1.8.1 tensorflow(TensorFlow 是一个开源机器学习框架) 2.11.0
tensorflow-estimator 2.11.0 tensorflow-io-gcs-filesystem 0.32.0 termcolor 2.3.0
terminado 0.13.1 测试路径 0.6.0 thinc 8.1.10
threadpoolctl 2.2.0 tiktoken 0.4.0 tokenize-rt 4.2.1
分词器 0.13.3 tomli 2.0.1 火炬 1.13.1+cu117
torchvision 0.14.1+cu117 龙卷风 6.1 tqdm 4.64.1
Traitlets 5.1.1 转换器 4.29.2 typeguard 2.13.3
打字员 0.7.0 输入检查 0.9.0 输入扩展 (typing_extensions) 4.3.0
ujson 5.4.0 无需人工干预的升级 0.1 urllib3 1.26.11
virtualenv 20.16.3 愿景 0.7.5 wadllib 1.3.6
山葵 1.1.2 wcwidth 0.2.5 Web编码 0.5.1
WebSocket客户端 0.58.0 Werkzeug 2.0.3 whatthepatch (一种用于查看和编辑补丁文件的工具) 1.0.2
wheel 0.37.1 widgetsnbextension 3.6.1 wordcloud 1.9.2
封装 1.14.1 xgboost 1.7.5 xxhash 3.2.0
yapf 0.31.0 yarl 1.9.2 ydata-profiling 4.2.0
齐普 3.8.0

R 软件库

R 库与 Databricks Runtime 13.2 中的 R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 13.2 中的Java和 Scala 库,Databricks Runtime 13.2 ML 还包含以下 JAR:

CPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.4.1
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0