用于Machine Learning的 Databricks Runtime 14.2 (EoS)

注释

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks Runtime 14.2 for Machine Learning 基于 Databricks Runtime 14.2 (EoS) 提供机器学习和数据科学的即用环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

新增功能和改进

Databricks Runtime 14.2 ML 基于 Databricks Runtime 14.2 构建。 若要了解 Databricks Runtime 14.2 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 14.2 (EoS) 发行说明。

系统环境

Databricks Runtime 14.2 ML 中的系统环境在以下方面不同于 Databricks Runtime 14.2:

  • DBUtils:Databricks Runtime ML 不包含库实用工具 (dbutils.library)(旧版)。 请改用 %pip 命令。 请参阅 Notebook 范围内的 Python 库
  • 对于 GPU 群集,Databricks Runtime ML 包含以下 NVIDIA GPU 库:
    • CUDA 11.8
    • cuDNN 8.9.0.131-1
    • NCCL 2.15.5
    • TensorRT 8.5.3-1

Databricks Runtime 14.2 ML 包含 XGBoost 1.7.6,它不支持计算功能 5.2 及更低版本的 GPU 群集。

以下部分列出了 Databricks Runtime 14.2 ML 中包含的库,这些库不同于 Databricks Runtime 14.2 中包含的库。

本节内容:

顶级库

Databricks Runtime 14.2 ML 包含以下顶层

Python库

Databricks Runtime 14.2 ML 使用 virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了以下部分中指定的包外,Databricks Runtime 14.2 ML 还包含以下包:

  • hyperopt 0.2.7+db4
  • sparkdl 3.0.0_db1
  • automl 1.23.0

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-14.2.txt 文件并运行 pip install -r requirements-14.2.txt。 此命令安装 Databricks Runtime ML 使用的所有open source库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-storehyperopt 的 Databricks 分支。

Python 库在 CPU 集群上

版本 版本 版本
absl-py 1.0.0 加速 0.23.0 aiohttp 3.8.6
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 async-timeout 4.0.3
属性 22.1.0 audioread 3.0.1 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.3 Azure 存储文件数据湖 (azure-storage-file-datalake) 12.13.2
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 转向灯 1.4
blis 0.7.11 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.2 catalogue 2.0.10 分类编码器 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpathlib 0.16.0
cloudpickle 2.0.0 cmdstanpy 1.2.0 通信 0.1.2
糖果 0.1.3 configparser 5.2.0 contourpy 1.0.5
加密 39.0.1 cycler 0.11.0 cymem 2.0.8
Cython 0.29.32 英安岩 1.8.1 databricks-automl-runtime 0.2.20
databricks-cli 0.18.0 Databricks 特征工程 0.1.2 databricks 特征存储 (Feature Store) 0.16.1
databricks-sdk 0.1.6 dataclasses-json 0.6.1 数据集 2.14.5
dbl-tempo 0.1.26 dbu-python 1.2.18 debugpy 1.6.7
修饰器 5.1.1 deepspeed 0.11.1 defusedxml 0.7.1
莳萝 0.3.6 磁盘缓存 5.6.3 distlib 0.3.7
文档字符串到Markdown 0.11 入口点 0.4 评估 0.4.1
正在执行 0.8.3 面概述 1.1.1 fastjsonschema 2.18.1
fasttext 0.9.2 文件锁 3.9.0 Flask 2.2.5
flatbuffers 23.5.26 fonttools 4.25.0 frozenlist 1.4.0
fsspec 2023.6.0 未来 0.18.3 加斯特 0.4.0
gitdb 4.0.11 GitPython 3.1.27 google-api-core 2.12.0
google-auth 2.21.0 google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3
Google Cloud Storage(谷歌云存储) 2.11.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-续传媒体 2.6.0 googleapis-common-protos 1.61.0 greenlet 2.0.1
grpcio 1.48.2 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.7.0 hjson 3.1.0
假期 0.35 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub 0.16.4 idna 3.4
ImageHash 4.3.1 imbalanced-learn不平衡学习模块 0.11.0 importlib-metadata 4.11.3
importlib-resources 6.1.0 ipykernel 6.25.0 ipython 8.14.0
ipython-genutils 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.1 吉普尼(菲律宾的一种公共交通工具) 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 jsonpatch 1.33 jsonpointer 2.4
jsonschema 4.17.3 jupyter-client 7.3.4 jupyter-server 1.23.4
jupyter_core 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.14.0 密钥环 23.5.0 kiwisolver 1.4.4
langchain 0.0.314 语言代码 3.3.0 langsmith 0.0.56
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0.3 libclang 15.0.6.1 librosa 0.10.1
lightgbm 4.1.0 llvmlite 0.39.1 lxml 4.9.1
Mako 1.2.0 Markdown 3.4.1 MarkupSafe 2.1.1
棉花糖 3.20.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
mccabe 0.7.0 mistune 0.8.4 ml-dtypes 0.2.0
mlflow-skinny 2.8.0 more-itertools 8.10.0 mpmath 1.2.1
msgpack 1.0.7 multidict 6.0.4 multimethod 1.10
多进程 0.70.14 murmurhash 1.0.10 mypy-extensions 0.4.3
nbclassic 0.5.2 nbclient 0.5.13 nbconvert 6.5.4
nbformat 5.7.0 nest-asyncio 1.5.6 networkx 2.8.4
忍者 1.11.1.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.5.2 notebook_shim 0.2.2 numba 0.56.4
numpy 1.23.5 oauthlib 3.2.0 openai 0.28.1
opt-einsum 3.3.0 包装 22.0 pandas 1.5.3
pandocfilters 1.5.0 paramiko 2.9.2 parso 0.8.3
pathspec 0.10.3 病理 0.10.3 替罪羊 0.5.3
petastorm 0.12.1 pexpect 4.8.0 phik 0.12.3
pickleshare 0.7.5 Pillow 9.4.0 pip(Python 包管理工具) 22.3.1
platformdirs 2.5.2 plotly 5.9.0 pluggy 1.0.0
pmdarima 2.0.3 小狗 1.4.0 preshed 3.0.9
prometheus-client 0.14.1 prompt-toolkit 3.0.36 先知 1.1.5
protobuf 4.24.0 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 py-cpuinfo 9.0.0
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 pycparser 2.21 pydantic 1.10.6
pyflakes 3.1.0 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
pytesseract 0.3.10 python-dateutil 2.8.2 python-editor 1.0.4
python-lsp-jsonrpc 1.1.1 python-lsp-server 1.8.0 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 回复 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.4.0
scikit-learn 1.1.1 scipy 1.10.0 seaborn 0.12.2
SecretStorage 3.3.1 Send2Trash 1.8.0 句子转换器 2.2.2
sentencepiece(分词工具) 0.1.99 setuptools 65.6.3 shap 0.43.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 sniffio 1.2.0
soundfile 0.12.1 soupsieve 2.3.2.post1 soxr 0.3.7
spacy 3.7.1 spacy-legacy 3.0.12 spacy-loggers 1.0.5
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
认真地说 2.4.8 ssh-import-id 5.11 stack-data 0.2.0
stanio 0.3.0 statsmodels 0.13.5 sympy 1.11.1
制表 0.8.10 Unicode 纠缠 0.2.0 韧性 8.1.0
tensorboard 2.14.0 tensorboard-data-server 0.7.2 tensorboard-plugin-profile(张量板插件配置文件) 2.14.0
tensorflow-cpu 2.14.0 TensorFlow估算器(tensorflow-estimator) 2.14.0 tensorflow-io-gcs-filesystem 0.34.0
termcolor 2.3.0 已完成 0.17.1 thinc 8.2.1
threadpoolctl 2.2.0 tiktoken 0.5.1 tinycss2 1.2.1
tokenize-rt 4.2.1 分词器 0.14.0 tomli 2.0.1
torch 2.0.1+cpu torchvision 0.15.2+cpu tornado 6.1
tqdm 4.64.1 traitlets 5.7.1 transformers 4.34.0
typeguard 2.13.3 打字员 0.9.0 类型检查 0.9.0
typing_extensions 4.4.0 ujson 5.4.0 unattended-upgrades 0.1
urllib3 1.26.14 virtualenv 20.16.7 愿景 0.7.5
wadllib 1.3.6 wasabi 1.1.2 wcwidth 0.2.5
黄鼠狼 0.3.3 webencodings 0.5.1 websocket-client 0.58.0
Werkzeug 2.2.2 whatthepatch 1.0.2 wheel 0.38.4
widgetsnbextension 3.6.1 wordcloud 1.9.2 包裹 1.14.1
xgboost 1.7.6 xxhash 3.4.1 yapf 0.33.0
yarl 1.9.2 ydata-profiling 4.2.0 zipp 3.11.0

Python GPU 集群上的库

版本 版本 版本
absl-py 1.0.0 加速 0.23.0 aiohttp 3.8.6
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 async-timeout 4.0.3
属性 22.1.0 audioread 3.0.1 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.18.3 Azure 存储文件数据湖 (azure-storage-file-datalake) 12.13.2
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 转向灯 1.4
blis 0.7.11 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.2 catalogue 2.0.10 分类编码器 2.6.2
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer 2.0.4 单击 8.0.4 cloudpathlib 0.16.0
cloudpickle 2.0.0 cmake 3.27.7 cmdstanpy 1.2.0
通信 0.1.2 糖果 0.1.3 configparser 5.2.0
contourpy 1.0.5 加密 39.0.1 cycler 0.11.0
cymem 2.0.8 Cython 0.29.32 英安岩 1.8.1
databricks-automl-runtime 0.2.20 databricks-cli 0.18.0 Databricks 特征工程 0.1.2
databricks 特征存储 (Feature Store) 0.16.1 databricks-sdk 0.1.6 dataclasses-json 0.6.1
数据集 2.14.5 dbl-tempo 0.1.26 dbu-python 1.2.18
debugpy 1.6.7 修饰器 5.1.1 deepspeed 0.11.1
defusedxml 0.7.1 莳萝 0.3.6 磁盘缓存 5.6.3
distlib 0.3.7 文档字符串到Markdown 0.11 einops 0.7.0
入口点 0.4 评估 0.4.1 正在执行 0.8.3
面概述 1.1.1 fastjsonschema 2.18.1 fasttext 0.9.2
文件锁 3.9.0 flash-attn 2.3.2 Flask 2.2.5
flatbuffers 23.5.26 fonttools 4.25.0 frozenlist 1.4.0
fsspec 2023.6.0 未来 0.18.3 加斯特 0.4.0
gitdb 4.0.11 GitPython 3.1.27 google-api-core 2.12.0
google-auth 2.21.0 google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3
Google Cloud Storage(谷歌云存储) 2.11.0 google-crc32c 1.5.0 google-pasta 0.2.0
google-续传媒体 2.6.0 googleapis-common-protos 1.61.0 greenlet 2.0.1
grpcio 1.48.2 grpcio-status 1.48.1 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.7.0 hjson 3.1.0
假期 0.35 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 huggingface-hub 0.16.4 idna 3.4
ImageHash 4.3.1 imbalanced-learn不平衡学习模块 0.11.0 importlib-metadata 4.11.3
importlib-resources 6.1.0 ipykernel 6.25.0 ipython 8.14.0
ipython-genutils 0.2.0 ipywidgets 7.7.2 isodate 0.6.1
itsdangerous 2.0.1 jedi 0.18.1 吉普尼(菲律宾的一种公共交通工具) 0.7.1
Jinja2 3.1.2 jmespath 0.10.0 joblib 1.2.0
joblibspark 0.5.1 jsonpatch 1.33 jsonpointer 2.4
jsonschema 4.17.3 jupyter-client 7.3.4 jupyter-server 1.23.4
jupyter_core 5.2.0 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.14.0 密钥环 23.5.0 kiwisolver 1.4.4
langchain 0.0.314 语言代码 3.3.0 langsmith 0.0.56
launchpadlib 1.10.16 lazr.restfulclient 0.14.4 lazr.uri 1.0.6
lazy_loader 0.3 libclang 15.0.6.1 librosa 0.10.1
lightgbm 4.1.0 lit 17.0.4 llvmlite 0.39.1
lxml 4.9.1 Mako 1.2.0 Markdown 3.4.1
MarkupSafe 2.1.1 棉花糖 3.20.1 matplotlib 3.7.0
matplotlib-inline 0.1.6 mccabe 0.7.0 mistune 0.8.4
ml-dtypes 0.2.0 mlflow-skinny 2.8.0 more-itertools 8.10.0
mpmath 1.2.1 msgpack 1.0.7 multidict 6.0.4
multimethod 1.10 多进程 0.70.14 murmurhash 1.0.10
mypy-extensions 0.4.3 nbclassic 0.5.2 nbclient 0.5.13
nbconvert 6.5.4 nbformat 5.7.0 nest-asyncio 1.5.6
networkx 2.8.4 忍者 1.11.1.1 nltk 3.7
nodeenv 1.8.0 笔记本 6.5.2 notebook_shim 0.2.2
numba 0.56.4 numpy 1.23.5 oauthlib 3.2.0
openai 0.28.1 opt-einsum 3.3.0 包装 22.0
pandas 1.5.3 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.10.3 病理 0.10.3
替罪羊 0.5.3 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.4.0
pip(Python 包管理工具) 22.3.1 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 小狗 1.4.0
preshed 3.0.9 prompt-toolkit 3.0.36 先知 1.1.5
protobuf 4.24.0 psutil 5.9.0 psycopg2 2.9.3
ptyprocess 0.7.0 pure-eval 0.2.2 py-cpuinfo 9.0.0
pyarrow 8.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.11.1 pycparser 2.21 pydantic 1.10.6
pyflakes 3.1.0 Pygments 2.11.2 PyGObject 3.42.1
PyJWT 2.3.0 PyNaCl 1.5.0 pyodbc 4.0.32
pyparsing 3.0.9 pyright 1.1.294 pyrsistent 0.18.0
pytesseract 0.3.10 python-dateutil 2.8.2 python-editor 1.0.4
python-lsp-jsonrpc 1.1.1 python-lsp-server 1.8.0 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 回复 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.4.0
scikit-learn 1.1.1 scipy 1.10.0 seaborn 0.12.2
SecretStorage 3.3.1 Send2Trash 1.8.0 句子转换器 2.2.2
sentencepiece(分词工具) 0.1.99 setuptools 65.6.3 shap 0.43.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 sniffio 1.2.0
soundfile 0.12.1 soupsieve 2.3.2.post1 soxr 0.3.7
spacy 3.7.1 spacy-legacy 3.0.12 spacy-loggers 1.0.5
spark-tensorflow-distributor 1.0.0 SQLAlchemy 1.4.39 sqlparse 0.4.2
认真地说 2.4.8 ssh-import-id 5.11 stack-data 0.2.0
stanio 0.3.0 statsmodels 0.13.5 sympy 1.11.1
制表 0.8.10 Unicode 纠缠 0.2.0 韧性 8.1.0
tensorboard 2.14.0 tensorboard-data-server 0.7.2 tensorboard-plugin-profile(张量板插件配置文件) 2.14.0
tensorflow 2.14.0 TensorFlow估算器(tensorflow-estimator) 2.14.0 tensorflow-io-gcs-filesystem 0.34.0
termcolor 2.3.0 已完成 0.17.1 thinc 8.2.1
threadpoolctl 2.2.0 tiktoken 0.5.1 tinycss2 1.2.1
tokenize-rt 4.2.1 分词器 0.14.0 tomli 2.0.1
torch 2.0.1+cu118 torchvision 0.15.2+cu118 tornado 6.1
tqdm 4.64.1 traitlets 5.7.1 transformers 4.34.0
triton 2.0.0 typeguard 2.13.3 打字员 0.9.0
类型检查 0.9.0 typing_extensions 4.4.0 ujson 5.4.0
unattended-upgrades 0.1 urllib3 1.26.14 virtualenv 20.16.7
愿景 0.7.5 wadllib 1.3.6 wasabi 1.1.2
wcwidth 0.2.5 黄鼠狼 0.3.3 webencodings 0.5.1
websocket-client 0.58.0 Werkzeug 2.2.2 whatthepatch 1.0.2
wheel 0.38.4 widgetsnbextension 3.6.1 wordcloud 1.9.2
包裹 1.14.1 xgboost 1.7.6 xxhash 3.4.1
yapf 0.33.0 yarl 1.9.2 ydata-profiling 4.2.0
zipp 3.11.0

R 库

R 库与 Databricks Runtime 14.2 中的 R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 14.2 中的Java和 Scala 库外,Databricks Runtime 14.2 ML 还包含以下 JAR:

CPU 群集

组标识 构件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.8.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组标识 构件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.8.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0