用于机器学习的 Databricks Runtime 14.0 (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

用于机器学习的 Databricks Runtime 14.0 基于 Databricks Runtime 14.0 (EoS) 为机器学习和数据科学提供随时可用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能和改进

Databricks Runtime 14.0 ML 基于 Databricks Runtime 14.0 构建。 若要了解 Databricks Runtime 14.0 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 14.0 (EoS) 发行说明。

系统环境

Databricks Runtime 14.0 ML 中的系统环境在以下方面不同于 Databricks Runtime 14.0:

Databricks Runtime 14.0 ML 包括 XGBoost 1.7.6,它不支持计算功能 5.2 及更低版本的 GPU 群集。

先前的 Databricks Runtime ML 版本中包含的以下包已在 Databricks Runtime 14.0 ML 中删除:

  • miniconda
  • MLeap

软件库

以下部分列出了 Databricks Runtime 14.0 ML 中包含的库,这些库不同于 Databricks Runtime 14.0 中包含的库。

本节内容:

顶级库

Databricks Runtime 14.0 ML 包含以下顶层

Python 库

Databricks Runtime 14.0 ML 使用 Virtualenv 进行 Python 包管理,并且包含许多常用的 ML 包。

除了以下部分指定的包,Databricks Runtime 14.0 ML 还包含以下包:

  • hyperopt 0.2.7+db4
  • sparkdl 3.0.0_db1
  • automl 1.21.1

若要在本地 Python 虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-14.0.txt 文件并运行 pip install -r requirements-14.0.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Databricks 开发的库,例如 databricks-automldatabricks-feature-store,或 hyperopt 的 Databricks 分支。

CPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 加速 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 异步超时 4.0.3
属性 22.1.0 audioread 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 指示灯 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 catalogue 2.0.9 类别编码器 2.6.1
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer(字符集标准化器) 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmdstanpy 1.1.0 comm 0.1.2 糖果 0.1.1
configparser 5.2.0 contourpy 1.0.5 convertdate 2.4.0
加密 39.0.1 cycler 0.11.0 cymem 2.0.7
Cython 0.29.32 英安岩 1.8.1 databricks-automl-runtime 0.2.18
databricks-cli 0.17.7 Databricks 特征存储 0.14.1 databricks-sdk 0.1.6
dataclasses-json 0.5.14 数据集 2.14.1 dbl-tempo 0.1.23
dbu-python 1.2.18 debugpy 1.6.7 修饰器 5.1.1
deepspeed 0.10.0 defusedxml 0.7.1 莳萝 0.3.6
磁盘缓存 5.6.1 distlib 0.3.7 docstring-to-markdown(文档字符串转Markdown格式) 0.11
入口点 0.4 ephem 4.1.4 评估 0.4.0
正在执行 0.8.3 facets 概述 1.1.1 fastapi 0.98.0
fastjsonschema 2.18.0 fasttext 0.9.2 文件锁 3.9.0
Flask 2.2.5 flatbuffers 23.5.26 fonttools 4.25.0
frozenlist 1.4.0 fsspec 2022.11.0 未来 0.18.3
gast 0.4.0 GCC 运行时库 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 google-cloud-storage(谷歌云存储) 2.10.0
google-crc32c 1.5.0 google-pasta 0.2.0 google-resumable-media 2.5.0
googleapis-common-protos 1.60.0 greenlet 2.0.1 grpcio 1.48.2
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
假期 0.28 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub 0.14.1
idna 3.4 ImageHash 4.3.1 imbalanced-learn(用于处理不平衡数据集的库) 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate (ISO标准日期) 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 Jupyter 服务器 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.13.1
密钥环 23.5.0 kiwisolver 1.4.4 langchain 0.0.225
langchainplus-sdk 0.0.20 语言代码 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
llvmlite 0.39.1 农历 0.0.9 lxml 4.9.1
Mako 1.2.0 Markdown 3.4.1 MarkupSafe 2.1.1
棉花糖 3.20.1 matplotlib 3.7.0 matplotlib-inline 0.1.6
mccabe 0.7.0 mistune(一个用于Markdown解析的Python库) 0.8.4 mlflow-skinny 2.5.0
more-itertools 8.10.0 mpmath 1.2.1 msgpack 1.0.5
multidict 6.0.4 multimethod 1.9.1 多进程 0.70.14
murmurhash 1.0.9 mypy-extensions 0.4.3 nbclassic 0.5.2
nbclient 0.5.13 nbconvert 6.5.4 nbformat 5.7.0
nest-asyncio 1.5.6 networkx 2.8.4 忍者 1.11.1
nltk 3.7 nodeenv 1.8.0 笔记本 6.5.2
notebook_shim 0.2.2 numba 0.56.4 numexpr 2.8.4
numpy 1.23.5 oauthlib 3.2.0 openai 0.27.8
openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0 包装 22.0
pandas 1.5.3 pandocfilters 1.5.0 paramiko 2.9.2
parso 0.8.3 pathspec 0.10.3 pathy 0.10.2
替罪羊 0.5.3 petastorm 0.12.1 pexpect 4.8.0
phik 0.12.3 pickleshare 0.7.5 Pillow 9.4.0
pip 22.3.1 platformdirs 2.5.2 plotly 5.9.0
pluggy 1.0.0 pmdarima 2.0.3 狗狗 1.4.0
preshed 3.0.8 prometheus-client 0.14.1 prompt-toolkit 3.0.36
预测家 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 Python 编辑器 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 响应 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.3.2
scikit-learn 1.1.1 seaborn(Python 数据可视化库) 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 sentence-transformers 2.2.2 sentencepiece(文本分词器) 0.1.99
setuptools 65.6.3 shap 0.41.0 simplejson 3.17.6
6 1.16.0 切片器 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 soundfile 0.12.1
soupsieve 2.3.2.post1 soxr 0.3.6 spacy 3.5.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 真的啦 2.4.7
ssh-import-id 5.11 栈数据 0.2.0 starlette 0.27.0
statsmodels 0.13.5 sympy 1.11.1 制表 0.8.10
Unicode纠缠问题 0.2.0 韧性 8.1.0 tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile (张量板插件配置文件) 2.13.0 tensorflow-中央处理器 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.33.0 termcolor 2.3.0
terminado 0.17.1 thinc 8.1.12 threadpoolctl 2.2.0
tiktoken 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
分词器 0.13.3 tomli 2.0.1 Torch 2.0.1+cpu
torchvision 0.15.2+cpu tornado 6.1 tqdm 4.64.1
traitlets 5.7.1 transformers 4.31.0 typeguard 2.13.3
typer 0.9.0 类型检查 0.9.0 typing_extensions 4.4.0
ujson 5.4.0 无人参与升级 0.1 urllib3 1.26.14
uvicorn 0.23.2 uvloop 0.17.0 virtualenv 20.16.7
愿景 0.7.5 wadllib 1.3.6 wasabi 1.1.2
watchfiles 0.19.0 wcwidth 0.2.5 webencodings 0.5.1
websocket-client 0.58.0 websockets 11.0.3 Werkzeug 2.2.2
whatthepatch 1.0.2 wheel 0.38.4 widgetsnbextension 3.6.1
wordcloud 1.9.2 包裹 1.14.1 xgboost 1.7.6
xxhash 3.3.0 yapf 0.31.0 yarl 1.9.2
ydata 数据概况工具 4.2.0 zipp 3.11.0

GPU 群集上的 Python 库

版本 版本 版本
absl-py 1.0.0 加速 0.21.0 aiohttp 3.8.5
aiosignal 1.3.1 anyio 3.5.0 appdirs 1.4.4
argon2-cffi 21.3.0 argon2-cffi-bindings 21.2.0 astor 0.8.1
asttokens 2.0.5 astunparse 1.6.3 异步超时 4.0.3
属性 22.1.0 audioread 3.0.0 azure-core 1.29.1
azure-cosmos 4.3.1 azure-storage-blob 12.17.0 azure-storage-file-datalake 12.12.0
回调 0.2.0 bcrypt 3.2.0 beautifulsoup4 4.11.1
黑色 22.6.0 漂白剂 4.1.0 指示灯 1.4
blis 0.7.10 boto3 1.24.28 botocore 1.27.96
cachetools 5.3.1 catalogue 2.0.9 类别编码器 2.6.1
certifi 2022.12.7 cffi 1.15.1 chardet 4.0.0
charset-normalizer(字符集标准化器) 2.0.4 单击 8.0.4 cloudpickle 2.0.0
cmake 3.27.2 cmdstanpy 1.1.0 comm 0.1.2
糖果 0.1.1 configparser 5.2.0 contourpy 1.0.5
convertdate 2.4.0 加密 39.0.1 cycler 0.11.0
cymem 2.0.7 Cython 0.29.32 英安岩 1.8.1
databricks-automl-runtime 0.2.18 databricks-cli 0.17.7 Databricks 特征存储 0.14.1
databricks-sdk 0.1.6 dataclasses-json 0.5.14 数据集 2.14.1
dbl-tempo 0.1.23 dbu-python 1.2.18 debugpy 1.6.7
修饰器 5.1.1 deepspeed 0.10.0 defusedxml 0.7.1
莳萝 0.3.6 磁盘缓存 5.6.1 distlib 0.3.7
docstring-to-markdown(文档字符串转Markdown格式) 0.11 einops 0.6.1 入口点 0.4
ephem 4.1.4 评估 0.4.0 正在执行 0.8.3
facets 概述 1.1.1 fastapi 0.98.0 fastjsonschema 2.18.0
fasttext 0.9.2 文件锁 3.9.0 flash-attn 2.0.1
Flask 2.2.5 flatbuffers 23.5.26 fonttools 4.25.0
frozenlist 1.4.0 fsspec 2022.11.0 未来 0.18.3
gast 0.4.0 GCC 运行时库 1.10.0 gitdb 4.0.10
GitPython 3.1.27 google-api-core 2.11.1 google-auth 2.21.0
google-auth-oauthlib 1.0.0 google-cloud-core 2.3.3 google-cloud-storage(谷歌云存储) 2.10.0
google-crc32c 1.5.0 google-pasta 0.2.0 google-resumable-media 2.5.0
googleapis-common-protos 1.60.0 greenlet 2.0.1 grpcio 1.48.2
grpcio-status 1.48.1 gunicorn 20.1.0 gviz-api 1.10.0
h11 0.14.0 h5py 3.7.0 hjson 3.1.0
假期 0.28 horovod 0.28.1 htmlmin 0.1.12
httplib2 0.20.2 httptools 0.6.0 huggingface-hub 0.14.1
idna 3.4 ImageHash 4.3.1 imbalanced-learn(用于处理不平衡数据集的库) 0.10.1
importlib-metadata 4.11.3 importlib-resources 6.0.1 ipykernel 6.25.0
ipython 8.14.0 ipython-genutils 0.2.0 ipywidgets 7.7.2
isodate (ISO标准日期) 0.6.1 itsdangerous 2.0.1 jedi 0.18.1
jeepney 0.7.1 Jinja2 3.1.2 jmespath 0.10.0
joblib 1.2.0 joblibspark 0.5.1 jsonschema 4.17.3
jupyter-client 7.3.4 Jupyter 服务器 1.23.4 jupyter_core 5.2.0
jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0 keras 2.13.1
密钥环 23.5.0 kiwisolver 1.4.4 langchain 0.0.225
langchainplus-sdk 0.0.20 语言代码 3.3.0 launchpadlib 1.10.16
lazr.restfulclient 0.14.4 lazr.uri 1.0.6 lazy_loader 0.3
libclang 15.0.6.1 librosa 0.10.0 lightgbm 3.3.5
照亮 16.0.6 llvmlite 0.39.1 农历 0.0.9
lxml 4.9.1 Mako 1.2.0 Markdown 3.4.1
MarkupSafe 2.1.1 棉花糖 3.20.1 matplotlib 3.7.0
matplotlib-inline 0.1.6 mccabe 0.7.0 mistune(一个用于Markdown解析的Python库) 0.8.4
mlflow-skinny 2.5.0 more-itertools 8.10.0 mpmath 1.2.1
msgpack 1.0.5 multidict 6.0.4 multimethod 1.9.1
多进程 0.70.14 murmurhash 1.0.9 mypy-extensions 0.4.3
nbclassic 0.5.2 nbclient 0.5.13 nbconvert 6.5.4
nbformat 5.7.0 nest-asyncio 1.5.6 networkx 2.8.4
忍者 1.11.1 nltk 3.7 nodeenv 1.8.0
笔记本 6.5.2 notebook_shim 0.2.2 numba 0.56.4
numexpr 2.8.4 numpy 1.23.5 oauthlib 3.2.0
openai 0.27.8 openapi-schema-pydantic 1.2.4 opt-einsum 3.3.0
包装 22.0 pandas 1.5.3 pandocfilters 1.5.0
paramiko 2.9.2 parso 0.8.3 pathspec 0.10.3
pathy 0.10.2 替罪羊 0.5.3 petastorm 0.12.1
pexpect 4.8.0 phik 0.12.3 pickleshare 0.7.5
Pillow 9.4.0 pip 22.3.1 platformdirs 2.5.2
plotly 5.9.0 pluggy 1.0.0 pmdarima 2.0.3
狗狗 1.4.0 preshed 3.0.8 prompt-toolkit 3.0.36
预测家 1.1.4 protobuf 4.24.0 psutil 5.9.0
psycopg2 2.9.3 ptyprocess 0.7.0 pure-eval 0.2.2
py-cpuinfo 9.0.0 pyarrow 8.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.11.1 pycparser 2.21
pydantic 1.10.6 pyflakes 3.0.1 Pygments 2.11.2
PyGObject 3.42.1 PyJWT 2.3.0 PyMeeus 0.5.12
PyNaCl 1.5.0 pyodbc 4.0.32 pyparsing 3.0.9
pyright 1.1.294 pyrsistent 0.18.0 pytesseract 0.3.10
python-dateutil 2.8.2 python-dotenv 1.0.0 Python 编辑器 1.0.4
python-lsp-jsonrpc 1.0.0 python-lsp-server 1.7.1 pytoolconfig 1.2.5
pytz 2022.7 PyWavelets 1.4.1 PyYAML 6.0
pyzmq 23.2.0 regex 2022.7.9 请求 2.28.1
requests-oauthlib 1.3.1 响应 0.18.0 绳子 1.7.0
rsa 4.9 s3transfer 0.6.2 safetensors 0.3.2
scikit-learn 1.1.1 seaborn(Python 数据可视化库) 0.12.2 SecretStorage 3.3.1
Send2Trash 1.8.0 sentence-transformers 2.2.2 sentencepiece(文本分词器) 0.1.99
setuptools 65.6.3 shap 0.41.0 simplejson 3.17.6
6 1.16.0 切片器 0.0.7 smart-open 5.2.1
smmap 5.0.0 sniffio 1.2.0 soundfile 0.12.1
soupsieve 2.3.2.post1 soxr 0.3.6 spacy 3.5.4
spacy-legacy 3.0.12 spacy-loggers 1.0.4 spark-tensorflow-distributor 1.0.0
SQLAlchemy 1.4.39 sqlparse 0.4.2 真的啦 2.4.7
ssh-import-id 5.11 栈数据 0.2.0 starlette 0.27.0
statsmodels 0.13.5 sympy 1.11.1 制表 0.8.10
Unicode纠缠问题 0.2.0 韧性 8.1.0 tensorboard 2.13.0
tensorboard-data-server 0.7.1 tensorboard-plugin-profile (张量板插件配置文件) 2.13.0 TensorFlow(张量流) 2.13.0
tensorflow-estimator 2.13.0 tensorflow-io-gcs-filesystem 0.33.0 termcolor 2.3.0
terminado 0.17.1 thinc 8.1.12 threadpoolctl 2.2.0
tiktoken 0.4.0 tinycss2 1.2.1 tokenize-rt 4.2.1
分词器 0.13.3 tomli 2.0.1 Torch 2.0.1+cu118
torchvision 0.15.2+cu118 tornado 6.1 tqdm 4.64.1
traitlets 5.7.1 transformers 4.31.0 triton 2.0.0
typeguard 2.13.3 typer 0.9.0 类型检查 0.9.0
typing_extensions 4.4.0 ujson 5.4.0 无人参与升级 0.1
urllib3 1.26.14 uvicorn 0.23.2 uvloop 0.17.0
virtualenv 20.16.7 愿景 0.7.5 wadllib 1.3.6
wasabi 1.1.2 watchfiles 0.19.0 wcwidth 0.2.5
webencodings 0.5.1 websocket-client 0.58.0 websockets 11.0.3
Werkzeug 2.2.2 whatthepatch 1.0.2 wheel 0.38.4
widgetsnbextension 3.6.1 wordcloud 1.9.2 包裹 1.14.1
xgboost 1.7.6 xxhash 3.3.0 yapf 0.31.0
yarl 1.9.2 ydata 数据概况工具 4.2.0 zipp 3.11.0

R 库

R 库与 Databricks Runtime 14.0 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 14.0 中的 Java 库和 Scala 库之外,Databricks Runtime 14.0 ML 还包含以下 JAR:

CPU 群集

组标识 工件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-spark_2.12 1.7.3
ml.dmlc xgboost4j_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0

GPU 群集

组标识 工件 ID 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.dmlc xgboost4j-gpu_2.12 1.7.3
ml.dmlc xgboost4j-spark-gpu_2.12 1.7.3
org.graphframes graphframes_2.12 0.8.2-db2-spark3.4
org.mlflow mlflow-client 2.5.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12 1.15.0