Databricks Runtime 5.1 ML (EoS)

注意

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅终止支持历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks 于 2018 年 12 月发布了此映像。

Databricks Runtime 5.1 ML 基于 Databricks Runtime 5.1 (EoS) 为机器学习和数据科学提供随时可用的环境。 用于 ML 的 Databricks Runtime 包含许多常用的机器学习库,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式 TensorFlow 训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能

Databricks Runtime 5.1 ML 是基于 Databricks Runtime 5.1 构建的。 若要了解 Databricks Runtime 5.1 中的新增功能,请参阅 Databricks Runtime 5.1 (EoS) 发行说明。 除中现有库的更新外,Databricks Runtime 5.1 ML 还包含以下新功能:

  • 用于构建深度学习网络的 PyTorch

注意

Databricks Runtime ML 版本会获取基础 Databricks Runtime 版本的所有维护更新。 有关所有维护更新的列表,请参阅Databricks 运行时维护更新(已存档)

系统环境

Databricks Runtime 5.1 与 Databricks Runtime 5.1 ML 中系统环境的不同在于:

  • Python:2.7.15(面向 Python 2 群集)和 3.6.5(面向 Python 3 群集)。
  • DBUtils:Databricks Runtime 5.1 ML 不包含库实用工具 (dbutils.library)(旧版)
  • 对于 GPU 群集,有以下 NVIDIA GPU 库:
    • Tesla 驱动程序 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

本部分列出了 Databricks Runtime 5.1 包含的库和 Databricks Runtime 5.1 ML 包含的库之间的不同之处。

Python 库

Databricks Runtime 5.1 ML 使用 Conda 进行 Python 包管理。 因此,预安装的 Python 库相对于 Databricks Runtime 有很大更改。 下面是所提供的 Python 包和使用 Conda 包管理器安装的版本的完整列表。

版本 版本 版本
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.4 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
密码系统 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Future 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 请求 2.18.4
s3transfer 0.1.13 scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 6 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 tensorboard 1.12.0
tensorboardX 1.4 tensorflow 1.12.0 termcolor 1.1.0
testpath 0.3.1 torch 0.4.1 torchvision 0.2.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
wheel 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

此外,以下 Spark 包还包括 Python 模块:

Spark 包 Python 模块 版本
tensorframes tensorframes 0.6.0-s_2.11
graphframes graphframes 0.6.0-db3-spark2.4
spark-deep-learning sparkdl 1.4.0-db2-spark2.4

R 库

R 库与 Databricks Runtime 5.1 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.11 群集)

除了 Databricks Runtime 5.1 中的 Java 库和 Scala 库之外,Databricks Runtime 5.1 ML 还包含以下 JAR:

组 ID 项目 ID 版本
com.databricks spark-deep-learning 1.4.0-db2-spark2.4
org.tensorframes tensorframes 0.6.0-s_2.11
org.graphframes graphframes_2.11 0.6.0-db3-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0