Databricks Runtime 5.0 ML(不受支持)

Databricks 于 2018 年 11 月发布了此映像。

Databricks Runtime 5.0 ML 为机器学习和数据科学提供随时可用的环境。 它包含许多流行库,其中包括 TensorFlow、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式 TensorFlow 训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能

Databricks Runtime 5.0 ML 是基于 Databricks Runtime 5.0 构建的。 若要了解 Databricks Runtime 5.0 中的新增功能,请参阅 Databricks Runtime 5.0(不受支持)发行说明。 除了 Databricks Runtime 5.0 中的新功能外,Databricks Runtime 5.0 ML 还包括以下新功能:

注意

Databricks Runtime ML 版本会获取基础 Databricks Runtime 版本的所有维护更新。 有关所有维护更新的列表,请参阅Databricks 运行时维护更新(已存档)

系统环境

Databricks Runtime 5.0 与 Databricks Runtime 5.0 ML 中系统环境的不同在于:

  • Python:2.7.15(面向 Python 2 群集)和 3.6.5(面向 Python 3 群集)。
  • 对于 GPU 群集,有以下 NVIDIA GPU 库:
    • Tesla 驱动程序 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

本部分列出了 Databricks Runtime 5.0 包含的库和 Databricks Runtime 5.0 ML 包含的库之间的不同之处。

Python 库

Databricks Runtime 5.0 ML 使用 Conda 进行 Python 包管理。 下面是所提供的 Python 包和使用 Conda 包管理器安装的版本的完整列表。

版本 版本 版本
absl-py 0.6.1 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.4 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
密码系统 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Future 3.2.0
gast 0.2.0 grpcio 1.12.1 h5py 2.8.0
horovod 0.15.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.0 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psycopg2 2.7.5
ptyprocess 0.5.2 pyarrow 0.8.0 pyasn1 0.4.4
pycparser 2.18 Pygments 2.2.0 PyNaCl 1.3.0
pyOpenSSL 18.0.0 pyparsing 2.2.0 PySocks 1.6.8
Python 2.7.15 python-dateutil 2.7.3 pytz 2018.4
PyYAML 3.12 pyzmq 17.0.0 请求 2.18.4
s3transfer 0.1.13 scandir 1.7 scikit-learn 0.19.1
scipy 1.1.0 seaborn 0.8.1 setuptools 39.1.0
simplegeneric 0.8.1 singledispatch 3.4.0.3 6 1.11.0
statsmodels 0.9.0 subprocess32 3.5.3 tensorboard 1.10.0
tensorflow 1.10.0 termcolor 1.1.0 testpath 0.3.1
tornado 5.0.2 traceback2 1.4.0 traitlets 4.3.2
unittest2 1.1.0 urllib3 1.22 virtualenv 16.0.0
wcwidth 0.1.7 webencodings 0.5.1 Werkzeug 0.14.1
wheel 0.31.1 wrapt 1.10.11 wsgiref 0.1.2

此外,以下 Spark 包还包括 Python 模块:

Spark 包 Python 模块 版本
tensorframes tensorframes 0.5.0-s_2.11
graphframes graphframes 0.6.0-db3-spark2.4
spark-deep-learning sparkdl 1.3.0-db2-spark2.4

R 库

R 库与 Databricks Runtime 5.0 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.11 群集)

除了 Databricks Runtime 5.0 中的 Java 库和 Scala 库之外,Databricks Runtime 5.0 ML 还包含以下 JAR:

组 ID 项目 ID 版本
com.databricks spark-deep-learning 1.3.0-db2-spark2.4
org.tensorframes tensorframes 0.5.0-s_2.11
org.graphframes graphframes_2.11 0.6.0-db3-spark2.4
org.tensorflow libtensorflow 1.10.0
org.tensorflow libtensorflow_jni 1.10.0
org.tensorflow spark-tensorflow-connector_2.11 1.10.0-spark2.4-001
org.tensorflow tensorflow 1.10.0
ml.dmlc xgboost4j 0.80
ml.dmlc xgboost4j-spark 0.80
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0-SNAPSHOT