Databricks Runtime 5.3 ML(不受支持)

Databricks 于 2019 年 4 月发布了此映像。

Databricks Runtime 5.3 ML 基于 Databricks Runtime 5.3(不受支持)为机器学习和数据科学提供随时可用的环境。 用于 ML 的 Databricks Runtime 包含许多常用的机器学习库,包括 TensorFlow、PyTorch、Keras 和 XGBoost。 它还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新增功能

Databricks Runtime 5.3 ML 是基于 Databricks Runtime 5.3 构建的。 要了解 Databricks Runtime 5.3 中新增功能的信息,请参阅 Databricks Runtime 5.3(不受支持)发行说明。 Databricks Runtime 5.3 ML 不仅引入了库更新,还引入了以下新功能:

  • MLflow + Apache Spark MLlib 集成:对于使用 PySpark 优化算法 CrossValidatorTrainValidationSplit 拟合的模型,Databricks Runtime 5.3 ML 支持自动记录 MLflow 运行

    重要

    此功能以个人预览版提供。 请与你的 Azure Databricks 销售代表联系,了解有关启用它的信息。

  • 将以下库升级到最新版本:

    • 将 PyArrow 从 0.8.0 更新到 0.12.1:基于 Arrow 的转换支持 BinaryType,可用于 BinaryType
    • 将 Horovod 从 0.15.2 更新到 0.16.0。
    • 将 TensorboardX 从 1.4 更新到 1.6。

不建议使用 Databricks ML 模型导出 API。 Azure Databricks 建议改用 MLeap,后者可提供更广泛地 MLlib 模型类型。 有关详细信息,请参阅 MLeap ML 模型导出

注意

此外,Databricks Runtime 5.3 包含已优化的新 FUSE 装载,用于数据加载、模型检查点检查以及从每个辅助角色到共享存储位置 file:/dbfs/ml 的日志记录,从而为深度学习工作负载提供高性能 I/O。 请参阅加载用于机器学习和深度学习的数据

维护更新

请参阅 Databricks Runtime 5.4 ML 维护更新

系统环境

Databricks Runtime 5.3 ML 中的系统环境与 Databricks Runtime 5.3 不同,如下所示:

  • Python:2.7.15 适用于 Python 2 群集,3.6.5 适用于 Python 3 群集。
  • DBUtils:Databricks Runtime 5.3 ML 不包含库实用工具 (dbutils.library)(旧版)
  • 对于 GPU 群集,有以下 NVIDIA GPU 库:
    • Tesla 驱动程序 396.44
    • CUDA 9.2
    • CUDNN 7.2.1

以下部分列出了 Databricks Runtime 5.3 ML 中包含的库,这些库不同于 Databricks Runtime 5.3 中包含的库。

顶层库

Databricks Runtime 5.3 ML 包含以下顶层

Python 库

Databricks Runtime 5.3 ML 使用 Conda 进行 Python 包管理。 因此,预安装的 Python 库相对于 Databricks Runtime 有很大区别。 下面是所提供的 Python 包和使用 Conda 包管理器安装的版本的完整列表。

版本 版本 版本
absl-py 0.7.0 argparse 1.4.0 asn1crypto 0.24.0
astor 0.7.1 backports-abc 0.5 backports.functools-lru-cache 1.5
backports.weakref 1.0.post1 bcrypt 3.1.6 bleach 2.1.3
boto 2.48.0 boto3 1.7.62 botocore 1.10.62
certifi 2018.04.16 cffi 1.11.5 chardet 3.0.4
cloudpickle 0.5.3 colorama 0.3.9 configparser 3.5.0
密码系统 2.2.2 cycler 0.10.0 Cython 0.28.2
decorator 4.3.0 docutils 0.14 entrypoints 0.2.3
enum34 1.1.6 et-xmlfile 1.0.1 funcsigs 1.0.2
functools32 3.2.3-2 fusepy 2.0.4 Future 3.2.0
gast 0.2.2 grpcio 1.12.1 h5py 2.8.0
horovod 0.16.0 html5lib 1.0.1 idna 2.6
ipaddress 1.0.22 ipython 5.7.0 ipython_genutils 0.2.0
jdcal 1.4 Jinja2 2.10 jmespath 0.9.3
jsonschema 2.6.0 jupyter-client 5.2.3 jupyter-core 4.4.0
Keras 2.2.4 Keras-Applications 1.0.6 Keras-Preprocessing 1.0.5
kiwisolver 1.0.1 linecache2 1.0.0 llvmlite 0.23.1
lxml 4.2.1 Markdown 3.0.1 MarkupSafe 1.0
matplotlib 2.2.2 mistune 0.8.3 mleap 0.8.1
mock 2.0.0 msgpack 0.5.6 nbconvert 5.3.1
nbformat 4.4.0 nose 1.3.7 nose-exclude 0.5.0
numba 0.38.0+0.g2a2b772fc.dirty numpy 1.14.3 olefile 0.45.1
openpyxl 2.5.3 pandas 0.23.0 pandocfilters 1.4.2
paramiko 2.4.1 pathlib2 2.3.2 patsy 0.5.0
pbr 5.1.1 pexpect 4.5.0 pickleshare 0.7.4
Pillow 5.1.0 pip 10.0.1 ply 3.11
prompt-toolkit 1.0.15 protobuf 3.6.1 psutil 5.6.0
psycopg2 2.7.5 ptyprocess 0.5.2 pyarrow 0.12.1
pyasn1 0.4.5 pycparser 2.18 Pygments 2.2.0
PyNaCl 1.3.0 pyOpenSSL 18.0.0 pyparsing 2.2.0
PySocks 1.6.8 Python 2.7.15 python-dateutil 2.7.3
pytz 2018.4 PyYAML 3.12 pyzmq 17.0.0
请求 2.18.4 s3transfer 0.1.13 scandir 1.7
scikit-learn 0.19.1 scipy 1.1.0 seaborn 0.8.1
setuptools 39.1.0 simplegeneric 0.8.1 singledispatch 3.4.0.3
6 1.11.0 statsmodels 0.9.0 subprocess32 3.5.3
tensorboard 1.12.2 tensorboardX 1.6 tensorflow 1.12.0
termcolor 1.1.0 testpath 0.3.1 torch 0.4.1
torchvision 0.2.1 tornado 5.0.2 traceback2 1.4.0
traitlets 4.3.2 unittest2 1.1.0 urllib3 1.22
virtualenv 16.0.0 wcwidth 0.1.7 webencodings 0.5.1
Werkzeug 0.14.1 wheel 0.31.1 wrapt 1.10.11
wsgiref 0.1.2

此外,以下 Spark 包还包括 Python 模块:

Spark 包 Python 模块 版本
graphframes graphframes 0.7.0-db1-spark2.4
spark-deep-learning sparkdl 1.5.0-db1-spark2.4
tensorframes tensorframes 0.6.0-s_2.11

R 库

R 库与 Databricks Runtime 5.3 中的 R 库完全相同。

Java 库和 Scala 库(Scala 2.11 群集)

除了 Databricks Runtime 5.3 中的 Java 库和 Scala 库之外,Databricks Runtime 5.3 ML 还包含以下 JAR:

组 ID 项目 ID 版本
com.databricks spark-deep-learning 1.5.0-db1-spark2.4
com.typesafe.akka akka-actor_2.11 2.3.11
ml.combust.mleap mleap-databricks-runtime_2.11 0.13.0
ml.dmlc xgboost4j 0.81
ml.dmlc xgboost4j-spark 0.81
org.graphframes graphframes_2.11 0.7.0-db1-spark2.4
org.tensorflow libtensorflow 1.12.0
org.tensorflow libtensorflow_jni 1.12.0
org.tensorflow spark-tensorflow-connector_2.11 1.12.0
org.tensorflow tensorflow 1.12.0
org.tensorframes tensorframes 0.6.0-s_2.11