用于机器学习的 Databricks Runtime

本页介绍用于机器学习的 Databricks Runtime,并提供有关如何创建使用它的经典计算资源的指南。

什么是用于机器学习的 Databricks Runtime?

用于机器学习的 Databricks Runtime (Databricks Runtime ML) 使用预构建的机器学习和深度学习基础结构(包括最常见的 ML 和 DL 库)自动创建计算资源。

Databricks Runtime ML 中已包含库

Databricks Runtime ML 包含各种常见的 ML 库。 该库使用每个发行版进行更新,以包括新功能和修复。

Databricks 已将一部分受支持的库指定为顶层库。 对于这些库,Databricks 提供了更快的更新节奏,可通过每个运行时版本更新到最新的包版本(除非存在依赖项冲突)。 Databricks 还为顶层库提供高级支持、测试以及嵌入式优化。 顶级库只有在主要版本更新时才会添加或删除。

可以安装其他库,为笔记本或计算资源创建自定义环境。

  • 若要使库可用于在计算资源上运行的所有笔记本,请创建一个计算范围库。 还可以使用 init 脚本 在创建计算期间安装库。
  • 若要安装仅供特定笔记本会话使用的库,请使用笔记本范围的 Python 库

使用用于 ML 的 Databricks Runtime 创建计算资源

若要创建使用 Databricks Runtime for ML 的计算资源,请在创建计算 UI 中选择 机器学习 复选框。 这会自动将访问模式设置为专用,并将您的帐户作为专用用户。 可以在创建计算 UI 的 “高级 ”部分中手动将计算资源分配给其他用户或组。

对于基于 GPU 的计算,请在 辅助角色类型 下拉菜单中选择启用了 GPU 的实例类型。 有关支持的 GPU 类型的完整列表,请参阅支持的实例类型

Photon 和 Databricks Runtime ML

创建运行 Databricks Runtime 15.2 ML 或更高版本的计算资源时,可以选择启用 Photon。 Photon 可以提高使用 Spark SQL、Spark 数据帧、功能工程、GraphFrames 和 xgboost4j 的应用程序的性能。 预计不会提高使用 Spark RDD、Pandas UDF 和非 JVM 语言(例如 Python)的应用程序的性能。 因此,使用 Photon 不会提高 Python 包(例如 XGBoost、PyTorch 和 TensorFlow)的性能。

Spark RDD API 和 Spark MLlib 与 Photon 的兼容性有限。 使用 Spark RDD 或 Spark MLlib 处理大型数据集时,可能会遇到 Spark 内存问题。 请参阅 Spark 内存问题

Databricks Runtime ML 的计算访问模式

若要在运行 Databricks Runtime ML 的计算资源上访问 Unity 目录中的数据,必须将访问模式设置为 “专用”。 选择 “机器学习 ”复选框时,将在创建计算 UI 中自动设置访问模式。

当计算资源具有 专用 访问模式时,可以将资源分配给单个用户或组。 分配给组时,用户的权限会自动缩小到组的权限范围,使用户能够安全地与组的其他成员共享资源。