机器学习

本部分包含的示例笔记本介绍如何在 Azure Databricks 中使用最常用的包来训练模型。

scikit-learn

scikit-learn 是单节点机器学习最常用的 Python 库之一。 它包含在 Databricks Runtime 和 Databricks Runtime ML 中。 请参阅 Databricks 运行时发行说明,了解群集运行时随附的 scikit-learn 库版本。

MLlib

Apache Spark MLlib 是 Apache Spark 机器学习库,由常见学习算法和实用程序(包括分类、回归、聚集、协作筛选、维数约简以及底层优化基元)组成。

XGBoost

XGBoost 是一个常用的机器学习库,专门用于训练决策树和随机林。 它包含在 Databricks Runtime ML 中。 有关在 Databricks Runtime 上安装 XGBoost 或在 Databricks Runtime ML 上安装一个自定义版本的信息,请参阅这些说明

可在单独的计算机上或以分布方式训练 XGBoost 模型。