机器学习
本部分包含的示例笔记本介绍如何在 Azure Databricks 中使用最常用的包来训练模型。
scikit-learn
scikit-learn 是单节点机器学习最常用的 Python 库之一。 它包含在 Databricks Runtime 和 Databricks Runtime ML 中。 请参阅 Databricks 运行时发行说明,了解群集运行时随附的 scikit-learn 库版本。
- Azure Databricks 中的机器学习入门
- 在 Azure Databricks 中开始使用 scikit-learn
- 在 Azure Databricks 上使用 scikit-learn 的端到端示例
MLlib
Apache Spark MLlib 是 Apache Spark 机器学习库,由常见学习算法和实用程序(包括分类、回归、聚集、协作筛选、维数约简以及底层优化基元)组成。
XGBoost
XGBoost 是一个常用的机器学习库,专门用于训练决策树和随机林。 它包含在 Databricks Runtime ML 中。 有关在 Databricks Runtime 上安装 XGBoost 或在 Databricks Runtime ML 上安装一个自定义版本的信息,请参阅这些说明。
可在单独的计算机上或以分布方式训练 XGBoost 模型。