在 Azure Databricks 上使用 Apache Spark MLlib

本页提供了演示如何在 Azure Databricks 上使用 MLlib 的示例笔记本。

Apache Spark MLlib 是 Apache Spark 机器学习库,由常见学习算法和实用程序(包括分类、回归、聚集、协作筛选、维数约简以及底层优化基元)组成。 对于 MLlib 功能的参考信息,Azure Databricks 建议使用以下 Apache Spark API 参考:

有关使用 R 中的 Apache Spark MLlib 的信息,请参阅 R 机器学习文档。

二元分类示例笔记本

此笔记本演示如何使用 Apache Spark MLlib 管道 API 生成二进制分类应用程序。

二进制分类笔记本

获取笔记本

决策树示例笔记本

这些示例演示了使用 Apache Spark 管道 API 的决策树的各种应用程序。

决策树

这些笔记本演示如何在决策树中执行分类。

数字识别笔记本的决策树

获取笔记本

SFO 调查笔记本的决策树

获取笔记本

使用 MLlib 管道的 GBT 回归

此笔记本演示如何使用 MLlib 管道通过渐变提升树来执行回归,从而根据一周中的某一天、天气、季节等信息预测自行车租金计费(每小时)。

自行车共享回归笔记本

获取笔记本

Apache Spark MLib 管道和结构化流式处理示例

此笔记本演示如何针对历史数据训练 Apache Spark MLlib 管道并将其应用于流式处理数据。

MLlib 管道结构化流式处理笔记本

获取笔记本

高级 Apache Spark MLlib 笔记本示例

此笔记本说明如何创建自定义转换器。

自定义转换器笔记本

获取笔记本