模型训练示例

本部分包含的示例介绍如何在 Azure Databricks 上使用很多常用的开源库训练机器学习模型。

还可使用 AutoML,它可自动准备用于训练模型的数据集、使用开源库(如 scikit-learn 和 XGBoost)执行一组试验,并使用每次试验运行的源代码创建一个 Python 笔记本,以便你查看、重现和修改代码。

有关演示如何训练使用 Unity Catalog 中的数据的机器学习模型并将预测写回 Unity Catalog 的示例笔记本,请参阅使用 Unity Catalog 训练和注册机器学习模型

机器学习示例

笔记本 功能
scikit-learn 机器学习教程 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化
scikit-learn 端到端示例 分类模型、MLflow、通过 Hyperopt 和 MLflow 实现的自动超参数优化、XGBoost、模型注册表、模型处理
MLlib MLlib 示例 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器
xgboost XGBoost 示例 Python、PySpark 和 Scala、单节点工作负载和分布式训练

超参数优化示例

有关 Azure Databricks 中超参数优化的常规信息,请参阅超参数优化

笔记本 功能
Hyperopt 分布式 hyperopt 分布式 hyperopt、scikit-learn、MLflow
Hyperopt 比较模型 使用分布式 hyperopt 同时搜索不同模型类型的超参数空间
Hyperopt 分布式训练算法和 hyperopt Hyperopt、MLlib
Hyperopt Hyperopt 最佳做法 不同大小的数据集的最佳做法