模型训练示例
本部分包含的示例介绍如何在 Azure Databricks 上使用很多常用的开源库训练机器学习模型。
还可使用 AutoML,它可自动准备用于训练模型的数据集、使用开源库(如 scikit-learn 和 XGBoost)执行一组试验,并使用每次试验运行的源代码创建一个 Python 笔记本,以便你查看、重现和修改代码。
机器学习示例
包 | 笔记本 | 功能 |
---|---|---|
scikit-learn | 机器学习教程 | Unity Catalog, 分类模型, MLflow, 通过 Hyperopt 和 MLflow 实现的自动超参数优化 |
scikit-learn | 端到端示例 | Unity Catalog, 分类模型, MLflow, 通过 Hyperopt 和 MLflow 实现的自动超参数优化, XGBoost |
MLlib | MLlib 示例 | 二元分类、决策树、GBT 回归、结构化流式处理、自定义转换器 |
xgboost | XGBoost 示例 | Python、PySpark 和 Scala、单节点工作负载和分布式训练 |
超参数优化示例
有关 Azure Databricks 中超参数优化的常规信息,请参阅超参数优化。
包 | 笔记本 | 功能 |
---|---|---|
Optuna | Optuna 入门 | Optuna、分布式 Optuna、scikit-learn、MLflow |
Hyperopt | 分布式 hyperopt | 分布式 hyperopt、scikit-learn、MLflow |
Hyperopt | 比较模型 | 使用分布式 hyperopt 同时搜索不同模型类型的超参数空间 |
Hyperopt | 分布式训练算法和 hyperopt | Hyperopt、MLlib |
Hyperopt | Hyperopt 最佳做法 | 不同大小的数据集的最佳做法 |