AutoML 通过自动查找最佳算法和超参数配置,简化了将机器学习应用到数据集的过程。
请提供数据集并指定机器学习问题的类型,然后 AutoML 便会执行以下操作:
清理和准备数据。
跨多个算法协调分布式模型训练和超参数调整。
使用 scikit-learn、xgboost、LightGBM、Prophet 和 ARIMA 中的开源评估算法查找最佳模型。
显示结果。 AutoML 还为每个试用版 生成源代码笔记本 ,使你可以根据需要查看、重现和修改代码。
通过低代码 UI 开始进行 AutoML 试验,适用于回归、分类或预测,或者使用Python API。
Azure Databricks 建议使用 Databricks Runtime 10.4 LTS ML 或更高版本以供 AutoML 正式发布。
AutoML 依赖于
databricks-automl-runtime
包,该包包含在 AutoML 之外有用的组件,还有助于简化 AutoML 训练生成的笔记本。 可在databricks-automl-runtime
中获取 。除了在用于机器学习的 Databricks Runtime 中预安装的库以外,群集上不应安装其他库。
- 对现有库版本的任何修改(删除、升级或降级)都会由于不兼容而导致运行失败。
若要访问工作区中的文件,必须为 AutoML 试验开启网络端口 1017 和 1021。 若要开启这些端口或确认它们已开启,请查看云 VPN 防火墙配置和安全组规则,或者联系本地云管理员。 有关工作区配置和部署的其他信息,请参阅 “创建工作区”。
使用具有受支持的 计算访问模式 的计算资源。 并非所有计算访问模式都有权访问 Unity Catalog:
计算机访问模式 AutoML 支持 Unity Catalog 支持 专用 (以前是单个用户) 支持 支持 标准 (以前共享) 不支持 支持 无隔离共享 支持 不支持
AutoML 根据下表中的算法训练和评估模型。
注意
对于分类和回归模型,决策树、随机林、逻辑回归和具有随机梯度下降算法的线性回归均基于 scikit-learn。
分类模型 | 回归模型 | 预测模型 |
---|---|---|
决策树 | 决策树 | 先知 |
随机林 | 随机林 | Auto-ARIMA(在 Databricks Runtime 10.3 ML 和更高版本中可用。) |
逻辑回归 | 具有随机梯度下降的线性回归 | |
XGBoost | XGBoost | |
LightGBM | LightGBM |
经典计算 AutoML 会在试用后生成源代码笔记本,以便你可以根据需要查看、重现和修改代码。
对于预测实验,AutoML 生成的笔记本会自动导入到工作区,用于实验的所有试验。
对于分类和回归实验,AutoML生成的用于数据探索的笔记本和试验中的最佳试验将会自动导入到您的工作空间。 为其他实验试验生成的笔记本作为 MLflow 项目保存在 DBFS 上,而不是自动导入到工作区。 对于除最佳试验之外的所有试验,notebook_path
Python API 中的 notebook_url
和 TrialInfo
均未设置。 如果需要使用这些笔记本,可以使用 AutoML 试验 UI 或 databricks.automl.import_notebook
Python API 手动将其导入工作区。
如果仅使用 AutoML 生成的数据浏览笔记本或最佳试用笔记本,则 AutoML 试验 UI 中的 “源 ”列包含指向生成的最佳试用笔记本的链接。
如果在 AutoML 试验 UI 中使用其他生成的笔记本,则这些笔记本不会自动导入工作区。 可以通过单击每个 MLflow 运行找到笔记本。 IPython 笔记本保存在运行页的 Artifacts 部分中。 如果工作区管理员启用了下载项目,则可以下载此笔记本并将其导入工作区。
注意
对于 MLR 11.1 及更低版本,如果数据集包含 datetime
列,则不会生成 SHAP 图。
AutoML 回归和分类运行生成的笔记本中包括用于计算 Shapley 值的代码。 Shapley 值基于博弈论,并估计每个特征对模型预测的重要性。
AutoML 笔记本使用 SHAP 包计算 Shapley 值。 由于这些计算会占用大量内存,因此默认情况下不会执行。
若要计算和显示 Shapley 值,请执行以下操作:
转到 AutoML 生成的试验笔记本中的“特征重要性”部分。
设置
shap_enabled = True
。重新运行该笔记本。