对自动化 ML 试验进行故障排除
适用范围:Azure CLI ml 扩展 v2(最新版)Python SDK azure-ai-ml v2(最新版)
在本指南中,了解如何识别和解决自动化机器学习试验中的问题。
对工作室中适用于图像和 NLP 的自动化 ML 进行故障排除
如果适用于图像和 NLP 的自动化 ML 出现作业失败的情况,可以通过以下步骤了解错误。
- 在工作室 UI 中,AutoML 作业应包含一条失败消息,指示失败原因。
- 如需更多详细信息,请转到此 AutoML 作业的子作业。 此子运行是 HyperDrive 作业。
- 在“试用”选项卡中,可以检查为此 HyperDrive 运行完成的所有试用。
- 转到失败的试用作业。
- 这些作业应在“概述”选项卡的“状态”部分显示一条错误消息,指示失败原因。 请选择“查看更多详细信息”以获取有关失败的更多详细信息。
- 此外还可以在“输出 + 日志”选项卡中查看“std_log.txt”,以查看详细的日志和异常跟踪。
如果自动化 ML 运行使用管道运行进行试用,请按以下步骤了解错误。
- 请按照上面的步骤 1-4 确定失败的试用作业。
- 此运行应显示管道运行,管道中的失败节点标记为红色。
- 选择管道中的失败节点。
- 这些作业应在“概述”选项卡的“状态”部分显示一条错误消息,指示失败原因。 请选择“查看更多详细信息”以获取有关失败的更多详细信息。
- 可以在“输出 + 日志”选项卡中查看“std_log.txt”,以查看详细的日志和异常跟踪。