对自动化 ML 试验进行故障排除

适用范围:Azure CLI ml 扩展 v2(当前版本)Python SDK azure-ai-ml v2(当前版本)

在本指南中,了解如何识别和解决自动化机器学习试验中的问题。

对工作室中适用于图像和 NLP 的自动化 ML 进行故障排除

如果适用于图像和 NLP 的自动化 ML 出现作业失败的情况,可以通过以下步骤了解错误。

  1. 在工作室 UI 中,AutoML 作业应包含一条失败消息,指示失败原因。
  2. 如需更多详细信息,请转到此 AutoML 作业的子作业。 此子运行是 HyperDrive 作业。
  3. 在“试用”选项卡中,可以检查为此 HyperDrive 运行完成的所有试用。
  4. 转到失败的试用作业。
  5. 这些作业应在“概述”选项卡的“状态”部分显示一条错误消息,指示失败原因。 请选择“查看更多详细信息”以获取有关失败的更多详细信息。
  6. 此外还可以在“输出 + 日志”选项卡中查看“std_log.txt”,以查看详细的日志和异常跟踪。

如果自动化 ML 运行使用管道运行进行试用,请按以下步骤了解错误。

  1. 请按照上面的步骤 1-4 确定失败的试用作业。
  2. 此运行应显示管道运行,管道中的失败节点标记为红色。 Diagram that shows a failed pipeline job.
  3. 选择管道中的失败节点。
  4. 这些作业应在“概述”选项卡的“状态”部分显示一条错误消息,指示失败原因。 请选择“查看更多详细信息”以获取有关失败的更多详细信息。
  5. 可以在“输出 + 日志”选项卡中查看“std_log.txt”,以查看详细的日志和异常跟踪。

后续步骤