配置和提交训练作业

重要

本文提供有关使用 Azure Machine Learning SDK v1 的信息。 SDK v1 自 2025 年 3 月 31 日起弃用。对它的支持将于 2026 年 6 月 30 日结束。可以在该日期之前安装和使用 SDK v1。使用 SDK v1 的现有工作流将在支持结束日期后继续运行。但是，在产品发生体系结构更改时，可能会面临安全风险或中断性变更。

建议在 2026 年 6 月 30 日之前过渡到 SDK v2。有关 SDK v2 的详细信息，请参阅什么是 Azure Machine Learning CLI 和 Python SDK v2？和 SDK v2 参考。

小窍门

对于新项目，请改用 SDK v2。有关在包中使用等效工作流CommandJob，请参阅azure-ai-ml）。

本文介绍如何配置和提交Azure Machine Learning作业以训练模型。代码片段说明了配置和提交训练脚本的关键部分。若要查找完整的端到端工作示例，请参阅示例笔记本之一。

训练时，通常在本地计算机上启动，然后横向扩展到基于云的群集。通过使用 Azure Machine Learning，可以在各种计算目标上运行脚本，而无需更改训练脚本。

只需在脚本作业配置中为每个计算目标定义环境即可。若之后想要在不同的计算目标上运行训练实验，则可以指定该计算的作业配置。

先决条件

如果没有Azure订阅，请在开始之前创建一个试用订阅。立即尝试试用版订阅
Azure Machine Learning SDK for Python （v1）（>= 1.13.0） - SDK v1 已弃用。对于新项目，请使用 SDK v2。
Azure Machine Learning 工作区，ws。
计算目标 my_compute_target。创建计算目标。

什么是脚本运行配置？

ScriptRunConfig 用于配置试验过程中提交训练作业时所需的信息。

使用 ScriptRunConfig 对象提交训练实验。此对象包含：

source_directory：包含训练脚本的源目录
script：要运行的训练脚本
compute_target：要在其上运行的计算目标
environment：运行脚本时要使用的环境
其他可配置选项（有关详细信息，请参阅参考文档）

训练模型

对于所有类型的计算目标，用于提交训练作业的代码模式都是相同的：

创建要运行的试验
创建运行脚本的环境
创建 ScriptRunConfig，它指定计算目标和环境
提交作业
等待作业完成

或者您可以：

提交用于超参数优化的 HyperDrive 运行。
通过 VS Code 扩展提交试验。

选择计算目标

选择运行训练脚本的计算目标。如果未在 ScriptRunConfig 中指定计算目标，或者如果 compute_target='local'，Azure Machine Learning在本地执行脚本。

本文中的示例代码假设你已创建了“先决条件”部分的计算目标 my_compute_target。

注意

Azure Databricks不支持作为模型训练的计算目标。可以使用Azure Databricks执行数据准备和部署任务。
若要创建并附加用于在启用了Azure Arc的 Kubernetes 群集上进行训练的计算目标，请参阅配置已启用Azure Arc的 Machine Learning

创建环境

Azure Machine Learning 环境是机器学习训练发生的环境的封装。它们围绕训练和评分脚本指定Python包、Docker 映像、环境变量和软件设置。它们还指定运行时（Python、Spark 或 Docker）。

可以定义自己的环境，也可以使用Azure Machine Learning特选环境。特选环境是默认情况下在工作区中可用的预定义环境。这些环境由缓存的 Docker 映像支持，降低了作业准备成本。有关可用特选环境的完整列表，请参阅 Azure Machine Learning特选环境。

对于远程计算目标，可以从使用以下常用特选环境之一开始：

适用于：Python 的 Azure 机器学习 SDK v1

from azureml.core import Workspace, Environment

ws = Workspace.from_config()
myenv = Environment.get(workspace=ws, name="AzureML-Minimal")

有关环境的更多详细信息，请参阅在 Azure 机器学习中创建和使用软件环境。

本地计算目标

如果你的计算目标是“local machine”，那么你有责任确保运行脚本的 Python 环境中具备所有必要的包。使用 python.user_managed_dependencies 使用当前Python环境（或指定路径上的Python）。

适用于：Python 的 Azure 机器学习 SDK v1

from azureml.core import Environment

myenv = Environment("user-managed-env")
myenv.python.user_managed_dependencies = True

# You can choose a specific Python environment by pointing to a Python path 
# myenv.python.interpreter_path = '/home/johndoe/miniconda3/envs/myenv/bin/python'

创建试验

在工作区中创建实验。试验是一种轻型容器，可帮助组织作业提交和跟踪代码。

适用于：Python 的 Azure 机器学习 SDK v1

from azureml.core import Experiment

experiment_name = 'my_experiment'
experiment = Experiment(workspace=ws, name=experiment_name)

创建脚本作业配置

你已拥有计算目标（my_compute_target，请参阅先决条件）和环境（myenv，请参阅创建环境），现在可创建脚本作业配置，以运行位于 train.py 目录中的训练脚本 (project_folder)：

适用于：Python 的 Azure 机器学习 SDK v1

from azureml.core import ScriptRunConfig

src = ScriptRunConfig(source_directory=project_folder,
                      script='train.py',
                      compute_target=my_compute_target,
                      environment=myenv)

如果未指定环境，则会为你创建默认环境。

如果要将命令行参数传递给训练脚本，则可以通过 ScriptRunConfig 构造函数的 arguments 参数来指定这些参数，例如 arguments=['--arg1', arg1_val, '--arg2', arg2_val]。

如果要替代允许用于作业的默认最长时间，可以通过 max_run_duration_seconds 参数来实现。如果运行时间超过此值，系统会尝试自动取消作业。

指定分布式作业配置

若要运行分布式训练作业，请为 distributed_job_config 参数提供分布式作业特定配置。支持的配置类型包括 MpiConfiguration、TensorflowConfiguration 和 PyTorchConfiguration。

有关运行 Horovod、TensorFlow 和 PyTorch 分布式作业的详细信息和示例，请参阅：

在 Azure

提交实验

适用于：Python 的 Azure 机器学习 SDK v1

run = experiment.submit(config=src)
run.wait_for_completion(show_output=True)

重要

提交训练作业时，将创建包含训练脚本的目录快照并将其发送到计算目标。目录快照也作为试验的一部分存储在工作区中。如果更改文件并再次提交作业，则只会上传已更改的文件。

为了防止在快照中包含不必要的文件，请在目录中创建 ignore 文件（.gitignore 或 .amlignore）。将要排除的文件和目录添加到此文件中。有关此文件中使用的语法的详细信息，请参阅的.gitignore。 .amlignore 文件使用相同的语法。如果同时存在这两个文件，则会使用 .amlignore 文件，不会使用 .gitignore 文件。

有关快照的详细信息，请参阅快照。

重要

Special Folders 两个文件夹，outputs和logs，通过Azure Machine Learning接受特殊处理。在训练期间，将文件写入到与根目录相对的命名输出和日志的文件夹（./outputs 以及 ./logs分别）时，文件会自动上传到作业历史记录，以便在作业完成后有权访问它们。

若要在训练期间创建项目（例如模型文件、检查点、数据文件或绘图图像），请写入 ./outputs 文件夹。

同样，可以将训练作业中的任何日志写入 ./logs 文件夹。若要利用 Azure Machine Learning 的 TensorBoard 集成，请确保将 TensorBoard 日志写入此文件夹。作业正在进行时，可以启动 TensorBoard 并流式传输这些日志。稍后，您还可以从您的任何以前的任务中恢复日志。

例如，在远程训练作业完成后将写入 outputs 文件夹的文件下载到本地计算机：run.download_file(name='outputs/my_output_file', output_file_path='my_destination_path')

Git 跟踪与集成

如果启动训练作业（其中源目录为本地 Git 存储库），则存储库的相关信息会存储在作业历史记录中。有关详细信息，请参阅 Azure 机器学习的 Git 集成。

Notebook 示例

请参阅这些笔记本，以了解配置不同训练方案作业的示例。

阅读使用 Jupyter 笔记本探索此服务一文，了解如何运行笔记本。

疑难解答

AttributeError：“RoundTripLoader”对象没有属性“comment_handling”：当安装了不兼容版本的 ruamel-yaml 和 azureml-core 时，便会发生此错误。若要修复此错误，请升级到最新版本的 azureml-core： pip install -U azureml-core。
作业失败并出现jwt.exceptions.DecodeError：准确的错误消息jwt.exceptions.DecodeError: It is required that you pass in a value for the "algorithms" argument when calling decode()。

升级到最新版 azureml-core，该版本会自动将兼容的 PyJWT 版本固定为：pip install -U azureml-core
ModuleErrors （未命名的模块）：如果在提交Azure Machine Learning中的试验时遇到 ModuleErrors，则训练脚本需要安装包，但未添加它。提供包名称后，Azure Machine Learning在用于训练作业的环境中安装包。

使用 ScriptRunConfig时，请在环境定义中指定所需的包。可以通过conda_dependencies添加软件包，或者使用pip_requirements_file / conda_dependencies_file。有关详细信息，请参阅 “创建和使用软件环境”。

Azure Machine Learning维护的 Docker 映像及其内容可在 Azure Machine Learning 容器中看到。

注意

如果认为特定包很常见，足以添加到 Azure Machine Learning 维护的映像和环境中，请在 Azure Machine Learning 容器中提交 GitHub 问题。
NameError（未定义名称）、AttributeError（对象没有属性） ：此异常应该是训练脚本引发的。可以从 Azure 门户中查看日志文件，获取有关未定义的特定名称或属性错误的详细信息。在 SDK 中，可以使用 run.get_details() 来查看错误消息。这还会列出针对作业生成的所有日志文件。在重新提交作业之前，请务必查看训练脚本并修复错误。
Job 或试验存档：试验可以使用 Experiment.archive 方法存档，也可以在 Azure Machine Learning studio 客户端的“试验”选项卡视图中通过“存档试验”按钮进行存档。此操作从列表查询和视图隐藏试验，但不会将其删除。

目前不支持永久删除单个试验或作业。有关删除工作区资产的更多信息，请参阅导出或删除您的机器学习服务工作区数据。
Metric Document 太大：Azure Machine Learning对可从训练作业一次记录的指标对象大小有内部限制。如果在记录列表值指标时遇到“指标文档太大”错误，请尝试将列表拆分为较小的区块，例如：
```
run.log_list("my metric name", my_metric[:N])
run.log_list("my metric name", my_metric[N:])
```
在内部，Azure Machine Learning将具有相同指标名称的块连接到连续列表中。
Compute 目标需要很长时间才能启动：从 Azure Container Registry（ACR）加载计算目标的 Docker 映像。默认情况下，Azure Machine Learning创建使用 basic 服务层级的 ACR。将工作区的 ACR 更改为标准层或高级层可能会缩短生成和加载映像所需的时间。有关详细信息，请参阅 Azure Container Registry 服务层级。

后续步骤

使用 Azure Machine Learning（SDK v2）训练模型介绍使用当前的 SDK 来完成等效的工作流。
教程：训练和部署模型使用托管计算目标来训练模型（SDK v1）。
了解如何使用特定的 ML 框架（如 Scikit-learn、TensorFlow 和 PyTorch）来训练模型。
若要构建更好的模型，请了解如何高效地优化超参数。
训练模型后，了解如何以及在何处部署模型。
查看 ScriptRunConfig 类 SDK 参考。
将Azure Machine Learning与Azure虚拟网络结合使用

Last updated on 2026-04-22

配置和提交训练作业

先决条件

什么是脚本运行配置？

训练模型

选择计算目标

创建环境

本地计算目标

创建试验

创建脚本作业配置

指定分布式作业配置

提交实验

Git 跟踪与集成

Notebook 示例

疑难解答

后续步骤

其他资源