在 Azure 机器学习中提交 Spark 作业

适用范围：Azure CLI ml 扩展 v2（最新版）Python SDK azure-ai-ml v2（最新版）

Azure 机器学习支持提交独立的机器学习作业，以及创建涉及多个机器学习工作流步骤的机器学习管道。 Azure 机器学习处理独立的 Spark 作业创建，以及可供 Azure 机器学习管道使用的可重用 Spark 组件的创建。本文介绍如何使用以下方式提交 Spark 作业：

Azure 机器学习工作室 UI
Azure 机器学习 CLI
Azure 机器学习 SDK

有关 Azure 机器学习中 Apache Spark 概念的详细信息，请访问此资源。

先决条件

适用于：Azure CLI ml 扩展 v2（当前）

Azure 订阅；如果没有 Azure 订阅，请在开始前创建试用版帐户。
一个 Azure 机器学习工作区。有关详细信息，请访问创建工作区资源。
创建 Azure 机器学习计算实例。
安装 Azure 机器学习 CLI。
（可选）：Azure 机器学习工作区中附加的 Synapse Spark 池。

使用 CLI v2 附加用户分配的托管标识

创建 YAML 文件，该文件用于定义应附加到工作区的用户分配的托管标识：

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

使用--file参数，使用az ml workspace update命令中的 YAML 文件以附加用户分配的托管标识：

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

使用 `ARMClient` 附加用户分配的托管标识

安装ARMClient，这是调用 Azure 资源管理器 API 的简单命令行工具。

创建 JSON 文件，该文件用于定义应附加到工作区的用户分配的托管标识：

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

若要将用户分配的托管标识附加到工作区，请在 PowerShell 提示符或命令提示符下执行以下命令。

armclient PATCH https://management.chinacloudapi.cn/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

注意

为确保成功执行 Spark 作业，请将用于数据输入和输出的 Azure 存储帐户上的“参与者”和“存储 Blob 数据参与者”角色分配给 Spark 作业所使用的标识
应在 Azure Synapse 工作区中启用公用网络访问，确保使用附加的 Synapse Spark 池成功执行 Spark 作业。
无服务器 Spark 计算支持 Azure 机器学习托管虚拟网络。如果为无服务器 Spark 计算预配了托管网络，则还应为存储帐户预配相应的专用终结点，以确保数据访问。

提交独立的 Spark 作业

在针对 Python 脚本参数化进行必要的更改后，可以使用通过交互式数据整理开发的 Python 脚本提交批处理作业，以处理更大量的数据。可以将数据整理批处理作业作为独立的 Spark 作业提交。

Spark 作业需要采用参数的 Python 脚本。可以修改最初通过交互式数据整理开发的 Python 代码，以开发该脚本。此处显示了一个示例 Python 脚本。

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

注意

此 Python 代码示例使用 pyspark.pandas。只有 Spark 运行时版本 3.2 或更高版本才支持此功能。

此脚本采用两个参数，分别传递输入数据和输出文件夹的路径：

--titanic_data
--wrangled_data

适用于：Azure CLI ml 扩展 v2（当前）

若要创建作业，可以将独立的 Spark 作业定义为 YAML 规范文件，该文件可以在带有 --file 参数的 az ml job create 命令中使用。在 YAML 文件中定义这些属性：

Spark 作业规范中的 YAML 属性

type - 设置为 spark。
code - 定义包含此作业的源代码和脚本的文件夹的位置。
entry - 定义作业的入口点。它应涵盖以下属性之一：
- file - 定义用作作业入口点的 Python 脚本的名称。
- class_name - 定义用作作业入口点的类的名称。
py_files - 定义要放置在 PYTHONPATH 中的 .zip、.egg 或 .py 文件的列表，以便成功执行作业。此属性是可选的。
jars - 定义要包含在 Spark 驱动程序和执行程序 CLASSPATH 上的 .jar 文件列表，以便成功执行作业。此属性是可选的。
files - 定义应复制到每个执行程序的工作目录的文件列表，以便成功执行作业。此属性是可选的。
archives - 定义应提取到每个执行程序的工作目录中的存档列表，以便成功执行作业。此属性是可选的。
conf - 定义以下 Spark 驱动程序和执行程序属性：
- spark.driver.cores：Spark 驱动程序的核心数。
- spark.driver.memory：为 Spark 驱动程序分配的内存，以千兆字节 (GB) 为单位。
- spark.executor.cores：Spark 执行程序的核心数。
- spark.executor.memory：Spark 执行程序的内存分配，以千兆字节 (GB) 为单位。
- spark.dynamicAllocation.enabled - 是否应动态分配执行程序，作为 True 或 False 值。
- 如果启用了执行程序的动态分配，请定义以下属性：
  - spark.dynamicAllocation.minExecutors - 用于动态分配的 Spark 执行程序实例的最小数目。
  - spark.dynamicAllocation.maxExecutors - 用于动态分配的 Spark 执行程序实例的最大数目。
- 如果禁用了执行程序的动态分配，请定义此属性：
  - spark.executor.instances - Spark 执行程序实例的数目。
environment - 用于运行作业的 Azure 机器学习环境。
args - 应传递给作业入口点 Python 脚本的命令行参数。有关示例，请查看此处提供的 YAML 规范文件。
resources - 此属性定义 Azure 机器学习无服务器 Spark 计算要使用的资源。它使用以下属性：
- instance_type - 要用于 Spark 池的计算实例类型。目前支持以下实例类型：
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - 定义 Spark 运行时版本。当前支持以下 Spark 运行时版本：
  - 3.3
  - 3.4
    重要
    
    适用于 Apache Spark 的 Azure Synapse 运行时：公告
    - 适用于 Apache Spark 3.3 的 Azure Synapse 运行时：
      
      EOLA 公告日期：2024 年 7 月 12 日
      
      支持终止日期：2025 年 3 月 31 日。在此日期之后，将会禁用运行时。
    - 为了获取持续支持和最佳性能，建议迁移到 Apache Sark 3.4。
这是一个示例 YAML 文件：
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - 此属性定义附加的 Synapse Spark 池的名称，如本例所示：
```
compute: mysparkpool
```
inputs - 此属性定义 Spark 作业的输入。 Spark 作业的输入可以是文本值，也可以是存储在文件或文件夹中的数据。
- 文本值可以是数字、布尔值或字符串。下面显示了一些示例：
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- 应使用以下属性定义存储在文件或文件夹中的数据：
  - type - 对于包含在文件或文件夹中的输入数据，将此属性分别设置为 uri_file 或 uri_folder。
  - path - 输入数据的 URI，例如 azureml://、abfss:// 或 wasbs://。
  - mode - 将此属性设置为 direct。此示例显示了作业输入的定义，可称为$${inputs.titanic_data}}：
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - 此属性定义 Spark 作业输出。 Spark 作业的输出可以写入文件或文件夹位置，这是使用以下三个属性定义的：
- type - 可以将此属性设置为 uri_file 或 uri_folder，以分别将输出数据写入文件或文件夹。
- path - 此属性定义输出位置 URI，例如 azureml://、abfss:// 或 wasbs://。
- mode - 将此属性设置为 direct。此示例显示作业输出的定义，可以将其称为 ${{outputs.wrangled_data}}：
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - 此可选属性定义用于提交此作业的标识。它可以有 user_identity 和 managed 值。如果 YAML 规范未定义标识，则 Spark 作业将使用默认标识。

独立 Spark 作业

此示例 YAML 规范显示了一个独立的 Spark 作业。它使用 Azure 机器学习无服务器 Spark 计算：

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

注意

若要使用附加的 Synapse Spark 池，请在上面所示的示例 YAML 规范文件中定义 compute 属性，而不是 resources 属性。

如下所示，可以在带有 --file 参数的 az ml job create 命令中使用上面显示的 YAML 文件，以创建独立的 Spark 作业：

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

可从以下位置执行上述命令：

Azure 机器学习计算实例终端。
连接到 Azure 机器学习计算实例的 Visual Studio Code 终端。
安装了 Azure 机器学习 CLI 的本地计算机。

适用范围：Python SDK azure-ai-ml v2（最新版）

使用 Python SDK 的独立 Spark 作业

若要创建独立的 Spark 作业，请使用带有以下参数的 azure.ai.ml.spark 函数：

name - Spark 作业的名称。
display_name - 应在 UI 和其他位置显示的 Spark 作业的显示名称。
code - 包含此作业的源代码和脚本的文件夹的位置。
entry - 作业的入口点。它应该是一个定义文件入口点的字典。
py_files - 要放置在 PYTHONPATH 中的 .zip、.egg 或 .py 文件的列表，以便成功执行作业。此参数是可选的。
jars - 要包含在 Spark 驱动程序和执行程序 CLASSPATH 上的 .jar 文件列表，以便成功执行作业。此参数是可选的。
files - 应复制到每个执行程序的工作目录的文件列表，以便成功执行作业。此参数是可选的。
archives - 自动提取并放置在每个执行程序的工作目录中的存档列表，以便成功执行作业。此参数是可选的。
conf - 包含预定义 Spark 配置键值对的字典。
driver_cores：为 Spark 驱动程序分配的核心数。
driver_memory：为 Spark 驱动程序分配的内存，大小单位后缀为 k、m、g 或 t（例如 512m、2g）。
executor_cores：为 Spark 执行程序分配的核心数。
executor_memory：为 Spark 执行程序分配的内存，大小单位后缀为 k、m、g 或 t（例如 512m、2g）。
dynamic_allocation_enabled - 一个布尔参数，用于定义是否应动态分配执行程序。
- 如果启用了执行程序的动态分配，请定义以下参数：
  - dynamic_allocation_min_executors - 用于动态分配的 Spark 执行程序实例的最小数目。
  - dynamic_allocation_max_executors - 用于动态分配的 Spark 执行程序实例的最大数目。
- 如果禁用了执行程序的动态分配，请定义以下参数：
  - executor_instances - Spark 执行程序实例的数目。
  - environment - 运行作业的 Azure 机器学习环境。此参数应传递：
    - azure.ai.ml.entities.Environment 的对象或 Azure 机器学习环境名称（字符串）。
args - 应传递给作业入口点 Python 脚本的命令行参数。有关示例，请参阅下面提供的示例代码。
resources - Azure 机器学习无服务器 Spark 计算要使用的资源。此参数应通过以下项传递字典：
- instance_type - 定义用于无服务器 Spark 计算的计算实例类型的键。目前支持以下实例类型：
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - 定义 Spark 运行时版本的键。当前支持以下 Spark 运行时版本：
  - 3.3.0
  - 3.4.0
    重要
    
    适用于 Apache Spark 的 Azure Synapse 运行时：公告
    - 适用于 Apache Spark 3.3 的 Azure Synapse 运行时：
      
      EOLA 公告日期：2024 年 7 月 12 日
      
      支持终止日期：2025 年 3 月 31 日。在此日期之后，将会禁用运行时。
    - 为了获取持续支持和最佳性能，建议迁移到 Apache Sark 3.4。
compute - 附加的 Synapse Spark 池的名称。
inputs - Spark 作业的输入。此参数应传递一个字典，其中包含作业中使用的输入数据绑定的映射。此字典具有以下值：
- 字典键定义输入名称
- 相应的值可能是：
  - 文本值：整数、数字、布尔值或字符串。
  - 类azure.ai.ml.Input的对象，具有以下参数：
    - type - 对于包含在文件或文件夹中的输入数据，将此参数分别设置为 uri_file 或 uri_folder。
    - path - 输入数据的 URI，例如 azureml://、abfss:// 或 wasbs://。
    - mode - 将此参数设置为 direct。
outputs - Spark 作业的输出。此参数应传递一个字典，其中包含作业中使用的输出数据绑定的映射。此字典具有以下值：
- 字典键定义输出名称
- 相应的值是类 azure.ai.ml.Output 的对象，具有以下参数：
  - type - 将此参数设置为 uri_file 或 uri_folder，分别用于输出数据文件或文件夹。
  - path - 输出数据的 URI，例如 azureml://、abfss:// 或 wasbs://。
  - mode - 将此参数设置为 direct。
identity - 一个可选参数，定义用于提交此作业的标识。允许的值分别是
- azure.ai.ml.entities.UserIdentityConfiguration 或
- 用户标识和托管标识的 azure.ai.ml.entities.ManagedIdentityConfiguration 类对象。如果没有定义标识，则 Spark 作业将使用默认标识。

可从以下位置提交独立的 Spark 作业：

连接到 Azure 机器学习计算实例的 Azure 机器学习笔记本。
连接到 Azure 机器学习计算实例的 Visual Studio Code。
安装了适用于 Python 的 Azure 机器学习 SDK 的本地计算机。

此 Python 代码片段显示如何使用用户标识通过 Azure 机器学习无服务器 Spark 计算创建独立 Spark 作业。

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

注意

若要使用附加的 Synapse Spark 池，请在 azure.ai.ml.spark 函数中定义 compute 参数，而不是 resources 参数。

从 Azure 机器学习工作室 UI（预览）提交独立的 Spark 作业

重要

此功能目前处于公开预览状态。此预览版在提供时没有附带服务级别协议，我们不建议将其用于生产工作负荷。某些功能可能不受支持或者受限。

有关详细信息，请参阅适用于 Azure 预览版的补充使用条款。

使用 Azure 机器学习工作室 UI 提交独立的 Spark 作业：

显示在 Azure 机器学习工作室 UI 中创建新 Spark 作业的屏幕截图。

在屏幕右上方附近，选择“+ 新建”。
选择“Spark 作业(预览版)”。
在“计算”屏幕上：

显示 Azure 机器学习工作室 UI 中新 Spark 作业的计算选择屏幕的屏幕截图。

在“选择计算类型”下，为无服务器 Spark 计算选择“Spark 无服务器”，或为附加的 Synapse Spark 池选择“附加计算”。
如果选择了“Spark 无服务器”：
1. 选择“虚拟机大小”。
2. 选择“Spark 运行时版本”。
  重要
  
  适用于 Apache Spark 的 Azure Synapse 运行时：公告
  - 适用于 Apache Spark 3.3 的 Azure Synapse 运行时：
    - EOLA 公告日期：2024 年 7 月 12 日
    - 支持终止日期：2025 年 3 月 31 日。在此日期之后，将会禁用运行时。
  - 为了获取持续支持和最佳性能，建议迁移到 Apache Sark 3.4。
如果选择了“附加计算”，请执行以下操作：
1. 从“选择 Azure 机器学习附加计算”菜单中选择附加的 Synapse Spark 池。
选择“下一步”。
在“环境”屏幕上：
1. 从列表中选择一个可用环境。环境选择是可选的。
2. 选择“下一步”。
在“作业设置”屏幕上：
1. 为作业提供名称。可以使用默认生成的作业名称。
2. 从下拉菜单中选择“试验名称”。
3. 在“添加标记”下，提供“名称”和“值”，然后选择“添加”。添加标记是可选操作。
4. 在代码部分下：
  1. 从“选择代码位置”下拉列表中选择一个选项。选择“上传本地文件”或“Azure 机器学习工作区默认 Blob 存储”。
  2. 如果选择了“选择代码位置”，请执行以下操作：
    - 选择“浏览”，然后导航到本地计算机上包含代码文件的位置。
  3. 如果选择了“Azure 机器学习工作区默认 Blob 存储”，请执行以下操作：
    1. 在“要上传的代码文件的路径”下，选择“浏览”。
    2. 在标题为“路径选择”的弹出屏幕中，选择工作区默认 Blob 存储中代码文件的路径。
    3. 选择“保存”。
  4. 为独立作业输入“入口文件”的名称。此文件应包含采用参数的 Python 代码。
  5. 若要添加独立作业在运行时所需的任何其他 Python 文件，请在“Py 文件”下选择“+ 添加文件”，然后输入放置在 PYTHONPATH 中才能成功执行作业的 .zip、.egg 或 .py 文件的名称。可以添加多个文件。
  6. 若要添加独立作业在运行时所需的任何其他 Jar 文件，请在“Jar”下选择“+ 添加文件”，然后输入要添加到 Spark 驱动程序中的 .jar 文件的名称。此外，请添加执行程序 CLASSPATH 以便成功执行作业。可以添加多个文件。
  7. 若要将应提取的存档添加到每个执行程序的工作目录中以成功执行作业，请在“存档”下选择“+ 添加文件”，然后输入存档的名称。可以添加多个存档。
  8. 添加 Py 文件、Jars 和存档是可选操作。
  9. 要添加输入，请在“输入”下选择“+ 添加输入”并
    1. 输入“输入名称”。输入应稍后在“参数”中引用此名称。
    2. 选择输入类型。
    3. 对于“数据”类型：
      1. 选择“文件”或“文件夹”作为“数据类型”。
      2. 选择“从本地上传”、“URI”或“数据存储”作为“数据源”。
        
        对于“从本地上传”，选择“上传路径”下的“浏览”以选择输入文件或文件夹。
        
        对于“URI”，请输入存储数据 URI（例如 abfss:// 或 wasbs:// URI），或输入数据资产 azureml://。
        
        对于“数据存储”：
        
        从下拉菜单中选择一个数据存储。
        
        在“数据路径”下，选择“浏览”。
        
        在标题为“路径选择”的弹出屏幕中，选择工作区默认 Blob 存储上的代码文件的路径。
        
        选择“保存”。
      3. 对于“整数”类型，请输入整数值作为“输入值”。
      4. 对于“数字”类型，请输入一个数值作为“输入值”。
      5. 对于“布尔”类型，请选择 True 或 False 作为“输入值”。
      6. 对于“字符串”类型，请输入一个字符串作为“输入值”。
    4. 若要添加输入，请在“输出”下选择“+ 添加输出”
      1. 输入“输出名称”。输出应稍后在“参数”中引用此名称。
      2. 选择“文件”或“文件夹”作为“输出类型”。
      3. 对于“输出 URI 目标”，请输入存储数据 URI（例如 abfss:// 或 wasbs:// URI）或输入数据资产 azureml://。
    5. 使用前面步骤中“输入名称”和“输出名称”字段中定义的名称以及 Python 脚本“条目文件”中使用的输入和输出参数的名称来输入“参数”。例如，如果“输入名称”和“输出名称”定义为 job_input 和 job_output，并且参数添加到“条目文件”中，如下所示
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    则输入“参数”作为 --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}。
    1. 在“Spark 配置”部分下：
      1. 对于“执行程序大小”：
        
        输入执行程序核心数目和执行程序内存 (GB)，以千兆字节为单位。
        
        对于“动态分配的执行程序”，请选择“已禁用”或“已启用”选项。
        
        如果执行程序的动态分配已禁用，请输入执行程序实例的数量。
        
        如果执行程序的动态分配已启用，请使用滑块选择最小和最大执行程序数。
      2. 对于“驱动程序大小”：
        
        输入驱动程序核心数和驱动程序内存 (GB)（以 GB 为单位）。
        
        为任何“附加配置”输入“名称”和“值”对，然后选择“添加”。可以选择提供“其他配置”。
      3. 选择下一步。
  10. 在“评审”屏幕上：
    1. 提交作业规范前先查看作业规范。
    2. 选择“创建”以提交独立 Spark 作业。

管道作业中的 Spark 组件

使用 Spark 组件可在多个 Azure 机器学习管道中灵活地使用同一组件作为管道步骤。

适用于：Azure CLI ml 扩展 v2（当前）

Spark 组件的 YAML 语法在大多数方面类似于 Spark 作业规范的 YAML 语法。这些属性在 Spark 组件 YAML 规范中的定义不同：

name - Spark 组件的名称。
version - Spark 组件的版本。
display_name - 要显示在 UI 和其他位置的 Spark 组件的名称。
description - Spark 组件的说明。
inputs - 此属性类似于 Spark 作业规范的 YAML 语法中描述的 inputs 属性，只是它不定义 path 属性。以下代码片段显示了 Spark 组件 inputs 属性的示例：
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs - 此属性类似于 Spark 作业规范的 YAML 语法中描述的 outputs 属性，只是它不定义 path 属性。以下代码片段显示了 Spark 组件 outputs 属性的示例：
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

注意

Spark 组件不定义 identity、compute 或 resources 属性。管道 YAML 规范文件定义这些属性。

此 YAML 规范文件提供 Spark 组件的示例：

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

可以在 Azure 机器学习管道作业中使用在上述 YAML 规范文件中定义的 Spark 组件。请访问管道作业 YAML 架构资源，以详细了解定义管道作业的 YAML 语法。此示例显示了管道作业的 YAML 规范文件，其中包含 Spark 组件和 Azure 机器学习无服务器 Spark 计算：

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

注意

若要使用附加的 Synapse Spark 池，请在上面所示的示例 YAML 规范文件中定义 compute 属性，而不是 resources 属性。

如下所示，可以在带有 --file 参数的 az ml job create 命令中使用上述 YAML 规范文件，以创建管道作业：

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

可从以下位置执行上述命令：

Azure 机器学习计算实例终端。
安装了 Azure 机器学习 CLI 的本地计算机。

适用范围：Python SDK azure-ai-ml v2（最新版）

使用 Spark 组件创建 Azure 机器学习管道时，涉及使用 Python SDK 从组件创建 Azure 机器学习管道。 Spark 组件是使用 azure.ai.ml.spark 函数创建的。函数参数的定义方式与独立 Spark 作业的定义方式几乎相同。 Spark 组件的这些参数定义不同：

name - Spark 组件的名称。
display_name - 显示在 UI 中以及显示在其他位置的 Spark 组件的名称。
inputs - 此参数类似于为独立 Spark 作业描述的 inputs 参数，不同之处在于 azure.ai.ml.Input 类实例化时不使用 path 参数。
outputs - 此参数类似于为独立 Spark 作业描述的 outputs 参数，不同之处在于 azure.ai.ml.Output 类实例化时不使用 path 参数。

注意

使用 azure.ai.ml.spark 函数创建的 Spark 组件不定义 identity、compute 或 resources 参数。 Azure 机器学习管道定义这些参数。

可从以下位置提交包含 Spark 组件的管道作业：

连接到 Azure 机器学习计算实例的 Azure 机器学习笔记本。
连接到 Azure 机器学习计算实例的 Visual Studio Code。
安装了适用于 Python 的 Azure 机器学习 SDK 的本地计算机。

此 Python 代码片段演示了如何使用托管标识和创建 Azure 机器学习管道作业。此外还演示了如何使用 Spark 组件和 Azure 机器学习托管（自动）Synapse 计算：

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

注意

若要使用附加的 Synapse Spark 池，请在 azure.ai.ml.spark 函数中定义 compute 参数，而不是定义 resources 参数。例如，在上面所示的代码示例中，定义 spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" 而不是定义 spark_step.resources。

排查 Spark 作业问题

若要排查 Spark 作业问题，可以在 Azure 机器学习工作室中访问为该作业生成的日志。若要查看 Spark 作业的日志，请执行以下操作：

导航到 Azure 机器学习工作室 UI 左侧面板中的“作业”
选择“所有作业”选项卡
选择作业的“显示名称”值
在作业详细信息页上，选择“输出 + 日志”选项卡
在文件资源管理器中，展开 logs 文件夹，然后展开 azureml 文件夹
访问 driver 和 library manager 文件夹中的 Spark 作业日志

注意

若要对在笔记本会话中交互式数据整理期间创建的 Spark 作业进行故障排除，请选择笔记本 UI 右上角附近的“作业详细信息”。交互式笔记本会话中的 Spark 作业是在试验名称 notebook-runs 下创建的。

后续步骤

Last updated on 2026-01-04

通过

在 Azure 机器学习中提交 Spark 作业

先决条件

使用 CLI v2 附加用户分配的托管标识

使用 ARMClient 附加用户分配的托管标识

提交独立的 Spark 作业

Spark 作业规范中的 YAML 属性

独立 Spark 作业

管道作业中的 Spark 组件

排查 Spark 作业问题

后续步骤

其他资源

使用 `ARMClient` 附加用户分配的托管标识