CLI (v2) 功能集 YAML 架构

适用于:Azure CLI ml 扩展 v2(当前)

注意

本文档中详细介绍的 YAML 语法基于最新版本的 ML CLI v2 扩展的 JSON 架构。 此语法必定仅适用于最新版本的 ML CLI v2 扩展。 可以在 https://azuremlschemasprod.azureedge.net/ 上查找早期扩展版本的架构。

YAML 语法

密钥 类型 说明 允许的值 默认值
$schema 字符串 YAML 架构。 如果使用 Azure 机器学习 VS Code 扩展来创作 YAML 文件,则可通过在文件顶部包含 $schema 来调用架构和资源完成操作。
name 字符串 必需。 功能集名称。
版本 字符串 必需。 功能集版本。
description 字符串 功能集说明。
specification 对象 必需。 功能集规范。
specification.path 字符串 必填项,本地功能集规范文件夹的路径。
实体 对象(字符串列表) 必需。 此功能集关联的实体。
阶段 (stage) 字符串 功能集阶段。 开发、生产、存档 开发
tags object 功能集的标记字典。
materialization_settings 对象 功能集具体化设置。
materialization_settings.offline_enabled boolean 是否启用将功能值具体化到脱机存储。 True、False
materialization_settings.schedule 对象 具体化计划。 请参阅 CLI (v2) 计划 YAML 架构
materialization_settings.schedule.frequency 字符串 如果配置了计划,则为必填项。 用于描述定期计划频率的枚举。 日、小时、分钟、周、月
materialization_settings.schedule.interval integer 如果配置了计划,则为必填项。 重复作业之间的间隔。
materialization_settings.schedule.time_zone 字符串 计划触发器时区。 UTC
materialization_settings.schedule.start_time 字符串 计划触发器时间。
materialization_settings.notification 对象 具体化通知设置。
materialization_settings.notification.email_on 对象(字符串列表) 如果配置了通知,则为必填项。 当作业状态与此设置匹配时,将发送电子邮件通知。 JobFailed、JobCompleted、JobCancelled。
materialization_settings.notification.emails 对象(字符串列表) 如果配置了通知,则为必填项。 接收通知的电子邮件地址。
materialization_settings.resource 对象 用于具体化作业的 Azure 机器学习 Spark 计算资源。
materialization_settings.resource.instance_type 字符串 Azure 机器学习 Spark 计算实例类型。 Standard_E4s_v3、Standard_E8s_v3、Standard_E16s_v3、Standard_E32s_v3、Standard_E64s_v3。 请参阅在 Azure 机器学习中使用 Apache Spark 进行交互式数据整理(预览版)以获取受支持类型的更新列表。
materialization_settings.spark_configuration dictionary Spark 配置的字典

备注

az ml feature-set 命令可用于管理功能集。

示例

示例 GitHub 存储库中提供了示例。 下面显示了几个示例。

YAML:基本

$schema: http://azureml/sdk-2-0/Featureset.json

name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
  path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
  - azureml:account:1
stage: Development

YAML:具有具体化配置

name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
  path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
  - azureml:account:1
stage: Development
materialization_settings:
    offline_enabled: True
    schedule: # we use existing definition of schedule under job with some constraints. Recurrence pattern will not be supported.
        type: recurrence  # Only recurrence type would be supported
        frequency: Day # Only support Day and Hour
        interval: 1 #every day
        time_zone: "Pacific Standard Time"
    notification: 
        email_on:
        - JobFailed
        emails:
        - alice@microsoft.com

    resource:
        instance_type: Standard_E8S_V3
    spark_configuration:
        spark.driver.cores: 4
        spark.driver.memory: 36g
        spark.executor.cores: 4
        spark.executor.memory: 36g
        spark.executor.instances: 2

后续步骤