CLI (v2) 功能集 YAML 架构
注意
本文档中详细介绍的 YAML 语法基于最新版本的 ML CLI v2 扩展的 JSON 架构。 此语法必定仅适用于最新版本的 ML CLI v2 扩展。 可以在 https://azuremlschemasprod.azureedge.net/ 上查找早期扩展版本的架构。
YAML 语法
密钥 | 类型 | 说明 | 允许的值 | 默认值 |
---|---|---|---|---|
$schema | 字符串 | YAML 架构。 如果使用 Azure 机器学习 VS Code 扩展来创作 YAML 文件,则可通过在文件顶部包含 $schema 来调用架构和资源完成操作。 | ||
name | 字符串 | 必需。 功能集名称。 | ||
版本 | 字符串 | 必需。 功能集版本。 | ||
description | 字符串 | 功能集说明。 | ||
specification | 对象 | 必需。 功能集规范。 | ||
specification.path | 字符串 | 必填项,本地功能集规范文件夹的路径。 | ||
实体 | 对象(字符串列表) | 必需。 此功能集关联的实体。 | ||
阶段 (stage) | 字符串 | 功能集阶段。 | 开发、生产、存档 | 开发 |
tags | object | 功能集的标记字典。 | ||
materialization_settings | 对象 | 功能集具体化设置。 | ||
materialization_settings.offline_enabled | boolean | 是否启用将功能值具体化到脱机存储。 | True、False | |
materialization_settings.schedule | 对象 | 具体化计划。 请参阅 CLI (v2) 计划 YAML 架构 | ||
materialization_settings.schedule.frequency | 字符串 | 如果配置了计划,则为必填项。 用于描述定期计划频率的枚举。 | 日、小时、分钟、周、月 | 天 |
materialization_settings.schedule.interval | integer | 如果配置了计划,则为必填项。 重复作业之间的间隔。 | ||
materialization_settings.schedule.time_zone | 字符串 | 计划触发器时区。 | UTC | |
materialization_settings.schedule.start_time | 字符串 | 计划触发器时间。 | ||
materialization_settings.notification | 对象 | 具体化通知设置。 | ||
materialization_settings.notification.email_on | 对象(字符串列表) | 如果配置了通知,则为必填项。 当作业状态与此设置匹配时,将发送电子邮件通知。 | JobFailed、JobCompleted、JobCancelled。 | |
materialization_settings.notification.emails | 对象(字符串列表) | 如果配置了通知,则为必填项。 接收通知的电子邮件地址。 | ||
materialization_settings.resource | 对象 | 用于具体化作业的 Azure 机器学习 Spark 计算资源。 | ||
materialization_settings.resource.instance_type | 字符串 | Azure 机器学习 Spark 计算实例类型。 | Standard_E4s_v3、Standard_E8s_v3、Standard_E16s_v3、Standard_E32s_v3、Standard_E64s_v3。 请参阅在 Azure 机器学习中使用 Apache Spark 进行交互式数据整理(预览版)以获取受支持类型的更新列表。 | |
materialization_settings.spark_configuration | dictionary | Spark 配置的字典 |
备注
az ml feature-set
命令可用于管理功能集。
示例
示例 GitHub 存储库中提供了示例。 下面显示了几个示例。
YAML:基本
$schema: http://azureml/sdk-2-0/Featureset.json
name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
- azureml:account:1
stage: Development
YAML:具有具体化配置
name: transactions
version: "1"
description: 7-day and 3-day rolling aggregation of transactions featureset
specification:
path: ./spec # path to feature set specification folder. Can be local (absolute path or relative path to current location) or cloud uri. Contains FeatureSetSpec.yaml + transformation code
entities: # entities associated with this feature-set
- azureml:account:1
stage: Development
materialization_settings:
offline_enabled: True
schedule: # we use existing definition of schedule under job with some constraints. Recurrence pattern will not be supported.
type: recurrence # Only recurrence type would be supported
frequency: Day # Only support Day and Hour
interval: 1 #every day
time_zone: "Pacific Standard Time"
notification:
email_on:
- JobFailed
emails:
- alice@microsoft.com
resource:
instance_type: Standard_E8S_V3
spark_configuration:
spark.driver.cores: 4
spark.driver.memory: 36g
spark.executor.cores: 4
spark.executor.memory: 36g
spark.executor.instances: 2