监视 Azure 机器学习数据引用

了解 Azure Monitor 从 Azure 机器学习工作区收集的数据和资源。 有关收集和分析监视数据的详细信息,请参阅监视 Azure 机器学习

指标

本部分列出了为 Azure 机器学习自动收集的所有平台指标。 这些指标的资源提供程序是 Microsoft.MachineLearningServices/workspaces

Model

指标 计价单位 说明
成功的模型注册数 计数 此工作区中成功的模型注册数
失败的模型注册数 计数 此工作区中失败的模型注册数
已启动的模型部署数 计数 此工作区中已启动的模型部署数
成功的模型部署数 计数 此工作区中成功的模型部署数
失败的模型部署数 计数 此工作区中失败的模型部署数

配额

配额信息仅用于 Azure 机器学习计算。

指标 计价单位 说明
节点总数 计数 节点总数。 此总数包括一些活动节点、空闲节点、不可用节点、已占用节点和正在退出的节点
活动节点数 计数 活动节点数。 正在主动运行作业的节点。
空闲节点数 计数 空闲节点数。 空闲节点是指未运行任何作业,但可以接受新作业(如果可用)的节点。
不可用的节点数 计数 不可用的节点数。 不可用的节点是由于存在某种不可解决的问题而无法正常运行的节点。 Azure 将回收这些节点。
占用的节点数 计数 占用的节点数。 这些节点是已从可用节点池中取出的低优先级节点。
正在退出的节点数 计数 正在退出的节点数。 正在退出的节点是指刚刚完成了作业处理,将进入空闲状态的节点。
核心总数 计数 核心总数
活动核心数 计数 活动核心数
空闲核心数 计数 空闲核心数
不可用的核心数 计数 不可用的核心数
占用的核心数 计数 占用的核心数
正在退出的核心数 计数 正在退出的核心数
配额利用率百分比 计数 已利用的配额百分比

资源

指标 计价单位 说明
CpuUtilization 计数 CPU 节点上的使用率百分比。 利用率每分钟报告一次。
CpuUtilizationPercentage 计数 CPU 节点的利用率百分比。 利用率每分钟聚合一次。
CpuUtilizationMillicores 计数 CPU 节点的利用率(以毫核为单位)。 利用率每分钟聚合一次。
CpuCapacityMillicores 计数 CPU 节点的最大容量(以毫核为单位)。 容量每分钟聚合一次。
CpuMemoryCapacityMegabytes 计数 CPU 节点的最大内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。
CpuMemoryUtilizationMegabytes 计数 CPU 节点的内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。
CpuMemoryUtilizationPercentage 计数 CPU 节点的内存利用率百分比。 利用率每分钟聚合一次。
GpuUtilization 计数 GPU 节点上的使用率百分比。 利用率每分钟报告一次。
GpuUtilizationPercentage 计数 GPU 设备的利用率百分比。 利用率每分钟聚合一次。
GpuUtilizationMilliGPUs 计数 GPU 设备利用率(以毫 GPU 为单位)。 利用率每分钟聚合一次。
GpuCapacityMilliGPUs 计数 GPU 设备的最大容量(以毫 GPU 为单位)。 容量每分钟聚合一次。
GpuMemoryCapacityMegabytes 计数 GPU 设备的最大内存容量(以兆字节为单位)。 容量每分钟聚合一次。
GpuMemoryUtilization 计数 GPU 节点上内存利用率的百分比。 利用率每分钟报告一次。
GpuMemoryUtilizationMegabytes 计数 GPU 设备的内存利用率(以兆字节为单位)。 利用率每分钟聚合一次。
GpuMemoryUtilizationPercentage 计数 GPU 设备的内存利用率百分比。 利用率每分钟聚合一次。
GpuEnergyJoules 计数 GPU 节点上的间隔功耗(焦耳)。 功耗每分钟报告一次。
DiskAvailMegabytes 计数 可用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskReadMegabytes 计数 从磁盘读取的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskUsedMegabytes 计数 已用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
DiskWriteMegabytes 计数 写入磁盘的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。
IBReceiveMegabytes 计数 通过 InfiniBand 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
IBTransmitMegabytes 计数 通过 InfiniBand 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
NetworkInputMegabytes 计数 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。
NetworkOutputMegabytes 计数 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。

运行

有关工作区训练运行的信息。

指标 计价单位 说明
已取消运行数 计数 此工作区取消的运行数。 成功取消运行时,将更新计数。
请求取消运行数 计数 此工作区请求取消的运行数。 当收到用于运行的取消请求时,将更新计数。
已完成的运行数 计数 已成功为此工作区完成的运行数。 当运行完成并收集输出时,将更新计数。
失败的运行次数 计数 此工作区失败的运行数。 运行失败时,将更新计数。
完成状态运行数 计数 此工作区的进入完成状态的运行数。 运行已完成但输出收集仍在进行时,将更新计数。
无响应运行数 计数 此工作区无响应的运行数。 当运行进入无响应状态时,将更新计数。
未启动运行 计数 此工作区处于“未启动”状态的运行数。 当收到创建运行的请求但尚未填充运行信息时,将更新计数。
准备的运行数 计数 为此工作区准备的运行数。 准备运行环境时,当运行进入准备状态时,将更新计数。
预配运行数 计数 为此工作区预配的运行数。 当运行正在等待创建或预配计算目标时,将更新计数。
排队运行数 计数 此工作区已排队的运行数。 当运行在计算目标中排队时,将更新计数。 等待所需计算节点准备就绪时,可能会发生。
已启动的运行数 计数 为此工作区运行的运行数。 运行在所需资源上开始运行时,将更新计数。
启动运行数 计数 为此工作区启动的运行数。 在请求创建运行和运行信息(如运行 ID)已填充后,将更新计数
错误 计数 此工作区中的运行错误数。 运行遇到错误时,将更新计数。
警告 计数 此工作区中的运行警告数。 运行遇到警告时,将更新计数。

指标维度

有关指标维度定义的详细信息,请参阅多维指标

Azure 机器学习具有以下与指标关联的维度。

维度 说明
群集名称 计算群集资源的名称。 可用于所有配额指标。
VM 系列名称 群集使用的 VM 系列的名称。 可用于配额使用率百分比。
VM 优先级 VM 的优先级。 可用于配额使用率百分比。
CreatedTime 仅适用于 CpuUtilization 和 GpuUtilization。
DeviceId 设备 (GPU) 的 ID。 仅适用于 GpuUtilization。
NodeId 作业运行时所在的已创建节点的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。
RunId 运行/作业的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。
ComputeType 运行时使用的计算类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
PipelineStepType 运行时使用的 PipelineStep 类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
PublishedPipelineId 运行时使用的已发布管道的 ID。 仅适用于已完成的运行数、失败运行数和已启动的运行数。
RunType 运行的类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。

RunType 维度的有效值为:

Value 说明
试验 非管道运行。
PipelineRun 管道运行,它是 StepRun 的父级。
StepRun 管道步骤的运行。
ReusedStepRun 重用上次运行的管道步骤的运行。

活动日志

下表列出了可能在活动日志中创建的与 Azure 机器学习相关的操作。

Operation 说明
创建或更新机器学习工作区 已创建或更新工作区
检查计算名称可用性 检查计算名称是否已在使用中
创建或更新计算资源 已创建或更新计算资源
删除计算资源 已删除计算资源
列出机密 执行操作时列出的机器学习工作区的机密

资源日志

本部分列出了可为 Azure 机器学习工作区收集的资源日志类型。

资源提供程序和类型:Microsoft.MachineLearningServices/workspace.

类别 显示名称
AmlComputeClusterEvent AmlComputeClusterEvent
AmlComputeClusterNodeEvent(弃用) AmlComputeClusterNodeEvent
AmlComputeCpuGpuUtilization AmlComputeCpuGpuUtilization
AmlComputeJobEvent AmlComputeJobEvent
AmlRunStatusChangedEvent AmlRunStatusChangedEvent
ModelsChangeEvent ModelsChangeEvent
ModelsReadEvent ModelsReadEvent
ModelsActionEvent ModelsActionEvent
DeploymentReadEvent DeploymentReadEvent
DeploymentEventACI DeploymentEventACI
DeploymentEventAKS DeploymentEventAKS
InferencingOperationAKS InferencingOperationAKS
InferencingOperationACI InferencingOperationACI
EnvironmentChangeEvent EnvironmentChangeEvent
EnvironmentReadEvent EnvironmentReadEvent
DataLabelChangeEvent DataLabelChangeEvent
DataLabelReadEvent DataLabelReadEvent
ComputeInstanceEvent ComputeInstanceEvent
DataStoreChangeEvent DataStoreChangeEvent
DataStoreReadEvent DataStoreReadEvent
DataSetChangeEvent DataSetChangeEvent
DataSetReadEvent DataSetReadEvent
PipelineChangeEvent PipelineChangeEvent
PipelineReadEvent PipelineReadEvent
RunEvent RunEvent
RunReadEvent RunReadEvent

架构

Azure 机器学习正在使用以下架构

AmlComputeJobEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
JobId 已提交作业的 ID
ExperimentId 试验的 ID
ExperimentName 试验的名称
CustomerSubscriptionId 已提交的试验和作业的 SubscriptionId
WorkspaceName 机器学习工作区的名称
ClusterName 群集的名称
ProvisioningState 作业提交的状态
ResourceGroupName 资源组的名称
JobName 作业的名称
ClusterId 群集的 ID
EventType 作业事件的类型。 例如 JobSubmitted、JobRunning、JobFailed、JobSucceeded。
ExecutionState 作业(运行)的状态。 例如已排队、正在运行、成功、失败
ErrorDetails 作业错误的详细信息
CreationApiVersion 用于创建作业的 Api 版本
ClusterResourceGroupName 群集的资源组名称
TFWorkerCount TF 辅助角色的计数
TFParameterServerCount TF 参数服务器的计数
ToolType 使用的工具类型
RunInContainer 描述作业是否应在容器中运行的标志
JobErrorMessage 作业错误的详细消息
NodeId 作业运行时所创建节点的 ID

AmlComputeClusterEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
ProvisioningState 群集的预配状态
ClusterName 群集的名称
ClusterType 群集的类型
CreatedBy 创建群集的用户
CoreCount 群集中的核心计数
VmSize 群集的 VM 大小
VmPriority 在群集内所创建节点的优先级 Dedicated/LowPriority
ScalingType 群集缩放的类型手动/自动
InitialNodeCount 群集的初始节点计数
MinimumNodeCount 群集的最小节点计数
MaximumNodeCount 群集的最大节点计数
NodeDeallocationOption 解除分配节点的方法
发布者 群集类型的发布服务器
产品/服务 用于创建群集的产品/服务
SKU 群集内所创建节点/VM 的 Sku
版本 创建节点/VM 时使用的映像版本
SubnetId 群集的 SubnetId
AllocationState 群集分配状态
CurrentNodeCount 群集的当前节点计数
TargetNodeCount 群集纵向扩展/减少时的目标节点计数
EventType 群集创建期间的事件类型。
NodeIdleTimeSecondsBeforeScaleDown 群集纵向缩减之前的空闲时间(以秒为单位)
PreemptedNodeCount 群集的已占用节点计数
IsResizeGrow 指示群集正在纵向扩展的标志
VmFamilyName 可在群集内创建的节点的 VM 系列名称
LeavingNodeCount 群集的正在离开节点计数
UnusableNodeCount 群集的不可用节点计数
IdleNodeCount 群集的空闲节点计数
RunningNodeCount 群集的正在运行节点计数
PreparingNodeCount 群集的正在准备节点计数
QuotaAllocated 群集的已分配配额
QuotaUtilized 群集的已利用配额
AllocationStateTransitionTime 将时间从一种状态转换为另一种状态
ClusterErrorCodes 群集创建或缩放期间收到的错误代码
CreationApiVersion 创建群集时使用的 API 版本

AmlComputeClusterNodeEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
ClusterName 群集的名称
NodeId 创建的群集节点的 ID
VmSize 节点的 VM 大小
VmFamilyName 节点所属的 VM 系列
VmPriority 已创建的节点的优先级 Dedicated/LowPriority
发布者 VM 映像的发布者。 例如 microsoft-dsvm
产品/服务 与 VM 创建相关联的产品/服务
SKU 已创建的节点/VM 的 SKU
版本 创建节点/VM 时使用的映像版本
ClusterCreationTime 创建群集的时间
ResizeStartTime 群集开始纵向扩展/缩减的时间
ResizeEndTime 群集结束纵向扩展/缩减的时间
NodeAllocationTime 分配节点的时间
NodeBootTime 节点启动的时间
StartTaskStartTime 向节点分配任务并启动任务的时间
StartTaskEndTime 向节点分配任务并结束任务的时间
TotalE2ETimeInSeconds 总时间节点处于活动状态

注意

自 2022 年 2 月起,AmlComputeClusterNodeEvent 表将弃用。 建议改用 AmlComputeClusterEvent 表。

AmlComputeInstanceEvent 表

属性 说明
类型 日志事件的名称,AmlComputeInstanceEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlComputeInstanceName 与日志项关联的计算实例的名称。

AmlDataLabelEvent 表

属性 说明
类型 日志事件的名称,AmlDataLabelEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlProjectId Azure 机器学习项目的唯一标识符。
AmlProjectName Azure 机器学习项目的名称。
AmlLabelNames 为项目创建的标签类名。
AmlDataStoreName 用于存储项目数据的数据存储的名称。

AmlDataSetEvent 表

属性 说明
类型 日志事件的名称,AmlDataSetEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatasetId Azure 机器学习数据集的 ID。
AmlDatasetName Azure 机器学习数据集的名称。

AmlDataStoreEvent 表

属性 说明
类型 日志事件的名称,AmlDataStoreEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatastoreName Azure 机器学习数据存储的名称。

AmlDeploymentEvent 表

属性 说明
类型 日志事件的名称,AmlDeploymentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlInferencingEvent 表

属性 说明
类型 日志事件的名称,AmlInferencingEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlModelsEvent 表

属性 说明
类型 日志事件的名称,AmlModelsEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
ResultSignature 事件的 HTTP 状态代码。 典型值包括 200、201、202 等。
AmlModelName Azure 机器学习模型的名称。

AmlPipelineEvent 表

属性 说明
类型 日志事件的名称,AmlPipelineEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
AmlWorkspaceId Azure 机器学习工作区的名称。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlModuleId 模块的 GUID 和唯一 ID。
AmlModelName Azure 机器学习模型的名称。
AmlPipelineId Azure 机器学习管道的 ID。
AmlParentPipelineId 父 Azure 机器学习管道的 ID(克隆时)。
AmlPipelineDraftId Azure 机器学习管道草稿的 ID。
AmlPipelineDraftName Azure 机器学习管道草稿的名称。
AmlPipelineEndpointId Azure 机器学习管道终结点的 ID。
AmlPipelineEndpointName Azure 机器学习管道终结点的名称。

AmlRunEvent 表

属性 说明
类型 日志事件的名称,AmlRunEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
RunId 运行的唯一 ID。

AmlEnvironmentEvent 表

属性 说明
类型 日志事件的名称,AmlEnvironmentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlEnvironmentName Azure 机器学习环境配置的名称。
AmlEnvironmentVersion Azure 机器学习环境配置版本的名称。

AMLOnlineEndpointTrafficLog 表(预览版)

属性 说明
方法 从客户端请求的方法。
路径 从客户端请求的路径。
SubscriptionId 联机终结点的机器学习订阅 ID。
AzureMLWorkspaceId 联机终结点的机器学习工作区 ID。
AzureMLWorkspaceName 联机终结点的机器学习工作区名称。
EndpointName 联机终结点的名称。
DeploymentName 联机部署的名称。
协议 请求的协议。
ResponseCode 返回到客户端的最终响应代码。
ResponseCodeReason 返回到客户端的最终响应代码原因。
ModelStatusCode 模型的响应状态代码。
ModelStatusReason 模型的响应状态原因。
RequestPayloadSize 从客户端接收的总字节数。
ResponsePayloadSize 发回客户端的总字节数。
UserAgent 请求的用户代理标头(包括注释,但被截断为最多 70 个字符)。
XRequestId Azure 机器学习为内部跟踪生成的请求 ID。
XMSClientRequestId 客户端生成的跟踪 ID。
TotalDurationMs 从请求开始到向客户端发回最后一个响应字节之间的持续时间(以毫秒为单位)。 如果客户端断开连接,则度量请求开始到客户端断开连接之间的时间。
RequestDurationMs 从请求开始到从客户端接收请求的最后一个字节之间的持续时间(以毫秒为单位)。
ResponseDurationMs 从请求开始到从模型读取第一个响应字节之间的持续时间(以毫秒为单位)。
RequestThrottlingDelayMs 因网络限制而导致的请求数据传输延迟(以毫秒为单位)。
ResponseThrottlingDelayMs 因网络限制而导致的响应数据传输延迟(以毫秒为单位)。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointConsoleLog

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
ContainerName 生成日志的容器的名称。
消息 日志内容。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointEventLog(预览版)

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
名称 事件的名称。
消息 事件内容。

有关此日志的详细信息,请参阅监视联机终结点

请参阅