Azure 机器学习监视数据引入

本文包含此服务的所有监视参考信息。

有关可为 Azure 机器学习收集的数据以及如何使用这些数据的详细信息,请参阅监视机器学习

指标

本部分列出了为此服务自动收集的所有平台指标。

有关指标保留的信息,请参阅 Azure Monitor 指标概述。 这些指标的资源提供程序是 Microsoft.MachineLearningServices/workspaces。

指标类别包括模型、配额、资源、运行和流量。 “配额”信息仅用于机器学习计算。 “运行”指标提供有关工作区训练运行的信息

Microsoft.MachineLearningServices/workspaces 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置

Microsoft.MachineLearningServices/workspaces/onlineEndpoints 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置

Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 支持的指标

下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 资源类型的指标。

  • 并非所有列都显示在每个表中。
  • 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。

表标题

  • 类别 - 指标组或分类。
  • 指标 - 在 Azure 门户中显示的指标显示名称。
  • REST API 中的名称 - 在 REST API 中引用的指标名称
  • 单位 - 度量单位。
  • 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
  • 维度 - 适用于指标的维度
  • 时间粒度 - 对指标采样的间隔 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
  • DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置

有关指标维度定义的信息,请参阅多维指标。 此服务具有以下与其指标关联的维度。 | 维度 | 说明 | | ---- | ---- | | 群集名称 | 计算群集资源的名称。 可用于所有配额指标。 | | VM 系列名称 | 群集使用的 VM 系列的名称。 可用于配额使用率百分比。 | | VM 优先级 | VM 的优先级。 可用于配额使用率百分比。 | CreatedTime | 仅适用于 CpuUtilization 和 GpuUtilization。 | | DeviceId | 设备的 ID (GPU)。 仅适用于 GpuUtilization。 | | NodeId | 作业运行时所在的已创建节点的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。 | | RunId | 运行/作业的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。 | | ComputeType | 运行所使用的计算类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | PipelineStepType | 在运行中使用的 PipelineStep 类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | PublishedPipelineId | 在运行中使用的已发布管道的 ID。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | RunType | 运行的类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 |

RunType 维度的有效值为:

Value 说明
试验 非管道运行。
PipelineRun 管道运行,它是 StepRun 的父级。
StepRun 管道步骤的运行。
ReusedStepRun 重用上次运行的管道步骤的运行。

资源日志

本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。

Azure Monitor 日志表

本部分涉及与此服务相关的所有 Azure Monitor 日志表,Log Analytics 可使用 Kusto 查询来查询这些表。

此服务使用以下表来存储资源日志数据。

机器学习

Microsoft.MachineLearningServices/workspaces

  • AzureActivity
  • AMLOnlineEndpointConsoleLog
  • AMLOnlineEndpointTrafficLog
  • AMLOnlineEndpointEventLog
  • AzureMetrics
  • AMLComputeClusterEvent
  • AMLComputeClusterNodeEvent
  • AMLComputeJobEvent
  • AMLRunStatusChangedEvent
  • AMLComputeCpuGpuUtilization
  • AMLComputeInstanceEvent
  • AMLDataLabelEvent
  • AMLDataSetEvent
  • AMLDataStoreEvent
  • AMLDeploymentEvent
  • AMLEnvironmentEvent
  • AMLInferencingEvent
  • AMLModelsEvent
  • AMLPipelineEvent
  • AMLRunEvent

Microsoft.MachineLearningServices/registries

  • AzureActivity
  • AmlRegistryReadEventsLog
  • AmlRegistryWriteEventsLog

活动日志

链接表列出了可在此服务的活动日志中记录的操作。 这些操作是活动日志中所有可能的资源提供程序操作的子集。

有关活动日志条目架构的详细信息,请参阅活动日志架构

下表列出了可能在活动日志中创建的与机器学习相关的部分操作。 有关 Microsoft.MachineLearningServices 操作的完整列表,请参阅 Microsoft.MachineLearningServices 资源提供程序操作

操作 说明
创建或更新机器学习工作区 已创建或更新工作区
检查计算名称可用性 检查计算名称是否已在使用中
创建或更新计算资源 已创建或更新计算资源
删除计算资源 已删除计算资源
列出机密 执行操作时列出的机器学习工作区的机密

日志架构

Azure 机器学习使用以下架构。

AmlComputeJobEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
JobId 已提交作业的 ID
ExperimentId 试验的 ID
ExperimentName 试验的名称
CustomerSubscriptionId 已提交的试验和作业的 SubscriptionId
WorkspaceName 机器学习工作区的名称
ClusterName 群集的名称
ProvisioningState 作业提交的状态
ResourceGroupName 资源组的名称
JobName 作业的名称
ClusterId 群集的 ID
EventType 作业事件的类型。 例如 JobSubmitted、JobRunning、JobFailed、JobSucceeded。
ExecutionState 作业(运行)的状态。 例如已排队、正在运行、成功、失败
ErrorDetails 作业错误的详细信息
CreationApiVersion 用于创建作业的 Api 版本
ClusterResourceGroupName 群集的资源组名称
TFWorkerCount TF 辅助角色的计数
TFParameterServerCount TF 参数服务器的计数
ToolType 使用的工具类型
RunInContainer 描述作业是否应在容器中运行的标志
JobErrorMessage 作业错误的详细消息
NodeId 作业运行时所创建节点的 ID

AmlComputeClusterEvent 表

属性 说明
TimeGenerated 生成日志项目的时间
OperationName 与日志事件关联的操作的名称
Category 日志事件的名称
ProvisioningState 群集的预配状态
ClusterName 群集的名称
ClusterType 群集的类型
CreatedBy 创建群集的用户
CoreCount 群集中的核心计数
VmSize 群集的 VM 大小
VmPriority 在群集内所创建节点的优先级 Dedicated/LowPriority
ScalingType 群集缩放的类型手动/自动
InitialNodeCount 群集的初始节点计数
MinimumNodeCount 群集的最小节点计数
MaximumNodeCount 群集的最大节点计数
NodeDeallocationOption 解除分配节点的方法
发布者 群集类型的发布服务器
产品/服务 用于创建群集的产品/服务
SKU 群集内所创建节点/VM 的 Sku
版本 创建节点/VM 时使用的映像版本
SubnetId 群集的 SubnetId
AllocationState 群集分配状态
CurrentNodeCount 群集的当前节点计数
TargetNodeCount 群集纵向扩展/减少时的目标节点计数
EventType 群集创建期间的事件类型。
NodeIdleTimeSecondsBeforeScaleDown 群集纵向缩减之前的空闲时间(以秒为单位)
PreemptedNodeCount 群集的已占用节点计数
IsResizeGrow 指示群集正在纵向扩展的标志
VmFamilyName 可在群集内创建的节点的 VM 系列名称
LeavingNodeCount 群集的正在离开节点计数
UnusableNodeCount 群集的不可用节点计数
IdleNodeCount 群集的空闲节点计数
RunningNodeCount 群集的正在运行节点计数
PreparingNodeCount 群集的正在准备节点计数
QuotaAllocated 群集的已分配配额
QuotaUtilized 群集的已利用配额
AllocationStateTransitionTime 将时间从一种状态转换为另一种状态
ClusterErrorCodes 群集创建或缩放期间收到的错误代码
CreationApiVersion 创建群集时使用的 API 版本

AmlComputeInstanceEvent 表

属性 说明
类型 日志事件的名称,AmlComputeInstanceEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlComputeInstanceName 与日志项关联的计算实例的名称。

AmlDataLabelEvent 表

属性 说明
类型 日志事件的名称,AmlDataLabelEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
CorrelationId 用于将一组相关事件组合在一起的 GUID(如果适用)。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlProjectId Azure 机器学习项目的唯一标识符。
AmlProjectName Azure 机器学习项目的名称。
AmlLabelNames 为项目创建的标签类名。
AmlDataStoreName 用于存储项目数据的数据存储的名称。

AmlDataSetEvent 表

属性 说明
类型 日志事件的名称,AmlDataSetEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatasetId Azure 机器学习数据集的 ID。
AmlDatasetName Azure 机器学习数据集的名称。

AmlDataStoreEvent 表

属性 说明
类型 日志事件的名称,AmlDataStoreEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlDatastoreName Azure 机器学习数据存储的名称。

AmlDeploymentEvent 表

属性 说明
类型 日志事件的名称,AmlDeploymentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlInferencingEvent 表

属性 说明
类型 日志事件的名称,AmlInferencingEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlServiceName Azure 机器学习服务的名称。

AmlModelsEvent 表

属性 说明
类型 日志事件的名称,AmlModelsEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
ResultSignature 事件的 HTTP 状态代码。 典型值包括 200、201、202 等。
AmlModelName Azure 机器学习模型的名称。

AmlPipelineEvent 表

属性 说明
类型 日志事件的名称,AmlPipelineEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
AmlWorkspaceId Azure 机器学习工作区的名称。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlModuleId 模块的 GUID 和唯一 ID。
AmlModelName Azure 机器学习模型的名称。
AmlPipelineId Azure 机器学习管道的 ID。
AmlParentPipelineId 父 Azure 机器学习管道的 ID(克隆时)。
AmlPipelineDraftId Azure 机器学习管道草稿的 ID。
AmlPipelineDraftName Azure 机器学习管道草稿的名称。
AmlPipelineEndpointId Azure 机器学习管道终结点的 ID。
AmlPipelineEndpointName Azure 机器学习管道终结点的名称。

AmlRunEvent 表

属性 说明
类型 日志事件的名称,AmlRunEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
ResultType 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。
OperationName 与日志项关联的操作的名称
AmlWorkspaceId Azure 机器学习工作区的 GUID 和唯一 ID。
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
RunId 运行的唯一 ID。

AmlEnvironmentEvent 表

属性 说明
类型 日志事件的名称,AmlEnvironmentEvent
TimeGenerated 生成日志项的时间 (UTC)
Level 事件的严重级别。 必须是信息性、警告、错误或严重。
OperationName 与日志项关联的操作的名称
标识 执行操作的用户或应用程序的标识。
AadTenantId 为其提交了该操作的 Microsoft Entra 租户 ID。
AmlEnvironmentName Azure 机器学习环境配置的名称。
AmlEnvironmentVersion Azure 机器学习环境配置版本的名称。

AMLOnlineEndpointTrafficLog 表(预览版)

属性 说明
方法 从客户端请求的方法。
路径 从客户端请求的路径。
SubscriptionId 联机终结点的机器学习订阅 ID。
AzureMLWorkspaceId 联机终结点的机器学习工作区 ID。
AzureMLWorkspaceName 联机终结点的机器学习工作区名称。
EndpointName 联机终结点的名称。
DeploymentName 联机部署的名称。
协议 请求的协议。
ResponseCode 返回到客户端的最终响应代码。
ResponseCodeReason 返回到客户端的最终响应代码原因。
ModelStatusCode 模型的响应状态代码。
ModelStatusReason 模型的响应状态原因。
RequestPayloadSize 从客户端接收的总字节数。
ResponsePayloadSize 发回客户端的总字节数。
UserAgent 请求的用户代理标头(包括注释,但被截断为最多 70 个字符)。
XRequestId Azure 机器学习为内部跟踪生成的请求 ID。
XMSClientRequestId 客户端生成的跟踪 ID。
TotalDurationMs 从请求开始到向客户端发回最后一个响应字节之间的持续时间(以毫秒为单位)。 如果客户端断开连接,则度量请求开始到客户端断开连接之间的时间。
RequestDurationMs 从请求开始到从客户端接收请求的最后一个字节之间的持续时间(以毫秒为单位)。
ResponseDurationMs 从请求开始到从模型读取第一个响应字节之间的持续时间(以毫秒为单位)。
RequestThrottlingDelayMs 因网络限制而导致的请求数据传输延迟(以毫秒为单位)。
ResponseThrottlingDelayMs 因网络限制而导致的响应数据传输延迟(以毫秒为单位)。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointConsoleLog

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
ContainerName 生成日志的容器的名称。
消息 日志内容。

有关此日志的详细信息,请参阅监视联机终结点

AMLOnlineEndpointEventLog(预览版)

属性 说明
TimeGenerated 生成日志的时间戳 (UTC)。
OperationName 与日志记录相关联的操作。
InstanceId 生成此日志记录的实例的 ID。
DeploymentName 与日志记录关联的部署的名称。
名称 事件的名称。
消息 事件内容。

有关此日志的详细信息,请参阅监视联机终结点