Azure 机器学习监视数据引入
本文包含此服务的所有监视参考信息。
有关可为 Azure 机器学习收集的数据以及如何使用这些数据的详细信息,请参阅监视机器学习。
指标
本部分列出了为此服务自动收集的所有平台指标。
有关指标保留的信息,请参阅 Azure Monitor 指标概述。 这些指标的资源提供程序是 Microsoft.MachineLearningServices/workspaces。
指标类别包括模型、配额、资源、运行和流量。 “配额”信息仅用于机器学习计算。 “运行”指标提供有关工作区训练运行的信息。
Microsoft.MachineLearningServices/workspaces 支持的指标
下表列出了可用于 Microsoft.MachineLearningServices/workspaces 资源类型的指标。
- 并非所有列都显示在每个表中。
- 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。
表标题
- 类别 - 指标组或分类。
- 指标 - 在 Azure 门户中显示的指标显示名称。
- REST API 中的名称 - 在 REST API 中引用的指标名称。
- 单位 - 度量单位。
- 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
- 维度 - 适用于指标的维度。
- 时间粒度 - 对指标采样的间隔。 例如,
PT1M
表示该指标每分钟采样一次,PT30M
表示每 30 分钟一次,PT1H
表示每小时一次,以此类推。 - DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置。
Microsoft.MachineLearningServices/workspaces/onlineEndpoints 支持的指标
下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints 资源类型的指标。
- 并非所有列都显示在每个表中。
- 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。
表标题
- 类别 - 指标组或分类。
- 指标 - 在 Azure 门户中显示的指标显示名称。
- REST API 中的名称 - 在 REST API 中引用的指标名称。
- 单位 - 度量单位。
- 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
- 维度 - 适用于指标的维度。
- 时间粒度 - 对指标采样的间隔。 例如,
PT1M
表示该指标每分钟采样一次,PT30M
表示每 30 分钟一次,PT1H
表示每小时一次,以此类推。 - DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置。
Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 支持的指标
下表列出了可用于 Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments 资源类型的指标。
- 并非所有列都显示在每个表中。
- 某些列可能超出了页面的查看区域。 选择“展开表”以查看所有可用列。
表标题
- 类别 - 指标组或分类。
- 指标 - 在 Azure 门户中显示的指标显示名称。
- REST API 中的名称 - 在 REST API 中引用的指标名称。
- 单位 - 度量单位。
- 聚合 - 默认的 [aggregation]/azure-monitor/essentials/metrics-aggregation-explained) 类型。 有效值:平均值(平均)、最小值(最小值)、最大值(最大值)、总计(总和)、计数。
- 维度 - 适用于指标的维度。
- 时间粒度 - 对指标采样的间隔。 例如,
PT1M
表示该指标每分钟采样一次,PT30M
表示每 30 分钟一次,PT1H
表示每小时一次,以此类推。 - DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。 要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置。
有关指标维度定义的信息,请参阅多维指标。 此服务具有以下与其指标关联的维度。 | 维度 | 说明 | | ---- | ---- | | 群集名称 | 计算群集资源的名称。 可用于所有配额指标。 | | VM 系列名称 | 群集使用的 VM 系列的名称。 可用于配额使用率百分比。 | | VM 优先级 | VM 的优先级。 可用于配额使用率百分比。 | CreatedTime | 仅适用于 CpuUtilization 和 GpuUtilization。 | | DeviceId | 设备的 ID (GPU)。 仅适用于 GpuUtilization。 | | NodeId | 作业运行时所在的已创建节点的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。 | | RunId | 运行/作业的 ID。 仅适用于 CpuUtilization 和 GpuUtilization。 | | ComputeType | 运行所使用的计算类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | PipelineStepType | 在运行中使用的 PipelineStep 类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | PublishedPipelineId | 在运行中使用的已发布管道的 ID。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 | | RunType | 运行的类型。 仅适用于已完成的运行数、失败运行数和已启动的运行数。 |
RunType 维度的有效值为:
Value | 说明 |
---|---|
试验 | 非管道运行。 |
PipelineRun | 管道运行,它是 StepRun 的父级。 |
StepRun | 管道步骤的运行。 |
ReusedStepRun | 重用上次运行的管道步骤的运行。 |
资源日志
本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。
Azure Monitor 日志表
本部分涉及与此服务相关的所有 Azure Monitor 日志表,Log Analytics 可使用 Kusto 查询来查询这些表。
此服务使用以下表来存储资源日志数据。
机器学习
Microsoft.MachineLearningServices/workspaces
- AzureActivity
- AMLOnlineEndpointConsoleLog
- AMLOnlineEndpointTrafficLog
- AMLOnlineEndpointEventLog
- AzureMetrics
- AMLComputeClusterEvent
- AMLComputeClusterNodeEvent
- AMLComputeJobEvent
- AMLRunStatusChangedEvent
- AMLComputeCpuGpuUtilization
- AMLComputeInstanceEvent
- AMLDataLabelEvent
- AMLDataSetEvent
- AMLDataStoreEvent
- AMLDeploymentEvent
- AMLEnvironmentEvent
- AMLInferencingEvent
- AMLModelsEvent
- AMLPipelineEvent
- AMLRunEvent
Microsoft.MachineLearningServices/registries
- AzureActivity
- AmlRegistryReadEventsLog
- AmlRegistryWriteEventsLog
活动日志
链接表列出了可在此服务的活动日志中记录的操作。 这些操作是活动日志中所有可能的资源提供程序操作的子集。
有关活动日志条目架构的详细信息,请参阅活动日志架构。
下表列出了可能在活动日志中创建的与机器学习相关的部分操作。 有关 Microsoft.MachineLearningServices 操作的完整列表,请参阅 Microsoft.MachineLearningServices 资源提供程序操作。
操作 | 说明 |
---|---|
创建或更新机器学习工作区 | 已创建或更新工作区 |
检查计算名称可用性 | 检查计算名称是否已在使用中 |
创建或更新计算资源 | 已创建或更新计算资源 |
删除计算资源 | 已删除计算资源 |
列出机密 | 执行操作时列出的机器学习工作区的机密 |
日志架构
Azure 机器学习使用以下架构。
AmlComputeJobEvent 表
属性 | 说明 |
---|---|
TimeGenerated | 生成日志项目的时间 |
OperationName | 与日志事件关联的操作的名称 |
Category | 日志事件的名称 |
JobId | 已提交作业的 ID |
ExperimentId | 试验的 ID |
ExperimentName | 试验的名称 |
CustomerSubscriptionId | 已提交的试验和作业的 SubscriptionId |
WorkspaceName | 机器学习工作区的名称 |
ClusterName | 群集的名称 |
ProvisioningState | 作业提交的状态 |
ResourceGroupName | 资源组的名称 |
JobName | 作业的名称 |
ClusterId | 群集的 ID |
EventType | 作业事件的类型。 例如 JobSubmitted、JobRunning、JobFailed、JobSucceeded。 |
ExecutionState | 作业(运行)的状态。 例如已排队、正在运行、成功、失败 |
ErrorDetails | 作业错误的详细信息 |
CreationApiVersion | 用于创建作业的 Api 版本 |
ClusterResourceGroupName | 群集的资源组名称 |
TFWorkerCount | TF 辅助角色的计数 |
TFParameterServerCount | TF 参数服务器的计数 |
ToolType | 使用的工具类型 |
RunInContainer | 描述作业是否应在容器中运行的标志 |
JobErrorMessage | 作业错误的详细消息 |
NodeId | 作业运行时所创建节点的 ID |
AmlComputeClusterEvent 表
属性 | 说明 |
---|---|
TimeGenerated | 生成日志项目的时间 |
OperationName | 与日志事件关联的操作的名称 |
Category | 日志事件的名称 |
ProvisioningState | 群集的预配状态 |
ClusterName | 群集的名称 |
ClusterType | 群集的类型 |
CreatedBy | 创建群集的用户 |
CoreCount | 群集中的核心计数 |
VmSize | 群集的 VM 大小 |
VmPriority | 在群集内所创建节点的优先级 Dedicated/LowPriority |
ScalingType | 群集缩放的类型手动/自动 |
InitialNodeCount | 群集的初始节点计数 |
MinimumNodeCount | 群集的最小节点计数 |
MaximumNodeCount | 群集的最大节点计数 |
NodeDeallocationOption | 解除分配节点的方法 |
发布者 | 群集类型的发布服务器 |
产品/服务 | 用于创建群集的产品/服务 |
SKU | 群集内所创建节点/VM 的 Sku |
版本 | 创建节点/VM 时使用的映像版本 |
SubnetId | 群集的 SubnetId |
AllocationState | 群集分配状态 |
CurrentNodeCount | 群集的当前节点计数 |
TargetNodeCount | 群集纵向扩展/减少时的目标节点计数 |
EventType | 群集创建期间的事件类型。 |
NodeIdleTimeSecondsBeforeScaleDown | 群集纵向缩减之前的空闲时间(以秒为单位) |
PreemptedNodeCount | 群集的已占用节点计数 |
IsResizeGrow | 指示群集正在纵向扩展的标志 |
VmFamilyName | 可在群集内创建的节点的 VM 系列名称 |
LeavingNodeCount | 群集的正在离开节点计数 |
UnusableNodeCount | 群集的不可用节点计数 |
IdleNodeCount | 群集的空闲节点计数 |
RunningNodeCount | 群集的正在运行节点计数 |
PreparingNodeCount | 群集的正在准备节点计数 |
QuotaAllocated | 群集的已分配配额 |
QuotaUtilized | 群集的已利用配额 |
AllocationStateTransitionTime | 将时间从一种状态转换为另一种状态 |
ClusterErrorCodes | 群集创建或缩放期间收到的错误代码 |
CreationApiVersion | 创建群集时使用的 API 版本 |
AmlComputeInstanceEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlComputeInstanceEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
CorrelationId | 用于将一组相关事件组合在一起的 GUID(如果适用)。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlComputeInstanceName | 与日志项关联的计算实例的名称。 |
AmlDataLabelEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlDataLabelEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
CorrelationId | 用于将一组相关事件组合在一起的 GUID(如果适用)。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlProjectId | Azure 机器学习项目的唯一标识符。 |
AmlProjectName | Azure 机器学习项目的名称。 |
AmlLabelNames | 为项目创建的标签类名。 |
AmlDataStoreName | 用于存储项目数据的数据存储的名称。 |
AmlDataSetEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlDataSetEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
AmlWorkspaceId | Azure 机器学习工作区的 GUID 和唯一 ID。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlDatasetId | Azure 机器学习数据集的 ID。 |
AmlDatasetName | Azure 机器学习数据集的名称。 |
AmlDataStoreEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlDataStoreEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
AmlWorkspaceId | Azure 机器学习工作区的 GUID 和唯一 ID。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlDatastoreName | Azure 机器学习数据存储的名称。 |
AmlDeploymentEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlDeploymentEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlServiceName | Azure 机器学习服务的名称。 |
AmlInferencingEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlInferencingEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlServiceName | Azure 机器学习服务的名称。 |
AmlModelsEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlModelsEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
ResultSignature | 事件的 HTTP 状态代码。 典型值包括 200、201、202 等。 |
AmlModelName | Azure 机器学习模型的名称。 |
AmlPipelineEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlPipelineEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
AmlWorkspaceId | Azure 机器学习工作区的 GUID 和唯一 ID。 |
AmlWorkspaceId | Azure 机器学习工作区的名称。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlModuleId | 模块的 GUID 和唯一 ID。 |
AmlModelName | Azure 机器学习模型的名称。 |
AmlPipelineId | Azure 机器学习管道的 ID。 |
AmlParentPipelineId | 父 Azure 机器学习管道的 ID(克隆时)。 |
AmlPipelineDraftId | Azure 机器学习管道草稿的 ID。 |
AmlPipelineDraftName | Azure 机器学习管道草稿的名称。 |
AmlPipelineEndpointId | Azure 机器学习管道终结点的 ID。 |
AmlPipelineEndpointName | Azure 机器学习管道终结点的名称。 |
AmlRunEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlRunEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
ResultType | 事件的状态。 典型值包括“Started”、“In Progress”、“Succeeded”、“Failed”、“Active”和“Resolved”。 |
OperationName | 与日志项关联的操作的名称 |
AmlWorkspaceId | Azure 机器学习工作区的 GUID 和唯一 ID。 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
RunId | 运行的唯一 ID。 |
AmlEnvironmentEvent 表
属性 | 说明 |
---|---|
类型 | 日志事件的名称,AmlEnvironmentEvent |
TimeGenerated | 生成日志项的时间 (UTC) |
Level | 事件的严重级别。 必须是信息性、警告、错误或严重。 |
OperationName | 与日志项关联的操作的名称 |
标识 | 执行操作的用户或应用程序的标识。 |
AadTenantId | 为其提交了该操作的 Microsoft Entra 租户 ID。 |
AmlEnvironmentName | Azure 机器学习环境配置的名称。 |
AmlEnvironmentVersion | Azure 机器学习环境配置版本的名称。 |
AMLOnlineEndpointTrafficLog 表(预览版)
属性 | 说明 |
---|---|
方法 | 从客户端请求的方法。 |
路径 | 从客户端请求的路径。 |
SubscriptionId | 联机终结点的机器学习订阅 ID。 |
AzureMLWorkspaceId | 联机终结点的机器学习工作区 ID。 |
AzureMLWorkspaceName | 联机终结点的机器学习工作区名称。 |
EndpointName | 联机终结点的名称。 |
DeploymentName | 联机部署的名称。 |
协议 | 请求的协议。 |
ResponseCode | 返回到客户端的最终响应代码。 |
ResponseCodeReason | 返回到客户端的最终响应代码原因。 |
ModelStatusCode | 模型的响应状态代码。 |
ModelStatusReason | 模型的响应状态原因。 |
RequestPayloadSize | 从客户端接收的总字节数。 |
ResponsePayloadSize | 发回客户端的总字节数。 |
UserAgent | 请求的用户代理标头(包括注释,但被截断为最多 70 个字符)。 |
XRequestId | Azure 机器学习为内部跟踪生成的请求 ID。 |
XMSClientRequestId | 客户端生成的跟踪 ID。 |
TotalDurationMs | 从请求开始到向客户端发回最后一个响应字节之间的持续时间(以毫秒为单位)。 如果客户端断开连接,则度量请求开始到客户端断开连接之间的时间。 |
RequestDurationMs | 从请求开始到从客户端接收请求的最后一个字节之间的持续时间(以毫秒为单位)。 |
ResponseDurationMs | 从请求开始到从模型读取第一个响应字节之间的持续时间(以毫秒为单位)。 |
RequestThrottlingDelayMs | 因网络限制而导致的请求数据传输延迟(以毫秒为单位)。 |
ResponseThrottlingDelayMs | 因网络限制而导致的响应数据传输延迟(以毫秒为单位)。 |
有关此日志的详细信息,请参阅监视联机终结点。
AMLOnlineEndpointConsoleLog
属性 | 说明 |
---|---|
TimeGenerated | 生成日志的时间戳 (UTC)。 |
OperationName | 与日志记录相关联的操作。 |
InstanceId | 生成此日志记录的实例的 ID。 |
DeploymentName | 与日志记录关联的部署的名称。 |
ContainerName | 生成日志的容器的名称。 |
消息 | 日志内容。 |
有关此日志的详细信息,请参阅监视联机终结点。
AMLOnlineEndpointEventLog(预览版)
属性 | 说明 |
---|---|
TimeGenerated | 生成日志的时间戳 (UTC)。 |
OperationName | 与日志记录相关联的操作。 |
InstanceId | 生成此日志记录的实例的 ID。 |
DeploymentName | 与日志记录关联的部署的名称。 |
名称 | 事件的名称。 |
消息 | 事件内容。 |
有关此日志的详细信息,请参阅监视联机终结点。
相关内容
- 有关监视机器学习的说明,请参阅监视机器学习。
- 请参阅使用 Azure Monitor 监视 Azure 资源,详细了解如何监视 Azure 资源。