Microsoft.MachineLearningServices/workspaces 支持的指标
下表列出了可用于 Microsoft.MachineLearningServices/workspaces 资源类型的指标。
表标题
指标 - 在 Azure 门户中显示的指标显示名称。
Rest API 中的名称 - 在 REST API 中引用的指标名称。
单位 - 度量单位。
聚合 - 默认的聚合类型。 有效值:平均值、最小值、最大值、总计、计数。
维度 - 适用于指标的维度。
时间粒度 - 对指标采样的间隔。 例如,PT1M
表示该指标每分钟采样一次,PT30M
表示每 30 分钟一次,PT1H
表示每小时一次,以此类推。
DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。
要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置。
有关指标保留的信息,请参阅 Azure Monitor 指标概述。
有关支持的日志列表,请参阅支持的日志类别 - Microsoft.MachineLearningServices/workspaces
类别 | 指标 | REST API 中的名称 | Unit | 聚合 | 维度 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|---|
配额 | 活动核心数 活动核心数 |
Active Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 活动节点数 活动节点数。 这些节点是正在运行作业的节点。 |
Active Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
运行 | 请求取消运行数 此工作区请求取消的运行数。 当收到用于运行的取消请求时,将更新计数。 |
Cancel Requested Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 已取消运行数 此工作区取消的运行数。 成功取消运行时,将更新计数。 |
Cancelled Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 已完成的运行数 已成功为此工作区完成的运行数。 当运行完成并收集输出时,将更新计数。 |
Completed Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
资源 | CpuCapacityMillicores CPU 节点的最大容量(以毫核为单位)。 容量每分钟聚合一次。 |
CpuCapacityMillicores |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | CpuMemoryCapacityMegabytes CPU 节点的最大内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。 |
CpuMemoryCapacityMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | CpuMemoryUtilizationMegabytes CPU 节点的内存利用率(以 MB 为单位)。 利用率每分钟聚合一次。 |
CpuMemoryUtilizationMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | CpuMemoryUtilizationPercentage CPU 节点的内存利用率百分比。 利用率每分钟聚合一次。 |
CpuMemoryUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | CpuUtilization CPU 节点上的使用率百分比。 利用率每分钟报告一次。 |
CpuUtilization |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、runId 、NodeId 、ClusterName |
PT1M | 是 |
资源 | CpuUtilizationMillicores CPU 节点的利用率(以毫核为单位)。 利用率每分钟聚合一次。 |
CpuUtilizationMillicores |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | CpuUtilizationPercentage CPU 节点的利用率百分比。 利用率每分钟聚合一次。 |
CpuUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | DiskAvailMegabytes 可用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskAvailMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | DiskReadMegabytes 从磁盘读取的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskReadMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | DiskUsedMegabytes 已用磁盘空间(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskUsedMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | DiskWriteMegabytes 写入磁盘的数据(以 MB 为单位)。 指标按一分钟的时间间隔进行聚合。 |
DiskWriteMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
运行 | 错误 此工作区中的运行错误数。 运行遇到错误时,将更新计数。 |
Errors |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario |
PT1M | 是 |
运行 | 失败的运行次数 此工作区失败的运行数。 运行失败时,将更新计数。 |
Failed Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 完成状态运行数 此工作区的进入完成状态的运行数。 运行已完成但输出收集仍在进行时,将更新计数。 |
Finalizing Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
资源 | GpuCapacityMilliGPUs GPU 设备的最大容量(以毫 GPU 为单位)。 容量每分钟聚合一次。 |
GpuCapacityMilliGPUs |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuEnergyJoules GPU 节点上的间隔功耗(焦耳)。 功耗每分钟报告一次。 |
GpuEnergyJoules |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、runId 、rootRunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuMemoryCapacityMegabytes GPU 设备的最大内存容量(以兆字节为单位)。 容量每分钟聚合一次。 |
GpuMemoryCapacityMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuMemoryUtilization GPU 节点上内存利用率的百分比。 利用率每分钟报告一次。 |
GpuMemoryUtilization |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、runId 、NodeId 、DeviceId 、ClusterName |
PT1M | 是 |
资源 | GpuMemoryUtilizationMegabytes GPU 设备的内存利用率(以兆字节为单位)。 利用率每分钟聚合一次。 |
GpuMemoryUtilizationMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuMemoryUtilizationPercentage GPU 设备的内存利用率百分比。 利用率每分钟聚合一次。 |
GpuMemoryUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuUtilization GPU 节点上的使用率百分比。 利用率每分钟报告一次。 |
GpuUtilization |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、runId 、NodeId 、DeviceId 、ClusterName |
PT1M | 是 |
资源 | GpuUtilizationMilliGPUs GPU 设备利用率(以毫 GPU 为单位)。 利用率每分钟聚合一次。 |
GpuUtilizationMilliGPUs |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | GpuUtilizationPercentage GPU 设备的利用率百分比。 利用率每分钟聚合一次。 |
GpuUtilizationPercentage |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、DeviceId 、ComputeName |
PT1M | 是 |
资源 | IBReceiveMegabytes 通过 InfiniBand 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
IBReceiveMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName 、DeviceId |
PT1M | 是 |
资源 | IBTransmitMegabytes 通过 InfiniBand 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
IBTransmitMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName 、DeviceId |
PT1M | 是 |
配额 | 空闲核心数 空闲核心数 |
Idle Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 空闲节点数 空闲节点数。 空闲节点是指未运行任何作业,但可以接受新作业(如果可用)的节点。 |
Idle Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 正在退出的核心数 正在退出的核心数 |
Leaving Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 正在退出的节点数 正在退出的节点数。 正在退出的节点是指刚刚完成了作业处理,将进入空闲状态的节点。 |
Leaving Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
型号 | 失败的模型部署数 此工作区中失败的模型部署数 |
Model Deploy Failed |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、StatusCode |
PT1M | 是 |
型号 | 已启动的模型部署数 此工作区中已启动的模型部署数 |
Model Deploy Started |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario |
PT1M | 是 |
型号 | 成功的模型部署数 此工作区中成功的模型部署数 |
Model Deploy Succeeded |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario |
PT1M | 是 |
型号 | 失败的模型注册数 此工作区中失败的模型注册数 |
Model Register Failed |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、StatusCode |
PT1M | 是 |
型号 | 成功的模型注册数 此工作区中成功的模型注册数 |
Model Register Succeeded |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario |
PT1M | 是 |
资源 | NetworkInputMegabytes 接收的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
NetworkInputMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName 、DeviceId |
PT1M | 是 |
资源 | NetworkOutputMegabytes 发送的网络数据(以兆字节为单位)。 指标按一分钟的时间间隔进行聚合。 |
NetworkOutputMegabytes |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName 、DeviceId |
PT1M | 是 |
运行 | 无响应运行数 此工作区无响应的运行数。 当运行进入无响应状态时,将更新计数。 |
Not Responding Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 未启动运行 此工作区处于“未启动”状态的运行数。 当收到创建运行的请求但尚未填充运行信息时,将更新计数。 |
Not Started Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
配额 | 占用的核心数 占用的核心数 |
Preempted Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 占用的节点数 占用的节点数。 这些节点是已从可用节点池中取出的低优先级节点。 |
Preempted Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
运行 | 准备的运行数 为此工作区准备的运行数。 准备运行环境时,当运行进入准备状态时,将更新计数。 |
Preparing Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 预配运行数 为此工作区预配的运行数。 当运行正在等待创建或预配计算目标时,将更新计数。 |
Provisioning Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 排队运行数 此工作区已排队的运行数。 当运行在计算目标中排队时,将更新计数。 等待所需计算节点准备就绪时,可能会发生。 |
Queued Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
配额 | 配额利用率百分比 已利用的配额百分比 |
Quota Utilization Percentage |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName 、VmFamilyName 、VmPriority |
PT1M | 是 |
运行 | 已启动的运行数 为此工作区运行的运行数。 运行在所需资源上开始运行时,将更新计数。 |
Started Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
运行 | 启动运行数 为此工作区启动的运行数。 在请求创建运行和运行信息(如运行 ID)已填充后,将更新计数 |
Starting Runs |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario 、RunType 、PublishedPipelineId 、ComputeType 、PipelineStepType 、ExperimentName |
PT1M | 是 |
资源 | StorageAPIFailureCount Azure Blob 存储 API 调用失败计数。 |
StorageAPIFailureCount |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
资源 | StorageAPISuccessCount Azure Blob 存储 API 调用成功计数。 |
StorageAPISuccessCount |
计数 | 平均值、最大值、最小值、总计(总和) | RunId 、InstanceId 、ComputeName |
PT1M | 是 |
配额 | 核心总数 核心总数 |
Total Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 节点总数 节点总数。 此总数包括一些活动节点、空闲节点、不可用的节点、占用的节点和正在退出的节点 |
Total Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 不可用的核心数 不可用的核心数 |
Unusable Cores |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
配额 | 不可用的节点数 不可用的节点数。 不可用的节点是由于存在某种不可解决的问题而无法正常运行的节点。 Azure 将回收这些节点。 |
Unusable Nodes |
计数 | 平均值、最大值、最小值、总计(总和) | Scenario 、ClusterName |
PT1M | 是 |
运行 | 警告 此工作区中的运行警告数。 运行遇到警告时,将更新计数。 |
Warnings |
计数 | 总计(总和)、平均值、最小值、最大值、计数 | Scenario |
PT1M | 是 |