共用方式為

Microsoft.CognitiveServices/accounts/projects 支持的指标

下表列出了可用于 Microsoft.CognitiveServices/accounts/projects 资源类型的指标。

表标题

指标 是该指标在 Azure 门户中的显示名称。
Rest API 中的名称 - 在 REST API 中引用的指标名称。
单位 - 度量单位。
聚合 - 默认的聚合类型。 有效值:平均值、最小值、最大值、总计、计数。
可用维度 - 适用于该指标的维度
时间粒度 - 对指标采样的间隔。 例如,PT1M 表示该指标每分钟采样一次,PT30M 表示每 30 分钟一次,PT1H 表示每小时一次,以此类推。
DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。

要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置

有关指标保留的信息,请参阅 Azure Monitor 指标概述

类别:AI 代理

指标 REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
代理事件(预览版)

此项目中 AI 代理的事件数。
AgentEvents 计数 总计(求和)、平均值、最大值、最小值 EventType PT1M
代理输入令牌(预览版)

此项目中 AI 代理的输入令牌数。
AgentInputTokens 计数 总计(求和)、平均值、最大值、最小值 AgentIdTokenType PT1M
代理用户消息 (预览版)

此项目中 AI 代理用户消息的事件数。
AgentMessages 计数 总计(求和)、平均值、最大值、最小值 EventTypeThreadId PT1M
代理输出令牌(预览版)

此项目中 AI 代理的输出令牌数。
AgentOutputTokens 计数 总计(求和)、平均值、最大值、最小值 AgentIdTokenType PT1M
代理运行 (预览版)

此项目中 AI 代理运行的次数。
AgentRuns 计数 总计(求和)、平均值、最大值、最小值 AgentIdRunStatusStatusCodeThreadIdStreamType PT1M
代理线程 (预览版)

此项目中 AI 代理线程的事件数。
AgentThreads 计数 总计(求和)、平均值、最大值、最小值 EventType PT1M
代理工具调用 (预览版)

此项目中 AI 代理发出的工具调用数。
AgentToolCalls 计数 总计(求和)、平均值、最大值、最小值 AgentIdToolName PT1M
代理使用情况索引文件 (预览版)

为 AI 代理使用情况编制索引的文件数,例如在此项目中检索。
AgentUsageIndexedFiles 计数 总计(求和)、平均值、最大值、最小值 ErrorCodeStatusVectorStoreId PT1M

类别:模型 - HTTP 请求

指标 REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
模型可用性率

使用以下公式计算可用性百分比:(调用总数 - 服务器错误数)/调用总数。 服务器错误包括任何 >=500 的 HTTP 响应。
ModelAvailabilityRate Percent 最小值、最大值、平均值 RegionModelDeploymentNameModelNameModelVersion PT1M
模型请求

在一段时间内对模型 API 进行的调用数。 适用于 PTU、PTU 管理的部署以及即用即付部署。
ModelRequests 计数 总计(总和) ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode PT1M 是的

类别:模型 - 延迟

指标 REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
令牌之间的时间

对于流式处理请求;模型令牌生成速率,以毫秒为单位。 适用于 PTU 和 PTU 管理的部署。
NormalizedTimeBetweenTokens MilliSeconds 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M 是的
标准化首次字节时间

对于流式处理和非流式处理请求,模型发出请求后,接收第一字节响应数据所需的时间,并通过令牌规范化。 适用于 PTU、PTU 管理的部署以及即用即付部署。
NormalizedTimeToFirstToken MilliSeconds 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M 是的
至最后一字节的时间

对于流式处理和非流式处理请求,模型发出请求后,接收最后一个字节响应数据所需的时间。 适用于 PTU、PTU 管理的部署以及即用即付部署。
TimeToLastByte MilliSeconds 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M 是的
响应时间

对于流式处理请求,建议使用延迟(响应能力)度量值。 适用于 PTU 和 PTU 管理的部署。 计算方式为用户发送提示后首个响应出现所花费的时间,由 API 网关进行度量。 随着提示大小增加和/或缓存命中大小减小,此数字将增加。 若要细分响应指标的时间,可以添加筛选器或按以下维度应用拆分:ModelDeploymentName、ModelName 和 ModelVersion。

注意:此指标是一个近似值,因为测量的延迟在很大程度上取决于多个因素,包括并发调用和总体工作负载模式。 此外,它不考虑客户端与 API 终结点之间可能存在的任何客户端延迟。 请参阅您自己的日志记录,以达到最佳的延迟跟踪。
TimeToResponse MilliSeconds 最小值、最大值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode PT1M 是的
每秒令牌数

枚举给定模型响应的生成速度。 生成的令牌总数除以生成令牌的时间(以秒为单位)。 适用于 PTU 和 PTU 管理的部署。
TokensPerSecond 计数 最大值、最小值、平均值 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M 是的

类别:模型 - 使用情况

指标 REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
音频输出令牌

OpenAI 模型上生成的音频提示令牌数(输出)。 适用于 PTU 托管的模型部署。
AudioOutputTokens 计数 总计(总和) ModelDeploymentNameModelNameModelVersionRegion PT1M 是的
输入标记

在模型上处理(输入)的提示标记数量。 适用于 PTU、PTU 管理的部署以及即用即付部署。
InputTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
输出令牌

从 OpenAI 模型生成(输出)的令牌数。 适用于 PTU、PTU 管理的部署以及即用即付部署。
OutputTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
预配利用率

预配管理的部署的利用率百分比,计算公式为 (已使用的 PTU/已部署的 PTU) x 100。 当利用率大于或等于 100% 时,调用将受到限制,并返回错误代码 429。
ProvisionedUtilization Percent 最小值、最大值、平均值 RegionModelDeploymentNameModelNameModelVersion PT1M
令牌总数

在模型上处理的推理标记数量。 计算公式为提示令牌(输入)加上生成的令牌(输出)。 适用于 PTU、PTU 管理的部署以及即用即付部署。
TotalTokens 计数 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的

后续步骤