下表列出了可用于 Microsoft.CognitiveServices/accounts/projects 资源类型的指标。
表标题
指标 是该指标在 Azure 门户中的显示名称。
Rest API 中的名称 - 在 REST API 中引用的指标名称。
单位 - 度量单位。
聚合 - 默认的聚合类型。 有效值:平均值、最小值、最大值、总计、计数。
可用维度 - 适用于该指标的维度。
时间粒度 - 对指标采样的间隔。 例如,PT1M
表示该指标每分钟采样一次,PT30M
表示每 30 分钟一次,PT1H
表示每小时一次,以此类推。
DS 导出 - 是否可通过诊断设置将指标导出到 Azure Monitor 日志。
要了解如何导出指标的信息,请参阅在 Azure Monitor 中创建诊断设置。
有关指标保留的信息,请参阅 Azure Monitor 指标概述。
类别:AI 代理
指标 | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|
代理事件(预览版) 此项目中 AI 代理的事件数。 |
AgentEvents |
计数 | 总计(求和)、平均值、最大值、最小值 | EventType |
PT1M | 否 |
代理输入令牌(预览版) 此项目中 AI 代理的输入令牌数。 |
AgentInputTokens |
计数 | 总计(求和)、平均值、最大值、最小值 |
AgentId 、TokenType |
PT1M | 否 |
代理用户消息 (预览版) 此项目中 AI 代理用户消息的事件数。 |
AgentMessages |
计数 | 总计(求和)、平均值、最大值、最小值 |
EventType 、ThreadId |
PT1M | 否 |
代理输出令牌(预览版) 此项目中 AI 代理的输出令牌数。 |
AgentOutputTokens |
计数 | 总计(求和)、平均值、最大值、最小值 |
AgentId 、TokenType |
PT1M | 否 |
代理运行 (预览版) 此项目中 AI 代理运行的次数。 |
AgentRuns |
计数 | 总计(求和)、平均值、最大值、最小值 |
AgentId 、RunStatus 、StatusCode 、ThreadId 、StreamType |
PT1M | 否 |
代理线程 (预览版) 此项目中 AI 代理线程的事件数。 |
AgentThreads |
计数 | 总计(求和)、平均值、最大值、最小值 | EventType |
PT1M | 否 |
代理工具调用 (预览版) 此项目中 AI 代理发出的工具调用数。 |
AgentToolCalls |
计数 | 总计(求和)、平均值、最大值、最小值 |
AgentId 、ToolName |
PT1M | 否 |
代理使用情况索引文件 (预览版) 为 AI 代理使用情况编制索引的文件数,例如在此项目中检索。 |
AgentUsageIndexedFiles |
计数 | 总计(求和)、平均值、最大值、最小值 |
ErrorCode 、Status 、VectorStoreId |
PT1M | 否 |
类别:模型 - HTTP 请求
指标 | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|
模型可用性率 使用以下公式计算可用性百分比:(调用总数 - 服务器错误数)/调用总数。 服务器错误包括任何 >=500 的 HTTP 响应。 |
ModelAvailabilityRate |
Percent | 最小值、最大值、平均值 |
Region 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 否 |
模型请求 在一段时间内对模型 API 进行的调用数。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
ModelRequests |
计数 | 总计(总和) |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
PT1M | 是的 |
类别:模型 - 延迟
指标 | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|
令牌之间的时间 对于流式处理请求;模型令牌生成速率,以毫秒为单位。 适用于 PTU 和 PTU 管理的部署。 |
NormalizedTimeBetweenTokens |
MilliSeconds | 最大值、最小值、平均值 |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
标准化首次字节时间 对于流式处理和非流式处理请求,模型发出请求后,接收第一字节响应数据所需的时间,并通过令牌规范化。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
NormalizedTimeToFirstToken |
MilliSeconds | 最大值、最小值、平均值 |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
至最后一字节的时间 对于流式处理和非流式处理请求,模型发出请求后,接收最后一个字节响应数据所需的时间。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
TimeToLastByte |
MilliSeconds | 最大值、最小值、平均值 |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
响应时间 对于流式处理请求,建议使用延迟(响应能力)度量值。 适用于 PTU 和 PTU 管理的部署。 计算方式为用户发送提示后首个响应出现所花费的时间,由 API 网关进行度量。 随着提示大小增加和/或缓存命中大小减小,此数字将增加。 若要细分响应指标的时间,可以添加筛选器或按以下维度应用拆分:ModelDeploymentName、ModelName 和 ModelVersion。 注意:此指标是一个近似值,因为测量的延迟在很大程度上取决于多个因素,包括并发调用和总体工作负载模式。 此外,它不考虑客户端与 API 终结点之间可能存在的任何客户端延迟。 请参阅您自己的日志记录,以达到最佳的延迟跟踪。 |
TimeToResponse |
MilliSeconds | 最小值、最大值、平均值 |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion 、StatusCode |
PT1M | 是的 |
每秒令牌数 枚举给定模型响应的生成速度。 生成的令牌总数除以生成令牌的时间(以秒为单位)。 适用于 PTU 和 PTU 管理的部署。 |
TokensPerSecond |
计数 | 最大值、最小值、平均值 |
ApiName 、OperationName 、Region 、StreamType 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
类别:模型 - 使用情况
指标 | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
---|---|---|---|---|---|---|
音频输出令牌 OpenAI 模型上生成的音频提示令牌数(输出)。 适用于 PTU 托管的模型部署。 |
AudioOutputTokens |
计数 | 总计(总和) |
ModelDeploymentName 、ModelName 、ModelVersion 、Region |
PT1M | 是的 |
输入标记 在模型上处理(输入)的提示标记数量。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
InputTokens |
计数 | 总计(总和) |
ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
输出令牌 从 OpenAI 模型生成(输出)的令牌数。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
OutputTokens |
计数 | 总计(总和) |
ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |
预配利用率 预配管理的部署的利用率百分比,计算公式为 (已使用的 PTU/已部署的 PTU) x 100。 当利用率大于或等于 100% 时,调用将受到限制,并返回错误代码 429。 |
ProvisionedUtilization |
Percent | 最小值、最大值、平均值 |
Region 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 否 |
令牌总数 在模型上处理的推理标记数量。 计算公式为提示令牌(输入)加上生成的令牌(输出)。 适用于 PTU、PTU 管理的部署以及即用即付部署。 |
TotalTokens |
计数 | 总计(总和) |
ApiName 、Region 、ModelDeploymentName 、ModelName 、ModelVersion |
PT1M | 是的 |