Azure Kubernetes 服务监视数据参考

本文包含此服务的所有监视参考信息。

请参阅监视 Azure Kubernetes 服务 (AKS),详细了解可为 AKS 收集的数据以及如何使用这些数据。

指标

本部分列出了为此服务自动收集的所有平台指标。

有关指标保留的信息,请参阅 Azure Monitor 指标概述

默认 ON 目标的最少引入

默认 ON 目标允许使用 minimalingestionprofile=true 列出以下指标。 默认情况下会收集以下指标,因为这些目标默认已抓取。

controlplane-apiserver:

  • apiserver_request_total
  • apiserver_cache_list_fetched_objects_total
  • apiserver_cache_list_returned_objects_total
  • apiserver_flowcontrol_demand_seats_average
  • apiserver_flowcontrol_current_limit_seats
  • apiserver_request_sli_duration_seconds_bucket
  • apiserver_request_sli_duration_seconds_sum
  • apiserver_request_sli_duration_seconds_count
  • process_start_time_seconds
  • apiserver_request_duration_seconds_bucket
  • apiserver_request_duration_seconds_sum
  • apiserver_request_duration_seconds_count
  • apiserver_storage_list_fetched_objects_total
  • apiserver_storage_list_returned_objects_total
  • apiserver_current_inflight_requests

注释

最新版本现在不会收集 apiserver_request_sli_duration_seconds_bucketapiserver_request_duration_seconds_bucket。 这些是高基数指标,可以基于群集中自定义资源的数量来增加所存储的指标数量。 如果要收集这些 Bucket 指标,则可以将其添加到保留列表。 强烈建议不要关闭控制平面组件的最小引入配置文件

controlplane-etcd:

  • etcd_server_has_leader
  • rest_client_requests_total
  • etcd_mvcc_db_total_size_in_bytes
  • etcd_mvcc_db_total_size_in_use_in_bytes
  • etcd_server_slow_read_indexes_total
  • etcd_server_slow_apply_total
  • etcd_network_client_grpc_sent_bytes_total
  • etcd_server_heartbeat_send_failures_total

默认 OFF 目标的最少引入

默认 OFF 目标允许使用 minimalingestionprofile=true 列出以下指标。 默认情况下不收集以下指标。 可以使用 部分下的 default-scrape-settings-enabled.<target-name>=true 使用 开启这些目标的抓取。default-scrape-settings-enabled

controlplane-kube-controller-manager:

  • workqueue_depth
  • rest_client_requests_total
  • rest_client_request_duration_seconds

controlplane-kube-scheduler:

  • scheduler_pending_pods
  • scheduler_unschedulable_pods
  • scheduler_queue_incoming_pods_total
  • scheduler_schedule_attempts_total
  • scheduler_preemption_attempts_total

controlplane-cluster-autoscaler:

  • rest_client_requests_total
  • cluster_autoscaler_last_activity
  • cluster_autoscaler_cluster_safe_to_autoscale
  • cluster_autoscaler_failed_scale_ups_total
  • cluster_autoscaler_scale_down_in_cooldown
  • cluster_autoscaler_scaled_up_nodes_total
  • cluster_autoscaler_unneeded_nodes_count
  • cluster_autoscaler_unschedulable_pods_count
  • cluster_autoscaler_nodes_count
  • cloudprovider_azure_api_request_errors
  • cloudprovider_azure_api_request_duration_seconds_bucket
  • cloudprovider_azure_api_request_duration_seconds_count

注释

无论配置文件如何,都不会公开所有控制平面目标的 CPU 和内存使用情况指标。

指标维度

有关指标维度定义的信息,请参阅多维指标

此服务具有以下与其指标关联的维度。

维度名称 说明
requestKind 由“即时请求”等指标用于按请求类型拆分。
条件 由“各种节点条件的状态”、“处于就绪状态的 Pod 数”等指标用于按条件类型拆分 。
状态 由“各种节点条件的状态”等指标用于按条件状态拆分。
status2 由“各种节点条件的状态”等指标用于按条件状态拆分。
节点 由“CPU 使用率(毫核心)”等指标用于按节点名称拆分。
阶段 由“按相位划分的 Pod 数”等指标用于按 Pod 的相位进行拆分。
命名空间 由“按相位划分的 Pod 数”等指标用于按 Pod 的命名空间进行拆分。
Pod 由“按相位划分的 Pod 数”等指标用于按 Pod 的名称进行拆分。
nodepool 由“磁盘已用字节数”等指标用于按节点池的名称拆分。
设备 由“磁盘已用字节数”等指标用于按设备的名称拆分。
3gppGen 活动 PDU 会话数等指标使用。
原因 用户平面数据包丢弃率等指标使用。
方向 用户平面带宽等指标使用。
Dnn PDU 会话建立尝试速率等指标使用。
接口 用户平面带宽等指标使用。
使用的数据磁盘带宽的百分比等指标使用。
PccpId 活动 PDU 会话数等指标使用。
结果 身份验证失败率等指标使用。
SiteId 活动 PDU 会话数等指标使用。
服务请求失败率等指标使用。
VMName 物理内存量等指标使用。

资源日志

本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。

下表列出了可能在活动日志中创建的与 AKS 相关的一些示例操作。 使用活动日志可以跟踪信息,例如创建群集或更改群集配置的时间。 可以在门户中或使用其他方法查看此信息。 还可将其用于创建活动日志警报,以便在发生某个事件时主动收到通知。

操作 说明
Microsoft.ContainerService/managedClusters/write 创建或更新托管群集
Microsoft.ContainerService/managedClusters/delete 删除托管群集
Microsoft.ContainerService/受管集群/列出集群监控用户凭证/操作 列出 clusterMonitoringUser 凭据
Microsoft.ContainerService / managedClusters / listClusterAdminCredential / action 列出 clusterAdmin 凭据
Microsoft.ContainerService/managedClusters/agentpools/write 创建或更新代理池