本文包含此服务的所有监视参考信息。
请参阅监视 Azure Kubernetes 服务 (AKS),详细了解可为 AKS 收集的数据以及如何使用这些数据。
指标
本部分列出了为此服务自动收集的所有平台指标。
有关指标保留的信息,请参阅 Azure Monitor 指标概述。
默认 ON 目标的最少引入
默认 ON 目标允许使用 minimalingestionprofile=true
列出以下指标。 默认情况下会收集以下指标,因为这些目标默认已抓取。
controlplane-apiserver:
apiserver_request_total
apiserver_cache_list_fetched_objects_total
apiserver_cache_list_returned_objects_total
apiserver_flowcontrol_demand_seats_average
apiserver_flowcontrol_current_limit_seats
apiserver_request_sli_duration_seconds_bucket
apiserver_request_sli_duration_seconds_sum
apiserver_request_sli_duration_seconds_count
process_start_time_seconds
apiserver_request_duration_seconds_bucket
apiserver_request_duration_seconds_sum
apiserver_request_duration_seconds_count
apiserver_storage_list_fetched_objects_total
apiserver_storage_list_returned_objects_total
apiserver_current_inflight_requests
注释
最新版本现在不会收集 apiserver_request_sli_duration_seconds_bucket
和 apiserver_request_duration_seconds_bucket
。 这些是高基数指标,可以基于群集中自定义资源的数量来增加所存储的指标数量。 如果要收集这些 Bucket 指标,则可以将其添加到保留列表。 强烈建议不要关闭控制平面组件的最小引入配置文件
controlplane-etcd:
etcd_server_has_leader
rest_client_requests_total
etcd_mvcc_db_total_size_in_bytes
etcd_mvcc_db_total_size_in_use_in_bytes
etcd_server_slow_read_indexes_total
etcd_server_slow_apply_total
etcd_network_client_grpc_sent_bytes_total
etcd_server_heartbeat_send_failures_total
默认 OFF 目标的最少引入
默认 OFF 目标允许使用 minimalingestionprofile=true
列出以下指标。 默认情况下不收集以下指标。 可以使用 部分下的 default-scrape-settings-enabled.<target-name>=true
使用 开启这些目标的抓取。default-scrape-settings-enabled
controlplane-kube-controller-manager:
workqueue_depth
rest_client_requests_total
rest_client_request_duration_seconds
controlplane-kube-scheduler:
scheduler_pending_pods
scheduler_unschedulable_pods
scheduler_queue_incoming_pods_total
scheduler_schedule_attempts_total
scheduler_preemption_attempts_total
controlplane-cluster-autoscaler:
rest_client_requests_total
cluster_autoscaler_last_activity
cluster_autoscaler_cluster_safe_to_autoscale
cluster_autoscaler_failed_scale_ups_total
cluster_autoscaler_scale_down_in_cooldown
cluster_autoscaler_scaled_up_nodes_total
cluster_autoscaler_unneeded_nodes_count
cluster_autoscaler_unschedulable_pods_count
cluster_autoscaler_nodes_count
cloudprovider_azure_api_request_errors
cloudprovider_azure_api_request_duration_seconds_bucket
cloudprovider_azure_api_request_duration_seconds_count
注释
无论配置文件如何,都不会公开所有控制平面目标的 CPU 和内存使用情况指标。
指标维度
有关指标维度定义的信息,请参阅多维指标。
此服务具有以下与其指标关联的维度。
维度名称 | 说明 |
---|---|
requestKind | 由“即时请求”等指标用于按请求类型拆分。 |
条件 | 由“各种节点条件的状态”、“处于就绪状态的 Pod 数”等指标用于按条件类型拆分 。 |
状态 | 由“各种节点条件的状态”等指标用于按条件状态拆分。 |
status2 | 由“各种节点条件的状态”等指标用于按条件状态拆分。 |
节点 | 由“CPU 使用率(毫核心)”等指标用于按节点名称拆分。 |
阶段 | 由“按相位划分的 Pod 数”等指标用于按 Pod 的相位进行拆分。 |
命名空间 | 由“按相位划分的 Pod 数”等指标用于按 Pod 的命名空间进行拆分。 |
Pod | 由“按相位划分的 Pod 数”等指标用于按 Pod 的名称进行拆分。 |
nodepool | 由“磁盘已用字节数”等指标用于按节点池的名称拆分。 |
设备 | 由“磁盘已用字节数”等指标用于按设备的名称拆分。 |
3gppGen | 由活动 PDU 会话数等指标使用。 |
原因 | 由用户平面数据包丢弃率等指标使用。 |
方向 | 由用户平面带宽等指标使用。 |
Dnn | 由 PDU 会话建立尝试速率等指标使用。 |
接口 | 由用户平面带宽等指标使用。 |
伦 | 由使用的数据磁盘带宽的百分比等指标使用。 |
PccpId | 由活动 PDU 会话数等指标使用。 |
结果 | 由身份验证失败率等指标使用。 |
SiteId | 由活动 PDU 会话数等指标使用。 |
台 | 由服务请求失败率等指标使用。 |
VMName | 由物理内存量等指标使用。 |
资源日志
本部分列出了可为此服务收集的资源日志类型。 本部分拉取自 Azure Monitor 支持的所有资源日志类别类型列表。
下表列出了可能在活动日志中创建的与 AKS 相关的一些示例操作。 使用活动日志可以跟踪信息,例如创建群集或更改群集配置的时间。 可以在门户中或使用其他方法查看此信息。 还可将其用于创建活动日志警报,以便在发生某个事件时主动收到通知。
操作 | 说明 |
---|---|
Microsoft.ContainerService/managedClusters/write | 创建或更新托管群集 |
Microsoft.ContainerService/managedClusters/delete | 删除托管群集 |
Microsoft.ContainerService/受管集群/列出集群监控用户凭证/操作 | 列出 clusterMonitoringUser 凭据 |
Microsoft.ContainerService / managedClusters / listClusterAdminCredential / action | 列出 clusterAdmin 凭据 |
Microsoft.ContainerService/managedClusters/agentpools/write | 创建或更新代理池 |
相关内容
- 有关监视 AKS 的说明,请参阅监视器Azure Kubernetes 服务。
- 请参阅使用 Azure Monitor 监视 Azure 资源,详细了解如何监视 Azure 资源。