Azure Monitor 中的 Kubernetes 工作簿

可以使用各种 Azure Monitor 工作簿 来分析 Kubernetes 群集收集的数据。 本文介绍可用的不同工作簿以及如何访问它们。

注释

如果筛选了为群集收集的数据,工作簿可能无法按预期工作。

查看工作簿

在 Azure 门户中集群的菜单中,选择“监视”部分中的“工作簿”。 Kubernetes 服务部分列出了可用的不同 Kubernetes 工作簿。

显示“报表”页的屏幕截图。

群集优化工作簿

群集优化工作簿提供了多个分析器,可快速查看 Kubernetes 群集的运行状况和性能。 它具有多个分析器,每个分析器都提供与群集相关的不同信息。 在群集上启用 Prometheus 指标和日志收集后,工作簿无需配置。

生存情况探测失败

存活性探针故障分析器显示最近哪些存活性探针失败,以及其发生频率。 选择一个以查看时序出现的次数。 此分析器具有以下列:

  • 总计:计算整个时间范围内的实时探测失败次数
  • 控制器总计:统计控制器管理的所有容器中的存活探针失败次数。

群集优化工作簿的屏幕截图。

事件异常

事件异常分析器将类似事件组合在一起,以便于分析。 它还显示哪些事件组的数量最近有所增加。 列表中的事件根据常见短语进行分组。 例如,消息 “pod-abc-123 失败,无法拉取映像”“pod-def-456 失败,无法拉取映像” 的两个事件将分组在一起。 Spikiness 列评估哪些事件发生得较为近期。 例如,如果上个月事件 A 和 B 平均每天发生 10 次,但事件 A 昨天发生 1,000 次,而事件 B 昨天仅发生 2 次,则事件 A 的尖峰频率评级将远高于事件 B。

群集优化工作簿中事件异常分析器的屏幕截图。

容器优化器

容器优化器分析器根据实际使用模式识别 CPU 过多和内存限制和请求的容器。 每个磁贴可以表示具有相同规格的多个容器。例如,如果部署创建 100 个相同的 Pod,每个 Pod 都有一个容器 C1 和 C2,则所有 C1 容器都有一个磁贴,所有 C2 容器都有一个磁贴。 具有设置限制和请求的容器采用从绿色到红色的渐变进行颜色编码。

重要

此视图排除 kube-system 命名空间中的容器,不支持 Windows Server 节点。

每个磁贴上显示的数字表示容器限制/请求与最佳/建议值之间的距离。 数字越接近 0,资源分配越好。 每个磁贴都有一种颜色来指示其效率:

  • 绿色:精心设定的限制和请求
  • 红色:过多的限制或请求
  • 灰色:取消设置限制或请求

群集优化工作簿中的容器优化器分析器的屏幕截图。

节点监视工作簿

  • 磁盘容量:按以下观点显示给容器中节点的每个磁盘的交互式磁盘使用情况图表:

    • 所有磁盘的磁盘使用率百分比。
    • 为所有磁盘释放磁盘空间。
    • 显示每个节点的磁盘、已用空间百分比、已用空间百分比趋势、可用磁盘空间(GiB)和可用磁盘空间趋势(GiB)的网格。 在表中选择行时,已用空间和可用磁盘空间(GiB)的百分比显示在行下方。
  • 磁盘 IO:容器中向节点呈现的每个磁盘的交互式磁盘利用率图表,透视图如下:

    • 所有磁盘的 I/O 活动通过读取字节数/秒、写入字节数/秒以及读取和写入字节数/秒的趋势进行汇总。
    • 八个性能图表显示关键性能指标,以帮助测量和识别磁盘 I/O 瓶颈。
  • GPU:为每个支持 GPU 的 Kubernetes 群集节点提供交互式 GPU 使用情况图表。

注释

根据 Kubernetes 上游公告,GPU 指标收集功能将默认禁用。 有关如何继续收集 GPU 指标的说明,请参阅 使用容器见解配置 GPU 监视

  • 子网 IP 使用情况:群集中每个节点的交互式 IP 使用情况图表,透视图如下:

    • 从子网分配的 IP。
    • 分配给 Pod 的 IP 地址。

注释

默认情况下,16 个 IP 从子网分配给每个节点。 这不能修改为小于 16。

资源监控工作簿

  • 部署:您的部署状态以及水平 Pod 自动缩放器 (HPA),包括自定义 HPA。

  • 工作负荷详细信息:显示命名空间工作负荷性能统计信息的交互式图表。 包括以下多个选项卡:

    • Pod 的 CPU 和内存使用情况概述
    • POD/容器状态 ,显示 Pod 重启趋势、容器重启趋势和 Pod 的容器状态。
    • Kubernetes 事件 显示控制器的事件摘要。
  • Kubelet:包括两个网格,显示关键节点操作统计信息。

    • 节点网格概述汇总了每个节点的总操作次数、总错误数和成功操作百分比及其趋势。
    • 按操作类型概述每个操作的总操作量、总错误数以及成功操作的百分比和趋势。

计费工作簿

  • 数据使用情况:帮助你可视化数据源,而无需根据我们在文档中共享的内容生成自己的查询库。 在此工作簿中,可以查看显示可计费数据的图表,例如:

    • 按解决方案引入的总计费数据(以 GB 为单位)。
    • 由容器日志(应用程序日志)引入的计费数据。
    • 计费容器记录 Kubernetes 命名空间引入的数据。
    • 计费容器记录按群集名称引入的数据。
    • 由日志源条目引入的容器计费日志数据。
    • 由诊断主节点日志引入的可计费诊断数据。

网络工作簿

  • NPM 配置:监视网络配置,这些配置是通过网络策略管理器(NPM)为以下项目配置的:

    • 有关整体配置复杂性的摘要信息。
    • 策略、规则和集合计数随时间演变,允许深入了解这三者之间的关系,并通过添加时间维度来调试配置。
    • 所有 IPSet 和每个 IPSet 中的条目数。
    • 每个节点在将组件添加到网络配置时的最坏情况和平均情况性能。
  • 网络:每个节点网络适配器的交互式网络利用率图表。 网格提供关键绩效指标,以帮助测量网络适配器的性能。

创建自定义工作簿

若要基于这些工作簿中的任何一个创建自定义工作簿,请选择 “查看工作簿 ”下拉列表,然后选择列表底部 的“转到 AKS 库 ”。 有关工作簿和使用工作簿模板的详细信息,请参阅 Azure Monitor 工作簿

显示 AKS 库的屏幕截图。

后续步骤

  • 了解如何在 Azure 门户的容器见解中分析 Kubernetes 监控数据。