Azure Kubernetes 服务“诊断并解决问题”概述

排查 Azure Kubernetes 服务 (AKS) 群集问题在维护群集方面发挥着重要作用,特别是在群集运行任务关键工作负荷的情况下。 AKS“诊断并解决问题”是一种智能的自我诊断体验,具有如下特点:

  • 帮助确定和解决群集中的问题。
  • 不需要额外的配置或收费。

打开 AKS“诊断并解决问题”

若要访问 AKS“诊断并解决问题”,请执行以下操作:

  1. Azure 门户中导航到 Kubernetes 群集。
  2. 在左侧导航栏中单击“诊断并解决问题”,这将打开 AKS“诊断并解决问题”功能。
  3. 选择最能描述群集问题的类别,方法如下:
    • 引用主页上每个磁贴说明中的关键字。
    • 在搜索栏中键入最能描述你的问题的关键字。

AKS“诊断并解决问题”主页的屏幕截图。

查看诊断报告

若要启动该工具并以无缝方式检索结果,请单击磁贴进行故障排除。 左侧导航窗格中有一个“概述”选项,可用于运行该特定类别中的所有诊断。 群集中发现的问题将显示在右侧面板上。 若要全面了解问题,请单击每个磁贴的“查看详细信息”,这将提供包含以下内容的详细说明:

  • 问题摘要
  • 错误详细信息
  • 建议的操作
  • 有用文档的链接
  • 相关指标
  • 记录数据

根据结果,可以按照详细说明或通过研读文档链接内容来有效解决手头的问题。

示例场景 1:我观察到应用程序断开连接或遇到间歇性连接问题。 因此,我单击“连接问题”磁贴以调查潜在原因。

AKS“诊断并解决问题”结果 - 网络连接磁贴的屏幕截图。

我收到诊断警报,指示断开连接问题可能与群集 DNS 有关。 为了收集详细信息,我单击了“查看详细信息”。

AKS“诊断并解决问题”- 网络连接的屏幕截图。

根据诊断结果,问题似乎与已知的 DNS 问题或 VNET 配置有关。 值得庆幸的是,我可以使用提供的文档链接来解决问题。

AKS“诊断并解决问题”结果 - 网络连接 -“群集 DNS”的屏幕截图。

此外,如果基于诊断结果提供的建议文档无法解决问题,则可以返回到诊断中的上一步,并参考其他文档。

AKS“诊断并解决问题”结果 - 其他 - 文档的屏幕截图。

使用 AKS“诊断并解决问题”获取最佳做法

在 AKS 上部署应用程序需要遵循最佳做法,以确保获得最佳的性能、可用性和安全性。 为此,AKS“诊断并解决问题”的“最佳做法”磁贴提供了一系列最佳做法,可帮助管理 VM 资源预配、群集升级、伸缩操作、子网配置以及群集配置的其他基本方面。 利用 AKS“诊断并解决问题”对于确保群集遵循最佳做法并及时有效地识别和解决任何潜在问题至关重要。 通过将 AKS“诊断并解决问题”纳入操作实践,你无需再担忧应用程序在生产环境中的可靠性和安全性。

示例场景 2:我的群集似乎运行状况良好。 所有节点都已准备就绪,并且应用程序未在运行中出现任何问题。 但是,我想知道我可以遵循哪些最佳做法来防止潜在的问题。 因此,我单击了“最佳做法”磁贴。 查看建议后,我发现,虽然我的群集目前看起来正常,但我仍可以执行一些操作来避免将来出现延迟、限制或 VM 运行时间问题。

AKS“诊断并解决问题”-“最佳做法”的屏幕截图。

AKS“诊断并解决问题”-“最佳做法”-结果的屏幕截图。

后续步骤

  • 收集日志,以帮助你使用 AKS Periscope 进一步排查群集问题。

  • 阅读 AKS Day-2 操作指南的会审实践部分

  • 通过在标题中添加“[Diag]”,在 UserVoice 上发布你的问题或反馈。