启用对 AKS 群集的监视

如 Azure Monitor 中的 Kubernetes 监视中所述，Azure Monitor 的多个功能协同工作，提供对 Azure Kubernetes 服务（AKS）群集的完整监视。本文介绍如何为 AKS 群集启用以下功能：

Prometheus 指标
托管 Grafana
容器日志记录
控制平面日志

先决条件

至少需要群集的参与者访问权限才能加入。
需要监视读取者或监视参与者才能在启用监视后查看数据。

创建工作区

下表介绍了支持本文中启用的 Azure Monitor 功能所需的工作区。如果还没有每种类型的现有工作区，则可以在载入过程中创建它们。请参阅设计 Log Analytics 工作区体系结构，获取有关要创建多少个工作区以及应在何处放置工作区的指导。

功能	工作区	说明
托管 Prometheus	Azure Monitor 工作区	如果在载入时未指定现有的 Azure Monitor 工作区，将使用资源组的默认工作区。如果群集区域中尚不存在默认工作区，则将在名为 `DefaultAzureMonitorWorkspace-<mapped_region>` 的资源组中创建一个名称格式为 `DefaultRG-<cluster_region>` 的工作区。 `Contributor` 权限足以允许加载项将数据发送到 Azure Monitor 工作区。若要链接 Azure Monitor 工作区以查看 Azure 托管 Grafana 中的指标，则需要 `Owner` 级别权限。这是必需项，因为执行入门步骤的用户需要能够在 Azure Monitor 工作区上为 Azure 托管 Grafana 系统标识授予 `Monitoring Reader` 角色，以便查询指标。
容器日志记录控制平面日志	Log Analytics 工作区	可以将群集附加到同一Microsoft Entra 租户中不同 Azure 订阅中的 Log Analytics 工作区，但必须使用 Azure CLI 或 Azure 资源管理器模板。目前不能使用 Azure 门户执行此配置。如果要将现有群集连接到另一订阅中的 Log Analytics 工作区，则必须在订阅中向 Log Analytics 工作区注册 Microsoft.ContainerService 资源提供程序。有关详细信息，请参阅注册资源供应商。如果未指定现有的 Log Analytics 工作区，将使用资源组的默认工作区。如果群集区域中尚不存在默认工作区，会使用 `DefaultWorkspace-<GUID>-<Region>` 格式的名称创建一个工作区。
托管 Grafana	Azure 托管 Grafana 工作区	将 Grafana 工作区链接到 Azure Monitor 工作区，以使从群集收集的 Prometheus 指标可供 Grafana 仪表板使用。

启用 Prometheus 指标和容器日志记录

在群集上启用 Prometheus 和容器日志记录时，群集中会安装 Azure Monitor 代理的容器化版本。可以在新的或现有群集上同时配置这些功能，也可以单独启用每个功能。

先决条件

群集必须使用托管标识身份验证。
必须在群集和 Azure Monitor 工作区的订阅中注册以下资源提供程序：
- Microsoft.ContainerService (微软容器服务)
- Microsoft.Insights
- Microsoft.AlertsManagement
- Microsoft.Monitor
以下资源提供程序必须在 Grafana 工作区订阅中注册：
- Microsoft.Dashboard

先决条件

托管标识身份验证是 CLI 版本 2.49.0 或更高版本中的默认设置。
必须使用命令az extension remove --name aks-preview aks-preview 扩展。

Prometheus 指标

将 -enable-azure-monitor-metrics 选项与 az aks create 或 az aks update 配合使用，具体取决于是创建新群集还是更新现有群集以安装用于擦除 Prometheus 指标的指标加载项。这将使用 Azure Monitor 中默认 Prometheus 指标配置中所述的配置。若要修改此配置，请参阅在 Azure Monitor 托管服务中自定义抓取 Prometheus 指标的配置。

请参阅以下示例。

### Use default Azure Monitor workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group>

### Use existing Azure Monitor workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --azure-monitor-workspace-resource-id <workspace-name-resource-id>

### Use an existing Azure Monitor workspace and link with an existing Grafana workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --azure-monitor-workspace-resource-id <azure-monitor-workspace-name-resource-id> --grafana-resource-id  <grafana-workspace-name-resource-id>

### Use optional parameters
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --ksm-metric-labels-allow-list "namespaces=[k8s-label-1,k8s-label-n]" --ksm-metric-annotations-allow-list "pods=[k8s-annotation-1,k8s-annotation-n]"

示例

az aks create/update --enable-azure-monitor-metrics --name "my-cluster" --resource-group "my-resource-group" --azure-monitor-workspace-resource-id "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/my-resource-group/providers/microsoft.monitor/accounts/my-workspace"

可选参数

上述每个命令都允许以下可选参数。每个参数名称不同，但它们的使用是相同的。

参数	名称和说明
批注键	`--ksm-metric-annotations-allow-list` 在资源的 `kube_resource_annotations` 指标中使用的 Kubernetes 注释键的逗号分隔列表。例如，kube_pod_annotations 是 pod 资源的注释指标。默认情况下，此指标仅包含名称和命名空间标签。若要包含更多注释，请提供资源名称（复数形式）和要允许使用的 Kubernetes 注释键的列表。可为每个资源提供一个 `*` 以允许任何注释，但这会严重影响性能。例如 `pods=[kubernetes.io/team,...],namespaces=[kubernetes.io/team],...`。
标签键	`--ksm-metric-labels-allow-list` 资源的 kube_resource_labels 指标中使用的更多 Kubernetes 标签键的逗号分隔列表。例如，kube_pod_labels 是 Pod 资源的标签指标。默认情况下，此指标仅包含名称和命名空间标签。若要包含更多标签，请提供一个复数形式的资源名称列表以及想要允许这些资源使用的 Kubernetes 标签键。可为每个资源提供一个 `*` 以允许任何标签，但这会严重影响性能。例如 `pods=[app],namespaces=[k8s-label-1,k8s-label-n,...],...`。
记录规则	`--enable-windows-recording-rules` 允许启用 Windows 仪表板正常运行所需的记录规则组。

注意

请注意，使用 - ksm-metric-annotations-allow-list 和 ksm-metric-labels-allow-list 设置的参数，可以被 ama-metrics-settings-configmap 显式覆盖或替代设置。

容器日志

将 --addon monitoring 选项与 az aks create for a new cluster 或 az aks enable-addon 配合使用以更新现有群集以启用容器日志收集。请参阅下文，修改日志收集设置。

请参阅以下示例。

### Use default Log Analytics workspace
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name>

### Use existing Log Analytics workspace
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name> --workspace-resource-id <workspace-resource-id>

### Use custom log configuration file
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name> --workspace-resource-id <workspace-resource-id> --data-collection-settings dataCollectionSettings.json

### Use legacy authentication
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name> --workspace-resource-id <workspace-resource-id> --enable-msi-auth-for-monitoring false

示例

az aks enable-addons --addon monitoring --name "my-cluster" --resource-group "my-resource-group" --workspace-resource-id "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/my-resource-group/providers/Microsoft.OperationalInsights/workspaces/my-workspace"

日志配置文件

若要自定义群集的日志收集设置，可以使用以下格式以 JSON 文件的形式提供配置。如果未提供配置文件，则使用下表中标识的默认设置。

{
  "interval": "1m",
  "namespaceFilteringMode": "Include",
  "namespaces": ["kube-system"],
  "enableContainerLogV2": true, 
  "streams": ["Microsoft-Perf", "Microsoft-ContainerLogV2"]
}

下表描述了配置中的每个设置。

Name	说明
`interval`	确定代理收集数据的频率。有效值为 1m - 30 米（以 1 米为单位）如果该值超出允许的范围，则默认值为 1 m。默认值：1m。
`namespaceFilteringMode`	Include：只会从命名空间字段中的值收集数据。 Exclude：会从所有命名空间收集数据，但命名空间字段中的值除外。 Off：忽略任何命名空间选择并收集所有命名空间中的数据。默认值：关闭
`namespaces`	逗号分隔的 Kubernetes 命名空间数组，用于根据 namespaceFilteringMode 收集清单和性能数据。例如，如果在使用 Include 设置的情况下指定 namespaces = ["kube-system", "default"]，则只收集这两个命名空间的数据。如果使用Exclude设置，代理会从除kube-system和default之外的所有其他命名空间收集数据。如果使用 Off 设置，代理将从所有命名空间收集数据，包括 kube-system 和 default。将忽略无效和无法识别的命名空间。没有。
`enableContainerLogV2`	用于启用 ContainerLogV2 架构的布尔标志。如果设置为 true，则 stdout/stderr 日志将引入到 ContainerLogV2 表。否则，除非在 ConfigMap 中另有指定，否则容器日志将引入到 ContainerLog 表。指定单个流时，必须包含 ContainerLog 或 ContainerLogV2 的相应表。默认值：True
`streams`	用于收集的表流数组。请参阅Stream 值，了解有效流及其对应表的列表。默认值：Microsoft-ContainerInsights-Group-Default

先决条件

必须已创建 Azure Monitor 工作区和 Azure 托管 Grafana 实例。
模板必须部署在 Azure 托管 Grafana 实例所在的资源组中。
如果 Azure 托管 Grafana 实例的订阅与 Azure Monitor 工作区订阅不同，请按照Microsoft.Dashboard中的指导，将 Azure Monitor 工作区订阅注册到资源提供程序。
AKS 群集订阅中具有User Access Administrator角色的用户可以通过部署模板直接启用Monitoring Reader角色。

注意

目前在 Bicep 中，无法像在 ARM 模板中那样，在 Azure Monitor 工作区的字符串参数“资源 ID”上显式限定 Monitoring Reader 角色分配的范围。 Bicep 需要 resource | tenant 类型的值。此外，Azure Monitor 工作区没有 REST API 规范。

因此，Monitoring Reader角色的默认范围位于资源组上。该角色通过继承应用于同一 Azure Monitor 工作区，这是预期的行为。部署此 Bicep 模板后，为 Grafana 实例授予对该资源组中所有 Azure Monitor 工作区的Monitoring Reader权限。

Prometheus 指标

检索 Grafana 资源所需的值

如果 Azure 托管 Grafana 实例已链接到 Azure Monitor 工作区，则必须在模板中包含此列表，否则将被覆盖。在 Azure 门户中 Azure 托管 Grafana 实例的概述页面上，选择“JSON 视图”，然后复制的值，该值如下面的示例所示azureMonitorWorkspaceIntegrations。如果该值不存在，则实例尚未链接到任何 Azure Monitor 工作区。

"properties": {
    "grafanaIntegrations": {
        "azureMonitorWorkspaceIntegrations": [
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_1"
            },
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_2"
            }
        ]
    }
}

下载并编辑模板和参数文件

下载所需的文件。

肱二头肌
- 模板文件：https://aka.ms/azureprometheus-enable-bicep-template
- 参数文件：https://aka.ms/azureprometheus-enable-bicep-template-parameters
- DCRA 模块：https://aka.ms/nested_azuremonitormetrics_dcra_clusterResourceId
- 配置文件模块：https://aka.ms/nested_azuremonitormetrics_profile_clusterResourceId
- Azure 托管 Grafana 角色分配模块：https://aka.ms/nested_grafana_amw_role_assignment
JSON
- 模板文件：https://aka.ms/azureprometheus-enable-arm-template
- 参数文件：https://aka.ms/azureprometheus-enable-arm-template-parameters

编辑参数文件中的以下值。 ARM 和 Bicep 模板使用一组相同的值。从其概述页面的 JSON 视图中检索资源 ID。

参数	值
`azureMonitorWorkspaceResourceId`	Azure Monitor 工作区的资源 ID。在 Azure Monitor 工作区的“概述”页上的“JSON 视图”中检索。
`azureMonitorWorkspaceLocation`	Azure Monitor 工作区的位置。在 Azure Monitor 工作区的“概述”页上的“JSON 视图”中检索。
`clusterResourceId`	AKS 群集的资源 ID。从群集“概述”页的“JSON 视图”中检索。
`clusterLocation`	AKS 群集的位置。从群集“概述”页的“JSON 视图”中检索。
`metricLabelsAllowlist`	要在资源的标签指标中使用的 Kubernetes 标签键的逗号分隔列表。
`metricAnnotationsAllowList`	要在资源的注释指标中使用的更多 Kubernetes 标签键的逗号分隔列表。
`grafanaResourceId`	托管 Grafana 实例的资源 ID。从 Grafana 实例“概述”页面的“JSON 视图”中检索。
`grafanaLocation`	托管 Grafana 实例的位置。从 Grafana 实例“概述”页面的“JSON 视图”中检索。
`grafanaSku`	托管 Grafana 实例的 SKU。从 Grafana 实例“概述”页面的“JSON 视图”中检索。使用sku.name。

打开模板文件，并使用从 Grafana 实例检索的值更新文件末尾的 grafanaIntegrations 属性。这类似于以下示例。在这些示例中，full_resource_id_1 和 full_resource_id_2 已在 Azure 托管 Grafana 资源 JSON 中。最后的 azureMonitorWorkspaceResourceId 条目已在模板中，用于链接到参数文件中提供的 Azure Monitor 工作区资源 ID。

肱二头肌

    resource grafanaResourceId_8 'Microsoft.Dashboard/grafana@2022-08-01' = {
        name: split(grafanaResourceId, '/')[8]
        sku: {
            name: grafanaSku
        }
        identity: {
            type: 'SystemAssigned'
        }
        location: grafanaLocation
        properties: {
            grafanaIntegrations: {
                azureMonitorWorkspaceIntegrations: [
                    {
                        azureMonitorWorkspaceResourceId: 'full_resource_id_1'
                    }
                    {
                        azureMonitorWorkspaceResourceId: 'full_resource_id_2'
                    }
                    {
                        azureMonitorWorkspaceResourceId: azureMonitorWorkspaceResourceId
                    }
                ]
            }
        }
    }

JSON

{
    "type": "Microsoft.Dashboard/grafana",
    "apiVersion": "2022-08-01",
    "name": "[split(parameters('grafanaResourceId'),'/')[8]]",
    "sku": {
        "name": "[parameters('grafanaSku')]"
    },
    "location": "[parameters('grafanaLocation')]",
    "properties": {
        "grafanaIntegrations": {
        "azureMonitorWorkspaceIntegrations": [
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_1"
            },
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_2"
            },
            {
                "azureMonitorWorkspaceResourceId": "[parameters('azureMonitorWorkspaceResourceId')]"
            }
        ]
        }
    }
}

使用部署资源管理器模板的任意有效方法，用参数文件部署模板。有关不同方法的示例，请参阅部署示例模板。

容器日志

先决条件

模板必须部署在群集所在的同一资源组中。

下载并安装模板

下载和编辑模板和参数文件。

肱二头肌
- 模板文件 (Syslog)：https://aka.ms/enable-monitoring-msi-syslog-bicep-template
- 参数文件（Syslog）： https://aka.ms/enable-monitoring-msi-syslog-bicep-parameters
- 模板文件（非 Syslog）：https://aka.ms/enable-monitoring-msi-bicep-template
- 参数文件（非 Syslog）：https://aka.ms/enable-monitoring-msi-bicep-parameters
手臂
- 模板文件：https://aka.ms/aks-enable-monitoring-msi-onboarding-template-file
- 参数文件：https://aka.ms/aks-enable-monitoring-msi-onboarding-template-parameter-file

编辑参数文件中的以下值。 ARM 和 Bicep 模板使用一组相同的值。从其概述页面的 JSON 视图中检索资源 ID。

参数	说明
`aksResourceId`	群集的资源 ID。
`aksResourceLocation`	群集的位置。
`workspaceResourceId`	Log Analytics 工作区的资源 ID。
`resourceTagValues`	为群集的现有容器见解扩展数据收集规则 (DCR) 和 DCR 的名称指定的标记值。该名称将为 `MSCI-<clusterName>-<clusterRegion>`，并在 AKS 群集资源组中创建此资源。首次载入时，可设置任意标记值。
`enableRetinaNetworkFlowLogs`	一个用于指示是否启用 Retina 网络流日志的标记。
`enableContainerLogV2`	用于启用 ContainerLogV2 架构的布尔标志。如果设置为 true，stdout/stderr 日志将发送到 ContainerLogV2 表。否则，容器日志将发送到 ContainerLog 表，除非在 ConfigMap 中另有指定。指定单个流时，必须包含 ContainerLog 或 ContainerLogV2 的相应表。
`enableSyslog`	指定是否应启用 Syslog 收集。
`syslogLevels`	如果启用了 Syslog 收集，请指定要收集的日志级别。
`dataCollectionInterval`	确定代理收集数据的频率。有效值为 1m - 30m，间隔为 1m。默认值为 1m。如果该值超出允许的范围，则默认为 1m。
`namespaceFilteringModeForDataCollection`	Include：只会从命名空间字段中的值收集数据。 Exclude：会从所有命名空间收集数据，但命名空间字段中的值除外。 Off：忽略任何命名空间选择并收集所有命名空间中的数据。
`namespacesForDataCollection`	逗号分隔的 Kubernetes 命名空间数组，用于根据 namespaceFilteringMode 收集清单和性能数据。例如，如果在使用 Include 设置的情况下指定 namespaces = ["kube-system", "default"]，则只收集这两个命名空间的数据。如果使用Exclude设置，代理会从除kube-system和default之外的所有其他命名空间收集数据。如果使用 Off 设置，代理将从所有命名空间收集数据，包括 kube-system 和 default。将忽略无效和无法识别的命名空间。
`streams`	表流的数组。请参阅Stream 值，了解有效流及其对应表的列表。
`useAzureMonitorPrivateLinkScope`	指定是否对与 Azure Monitor 的群集连接使用专用链接。
`azureMonitorPrivateLinkScopeResourceId`	如果使用专用链接，则专用链接范围的资源 ID。

使用部署资源管理器模板的任意有效方法，用参数文件部署模板。有关不同方法的示例，请参阅部署示例模板。

先决条件

必须已创建 Azure Monitor 工作区和 Azure 托管 Grafana 工作区。
模板需要部署在 Azure 托管 Grafana 工作区所在的资源组中。
AKS 群集订阅中具有“用户访问管理员”角色的用户可以通过部署模板直接启用“监视读者”角色。
如果 Azure 托管 Grafana 实例所在的订阅不是 Azure Monitor 工作区订阅，请按照Microsoft.Dashboard中的步骤向资源提供程序注册 Azure Monitor 工作区订阅。

检索 Grafana 资源所需的值

"properties": {
    "grafanaIntegrations": {
        "azureMonitorWorkspaceIntegrations": [
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_1"
            },
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_2"
            }
        ]
    }
}

使用 Grafana 集成列表更新 azure_monitor_workspace_integrations 中的 main.tf 块。

  azure_monitor_workspace_integrations {
    resource_id  = var.monitor_workspace_id[var.monitor_workspace_id1, var.monitor_workspace_id2]
  }

下载和编辑模板

新 AKS 群集

下载AddonTerraformTemplate下的所有文件。
使用正确的参数值编辑 variables.tf 文件中的变量。
运行 terraform init -upgrade，将 Terraform 部署进行初始化。
运行 terraform plan -out main.tfplan，将 Terraform 部署进行初始化。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

注意：仅当 annotations_allowed 和 labels_allowed 关键值的变量存在时，才会在 main.tf 中传递这些变量。这些模块是可选的。

注意

在运行 terraform 模板之前，相应地编辑 main.tf 文件。在运行模板之前，将任何现有的 azure_monitor_workspace_integrations 值添加到 Grafana 资源。否则，旧值将被删除，并替换为部署期间模板中的内容。 AKS 群集订阅中具有“用户访问管理员”角色的用户可以部署模板以直接启用“监视读者”角色。如果正在使用非标准 SKU，请编辑 GrafanaSku 参数，最后在 Grafana 资源的资源组中运行此模板。

容器日志

新 AKS 群集

下载 Terraform 模板文件，具体取决于是否要启用 Syslog 集合。
- Syslog： https://aka.ms/enable-monitoring-msi-syslog-terraform
- 无 Syslog： https://aka.ms/enable-monitoring-msi-terraform
根据您的群集设置，调整 azurerm_kubernetes_cluster 资源在 main.tf 中的位置。

更新 variables.tf 中的参数以替换“”中的值<>

参数	说明
`aks_resource_group_name`	使用资源组的“AKS 概述”页中的值。
`resource_group_location`	使用资源组的“AKS 概述”页中的值。
`cluster_name`	定义要创建的群集名称。
`workspace_resource_id`	使用你的 Log Analytics 工作区的资源 ID。
`workspace_region`	使用你的 Log Analytics 工作区的位置。
`resource_tag_values`	将为群集的现有容器见解扩展数据收集规则 (DCR) 指定的现有标记值与 DCR 的名称进行匹配。名称将匹配 `MSCI-<clusterName>-<clusterRegion>`，并且此资源在 AKS 群集所在的同一资源组中创建。首次载入时，可设置任意标记值。
`enabledContainerLogV2`	要使用推荐的默认 ContainerLogV2，请将此参数值设置为 true。
成本优化参数	请参考数据收集参数
`streams`	数据收集的流。请参阅 Stream 数值。
`use_azure_monitor_private_link_scope`	用于指示是否配置 Azure Monitor 专用链接范围的标志。
`azure_monitor_private_link_scope_resource_id`	Azure Monitor 专用链接范围的 Azure 资源 ID。

运行 terraform init -upgrade，将 Terraform 部署进行初始化。
运行 terraform plan -out main.tfplan，将 Terraform 部署进行初始化。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

现有 AKS 群集

首先使用以下命令导入现有群集资源： terraform import azurerm_kubernetes_cluster.k8s <aksResourceId>

将 oms_agent 附加配置文件添加到现有 azurerm_kubernetes_cluster 资源。

oms_agent {
    log_analytics_workspace_id = var.workspace_resource_id
    msi_auth_for_monitoring_enabled = true
  }

从 Terraform 模板复制 DCR 和 DCRA 资源
运行 terraform plan -out main.tfplan 并确保更改是添加 oms_agent 属性。注意：如果在 terraform 计划期间定义的 azurerm_kubernetes_cluster 资源不同，则会销毁现有群集并重新进行创建。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

提示

在运行 terraform 模板之前，相应地编辑 main.tf 文件
数据将在 10 分钟后开始流动，因为群集需要先准备好
WorkspaceID 需要与格式 /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/example-resource-group/providers/Microsoft.OperationalInsights/workspaces/workspaceValue 匹配
如果资源组已存在，请先运行 terraform import azurerm_resource_group.rg /subscriptions/<Subscription_ID>/resourceGroups/<Resource_Group_Name>，然后执行 terraform 计划

创建新的 AKS 群集或在 Azure 门户中的现有群集上时，可以启用 Prometheus 指标和容器日志。在这两种情况下，配置体验都是相同的。

新建 AKS 群集

在 Azure 门户中创建新的 AKS 群集时，请在 “监视 ”选项卡中配置监视。

现有群集

请在 Azure 门户中进入您的集群。在服务菜单中，选择“ 监视 ”，然后选择“ 监视设置”。

配置选项

新群集和现有群集的配置选项相同。唯一的区别是，可能需要选择 “高级设置 ”以查看现有群集的所有选项。

已为你选择 Prometheus 指标、Grafana 和容器日志及事件。如果你现在有 Azure Monitor 工作区、Grafana 工作区和 Log Analytics 工作区，系统会为你选择它们。
如果你希望选择备用工作区或创建新工作区，请选择“高级设置”。使用“日志记录配置文件和经典配置文件”设置，你可以修改默认集合详细信息来降低监视成本。有关详细信息，请参阅在容器见解中启用成本优化设置。
选择“配置” 。

对于容器日志，必须选择一个日志记录配置文件，该配置文件定义将收集哪些日志，以及以何种频率收集日志。下表中列出了可用的配置文件。

成本预设	收集频率	命名空间筛选器	Syslog 收集	收集的数据
日志和事件（默认值）	1米	None	未启用	ContainerLogV2 KubeEvents KubePodInventory
Syslog	1米	None	默认启用	所有标准容器分析表
标准	1米	None	未启用	所有标准容器分析表
成本优化	5米	排除 kube-system、gatekeeper-system、azure-arc	未启用	所有标准容器分析表

如果要自定义设置，请单击“编辑集合设置”。下表描述了其中每个设置。

Name	说明
收集频率	确定代理收集数据的频率。有效值为 1m - 30m，间隔为 1m。默认值为 1m。无法通过 ConfigMap 配置此选项。
命名空间筛选	关：收集所有命名空间上的数据。 Include：只会从命名空间字段中的值收集数据。 Exclude：会从所有命名空间收集数据，但命名空间字段中的值除外。逗号分隔的 Kubernetes 命名空间数组，用于根据 namespaceFilteringMode 收集清单和性能数据。例如，如果在使用 Include 设置的情况下指定 namespaces = ["kube-system", "default"]，则只收集这两个命名空间的数据。如果使用Exclude设置，代理会从除kube-system和default之外的所有其他命名空间收集数据。
收集到的数据	定义要收集的容器见解表。有关每个分组的说明，请参阅下文。
启用 ContainerLogV2	用于启用 ContainerLogV2 架构的布尔标志。如果设置为 true，则 stdout/stderr 日志将引入到 ContainerLogV2 表。否则，除非在 ConfigMap 中另有指定，否则容器日志将引入到 ContainerLog 表。指定单个流时，必须包含 ContainerLog 或 ContainerLogV2 的相应表。
启用 Syslog 日志收集	从群集启用 Syslog 收集。

通过“收集的数据”选项，可选择为群集填充的表。这些表按最常见的方案进行分组。

Grouping	Tables	说明
全部（默认值）	所有标准容器分析表	需要它才能启用默认容器见解可视化效果
Performance	Perf、InsightsMetrics
日志和事件	ContainerLog 或 ContainerLogV2，KubeEvents，KubePodInventory	如果您已启用托管的 Prometheus 指标，建议这么做。
工作负荷、部署和 HPA	InsightsMetrics、KubePodInventory、KubeEvents、ContainerInventory、ContainerNodeInventory、KubeNodeInventory、KubeServices
永久性卷	InsightsMetrics、KubePVInventory

Prometheus 指标

下载 Azure Policy 模板和参数文件。
- 模板文件：https://aka.ms/AddonPolicyMetricsProfile
- 参数文件：https://aka.ms/AddonPolicyMetricsProfile.parameters

使用以下 CLI 命令创建策略定义：

az policy definition create --name "Prometheus Metrics addon" --display-name "Prometheus Metrics addon" --mode Indexed --metadata version=1.0.0 category=Kubernetes --rules AddonPolicyMetricsProfile.rules.json --params AddonPolicyMetricsProfile.parameters.json`

创建策略定义后，在 Azure 门户中，选择“策略”，然后选择“定义”。选择创建的策略定义。
选择“分配”，并在“参数”选项卡上填写详细信息。选择“查看 + 创建”。
如果要将策略应用于现有群集，请从“策略分配”为该群集资源创建“修正任务”。

将策略分配给订阅后，每当新建未启用 Prometheus 的群集时，策略都将运行并启用 Prometheus 监视。

容器日志记录

下载 Azure Policy 模板和参数文件。
- 模板文件：https://aka.ms/enable-monitoring-msi-azure-policy-template
- 参数文件：https://aka.ms/enable-monitoring-msi-azure-policy-parameters

使用以下 CLI 命令创建策略定义：

az policy definition create --name "AKS-Monitoring-Addon-MSI" --display-name "AKS-Monitoring-Addon-MSI" --mode Indexed --metadata version=1.0.0 category=Kubernetes --rules azure-policy.rules.json --params azure-policy.parameters.json

创建策略定义后，在 Azure 门户中，选择“策略”，然后选择“定义”。选择创建的策略定义。
选择“分配”，并在“参数”选项卡上填写详细信息。选择“查看 + 创建”。
如果要将策略应用于现有群集，请从“策略分配”为该群集资源创建“修正任务”。

数据流值

当指定要使用 CLI 或 BICEP/ARM 收集的表时，可以指定与 Log Analytics 工作区中的特定表相对应的流名称。下表列出了流名称及其相应的表。

注意

如果你熟悉数据收集规则的结构，则你应该知道此表中的流名称在 DCR 的数据流节中指定。

Stream	容器见解表
Microsoft-容器清单	ContainerInventory
Microsoft-ContainerLog	ContainerLog
Microsoft-ContainerLogV2	ContainerLogV2
Microsoft-ContainerLogV2-HighScale	ContainerLogV2（高缩放模式）¹
Microsoft-ContainerNodeInventory	容器节点清单
Microsoft-InsightsMetrics	InsightsMetrics
Microsoft-KubeEvents	KubeEvents
Microsoft-KubeMonAgentEvents	KubeMonAgentEvents
Microsoft-KubeNodeInventory	KubeNodeInventory
Microsoft-KubePodInventory	KubePodInventory
Microsoft-KubePVInventory	KubePVInventory
Microsoft-KubeServices	KubeServices
Microsoft-Perf	性能
Microsoft-ContainerInsights-Group-Default	包含上述所有流的组流。²

¹ 不要同时使用 Microsoft-ContainerLogV2 和MicrosoftContainerLogV2-HighScale。这将导致出现重复数据。 ² 使用组流作为简写来指定所有单个流。如果要收集一组特定的流，请单独指定每个流，而不是使用组流。

适用的表和指标

收集频率和命名空间筛选的设置不适用于所有日志数据。下表列出了 Log Analytics 工作区中的表以及应用于每个工作区的设置。

表名称	间隔？	命名空间？	注解
ContainerInventory	是的	是的
容器节点清单	是的	否	数据收集的命名空间设置不适用，因为 Kubernetes 节点不是命名空间范围的资源
KubeNodeInventory	是的	否	数据收集的命名空间设置不适用，因为 Kubernetes 节点不是命名空间范围的资源
KubePodInventory	是的	是的
KubePVInventory	是的	是的
KubeServices	是的	是的
KubeEvents	否	是的	数据收集的间隔设置不适用于 Kubernetes 事件
性能	是的	是的	数据收集的命名空间设置不适用于与 Kubernetes 节点相关的指标，因为 Kubernetes 节点不是命名空间范围的对象。
InsightsMetrics	是的	是的	数据收集设置仅适用于收集以下命名空间的指标：container.azm.ms/kubestate、container.azm.ms/pv 和 container.azm.ms/gpu

注意

命名空间筛选不适用于 ama-logs 代理记录。因此，即使 kube-system 命名空间列于排除的命名空间中，与 ama-logs 代理容器关联的记录仍将引入。

指标命名空间	间隔？	命名空间？	注解
Insights.container/nodes	是的	否	节点不是命名空间范围的资源
洞察.容器/组件	是的	是的
Insights.container/containers	是的	是的
Insights.container/persistentvolumes	是的	是的

特殊场景

请查看以下参考，了解特定方案的配置要求。

如果您正在使用私人链接，请查看在 Azure Monitor 中为 Kubernetes 监控启用私人链接。
若要启用高缩放模式，请遵循 “启用高缩放模式”以监视加载项的载入过程。还必须按照 Update ConfigMap 中所述配置Map，并且 DCR 流需要从此Microsoft-ContainerLogV2Microsoft-ContainerLogV2-HighScale更改为。

启用控制平面日志

控制平面日志作为 Azure Monitor 中的资源日志实现。若要收集这些日志，请为群集创建诊断设置。将它们发送到容器日志所在的 Log Analytics 工作区。

在 Azure CLI 中使用 az monitor diagnostic-settings create 命令来创建诊断设置。有关参数说明，请参阅此命令的文档。

以下示例创建一个诊断设置，用于将所有 Kubernetes 类别发送到 Log Analytics 工作区。这包括特定于资源的模式，用于将日志发送到 Microsoft.ContainerService/fleets 支持的资源日志中列出的特定表。

az monitor diagnostic-settings create \
--name 'Collect control plane logs' \
--resource  /subscriptions/<subscription ID>/resourceGroups/<resource group name>/providers/Microsoft.ContainerService/managedClusters/<cluster-name> \
--workspace /subscriptions/<subscription ID>/resourcegroups/<resource group name>/providers/microsoft.operationalinsights/workspaces/<log analytics workspace name> \
--logs '[{"category": "karpenter-events","enabled": true},{"category": "kube-audit","enabled": true},
{"category": "kube-apiserver","enabled": true},{"category": "kube-audit-admin","enabled": true},{"category": "kube-controller-manager","enabled": true},{"category": "kube-scheduler","enabled": true},{"category": "cluster-autoscaler","enabled": true},{"category": "cloud-controller-manager","enabled": true},{"category": "guard","enabled": true},{"category": "csi-azuredisk-controller","enabled": true},{"category": "csi-azurefile-controller","enabled": true},{"category": "csi-snapshot-controller","enabled": true},{"category": "fleet-member-agent","enabled": true},{"category": "fleet-member-net-controller-manager","enabled": true},{"category": "fleet-mcs-controller-manager","enabled": true}]'
--metrics '[{"category": "AllMetrics","enabled": true}]' \
--export-to-resource-specific true

下面是用于为控制平面日志创建诊断设置的示例模板和参数文件。修改模板以收集不同的类别或将日志发送到其他目标。

肱二头肌

param clusterName string
param workspaceId string
param settingName string

resource cluster 'Microsoft.ContainerService/managedClusters@2021-05-01-preview' existing = {
  name: clusterName
}

resource setting 'Microsoft.Insights/diagnosticSettings@2021-05-01-preview' = {
  name: settingName
  scope: cluster
  properties: {
    workspaceId: workspaceId
    logs: [
      {
        category: 'kube-apiserver'
        enabled: true
      }
      {
        category: 'kube-audit'
        enabled: true
      }
      {
        category: 'kube-audit-admin'
        enabled: true
      }
      {
        category: 'kube-controller-manager'
        enabled: true
      }
      {
        category: 'kube-scheduler'
              }
      {
        category: 'cluster-autoscaler'
        enabled: true
      }
      {
        category: 'guard'
        enabled: true
      }
    ]
  }
}

JSON

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "clusterName": {
            "type": "String"
        },
        "workspaceId": {
            "type": "String"
        },
        "settingName": {
            "type": "String"
        }
    },
    "resources": [
        {
            "type": "Microsoft.Insights/diagnosticSettings",
            "apiVersion": "2021-05-01-preview",
            "scope": "[format('Microsoft.ContainerService/managedClusters/{0}', parameters('clusterName'))]",
            "name": "[parameters('settingName')]",
            "properties": {
                "workspaceId": "[parameters('workspaceId')]",
                "logs": [
                    {
                        "category": "kube-apiserver",
                        "enabled": true
                    },
                    {
                        "category": "kube-audit",
                        "enabled": true
                    },
                    {
                        "category": "kube-audit-admin",
                        "enabled": true
                    },
                    {
                        "category": "kube-controller-manager",
                        "enabled": true
                    },
                    {
                        "category": "kube-scheduler",
                        "enabled": false
                    },
                    {
                        "category": "cluster-autoscaler",
                        "enabled": true
                    },
                    {
                        "category": "guard",
                        "enabled": true
                    }
                ]
            }
        }
    ]
}

参数文件

{
  "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentParameters.json#",
  "contentVersion": "1.0.0.0",
  "parameters": {
    "settingName": {
        "value": "<cluster-name>"
    },
    "workspaceId": {
      "value": "/subscriptions/<subscription id>/resourcegroups/<resourcegroup name>/providers/microsoft.operationalinsights/workspaces/<workspace name>"
    },
    "scope": {
      "value": "Microsoft.<resource type>/<resourceName>"
    }
  }
}

使用以下模板为控制平面日志创建诊断设置。修改模板以收集不同的类别或将日志发送到其他目标。

  features {}
}

variable "setting_name" {
  type        = string
  description = "Name for the diagnostic setting."
}

variable "workspace_id" {
  type        = string
  description = "Resource ID of the Log Analytics workspace."
}

variable "cluster_id" {
  type        = string
  description = "Resource ID of the AKS cluster to attach diagnostics to."
}

resource "azurerm_monitor_diagnostic_setting" "aks" {
  name                       = var.setting_name
  target_resource_id         = var.cluster_id
  log_analytics_workspace_id = var.workspace_id

  log {
    category = "kube-apiserver"
    enabled  = true
  }

  log {
    category = "kube-audit"
    enabled  = true
  }

  log {
    category = "kube-audit-admin"
    enabled  = true
  }

  log {
    category = "kube-controller-manager"
    enabled  = true
  }

  log {
    category = "kube-scheduler"
    enabled  = false
  }

  log {
    category = "cluster-autoscaler"
    enabled  = true
  }

  log {
    category = "guard"
    enabled  = true
  }
}

启用 Windows 指标（预览版）

从 Managed Prometheus 插件容器的版本 6.4.0-main-02-22-2023-3ee44b9e 开始，已启用 Windows 指标收集功能用于 AKS 群集。加入 Azure Monitor 指标附加组件可使 Windows 守护进程集 pod 在节点池上开始运行。支持 Windows Server 2019 和 Windows Server 2022。按照以下步骤使 Pod 能够从 Windows 节点池收集指标。

注意

没有 CPU/内存限制windows-exporter-daemonset.yaml，因此可能会超额分配 Windows 节点。有关详细信息，请参阅资源预留

在部署工作负载时，请对容器设置资源内存和 CPU 限制。这也会从 NodeAllocatable 中扣减，并且可以帮助群集范围的计划程序确定将哪些 pod 放置在哪些节点上。在没有限制的情况下调度 Pod 可能会导致 Windows 节点过度配置，并且在极端情况下可能会导致节点不健康。

安装 Windows 导出程序

通过部署 windows-exporter-daemonset YAML 文件，在 AKS 节点上手动安装 windows 导出程序以访问 Windows 指标。启用以下收集器。有关更多收集器，请参阅用于 Windows 系统度量指标的 Prometheus 导出器。

[defaults]
- container
- memory
- process
- cpu_info

部署 windows-exporter-daemonset YAML 文件。如果在节点中应用了任何污点，则需要应用适当的容忍度。

kubectl apply -f windows-exporter-daemonset.yaml

启用 Windows 指标

将windowsexporter和windowskubeproxy布尔值在指标设置 ConfigMap 中设置为true，然后将其应用到群集。请参阅使用 ConfigMap 自定义从 Kubernetes 集群收集 Prometheus 指标。

启用录制规则

启用开箱即用仪表板所需的录制规则：

如果使用 CLI 入门，请添加选项 --enable-windows-recording-rules。
如果使用 ARM 模板、Bicep 或 Azure Policy 载入，在参数文件中将enableWindowsRecordingRules设置为true。
如果群集已载入，使用此 ARM 模板和此参数文件以创建规则组。这会添加所需的记录规则，这不是在集群上的 ARM 操作，不会影响集群目前的监控状态。

验证部署

使用 kubectl 命令行工具验证是否已正确部署代理。

托管 Prometheus

验证是否已在 Linux 节点池上正确部署 DaemonSet

kubectl get ds ama-metrics-node --namespace=kube-system

Pod 数应等于群集上的 Linux 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-metrics-node --namespace=kube-system
NAME               DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-metrics-node   1         1         1       1            1           <none>          10h

验证是否已正确部署 Windows 节点

kubectl get ds ama-metrics-win-node --namespace=kube-system

Pod 数应等于群集上的 Windows 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-metrics-node --namespace=kube-system
NAME                   DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-metrics-win-node   3         3         3       3            3           <none>          10h

验证是否为 Prometheus 部署了两个 ReplicaSet

kubectl get rs --namespace=kube-system

输出应与下面的示例类似：

User@aksuser:~$kubectl get rs --namespace=kube-system
NAME                            DESIRED   CURRENT   READY   AGE
ama-metrics-5c974985b8          1         1         1       11h
ama-metrics-ksm-5fcf8dffcd      1         1         1       11h

容器日志记录

验证是否已在 Linux 节点池上正确部署 DaemonSet

kubectl get ds ama-logs --namespace=kube-system

Pod 数应等于群集上的 Linux 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-logs --namespace=kube-system
NAME       DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-logs   2         2         2         2            2           <none>          1d

验证是否已正确部署 Windows 节点

kubectl get ds ama-logs-windows --namespace=kube-system

Pod 数应等于群集上的 Windows 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-logs-windows --namespace=kube-system
NAME                   DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR     AGE
ama-logs-windows           2         2         2         2            2       <none>            1d

验证容器日志记录解决方案的部署

kubectl get deployment ama-logs-rs --namespace=kube-system

输出应与下面的示例类似：

User@aksuser:~$ kubectl get deployment ama-logs-rs --namespace=kube-system
NAME          READY   UP-TO-DATE   AVAILABLE   AGE
ama-logs-rs   1/1     1            1           24d

使用 CLI 查看配置

使用 aks show 命令查看是否已启用解决方案，并查看 Log Analytics 工作区资源 ID 以及有关群集的摘要信息。

az aks show --resource-group <resourceGroupofAKSCluster> --name <nameofAksCluster>

该命令将会返回有关解决方案的 JSON 格式信息。 addonProfiles 部分应包括有关 omsagent 的信息，如下例所示：

"addonProfiles": {
    "omsagent": {
        "config": {
            "logAnalyticsWorkspaceResourceID": "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourcegroups/my-resource-group/providers/microsoft.operationalinsights/workspaces/my-workspace",
            "useAADAuth": "true"
        },
        "enabled": true,
        "identity": null
    },
}

后续步骤

如果您在尝试注册时遇到问题，请查看故障排除指南。
了解如何在 Azure 门户的容器见解中分析 Kubernetes 监控数据。

Last updated on 2025-12-29

通过

启用对 AKS 群集的监视

先决条件

创建工作区

启用 Prometheus 指标和容器日志记录

先决条件

先决条件

Prometheus 指标

可选参数

容器日志

日志配置文件

数据流值

适用的表和指标

特殊场景

启用控制平面日志

启用 Windows 指标（预览版）

安装 Windows 导出程序

启用 Windows 指标

启用录制规则

验证部署

托管 Prometheus

容器日志记录

后续步骤

其他资源