启用对 Kubernetes 群集的监视

2025-08-27

本文介绍如何使用以下 Azure Monitor 功能启用 Kubernetes 群集的完整监视：

用于指标收集的托管 Prometheus
用于日志收集的容器见解
用于可视化的托管 Grafana。

使用 Azure 门户，可以同时启用所有这些功能。还可以使用 Azure CLI、Azure 资源管理器模板、Terraform 或 Azure Policy 单独启用它们。本文介绍了上述每种方法。

重要

Kubernetes 群集会生成大量日志数据，如果你对收集的日志没有选择性，可能会导致高昂的成本。在启用群集监视之前，请参阅以下文章，以确保环境针对成本进行了优化，并将日志收集限制为仅收集所需的数据：

使用数据收集规则在容器见解中配置数据收集和成本优化
有关启用监视后如何自定义日志收集的详细信息，包括使用预设的成本优化配置方案。
使用 Azure Monitor 监视 Kubernetes 的最佳做法
根据 Azure 架构良好的框架的五大支柱（包括成本优化）整理的 Kubernetes 群集监视最佳实践。
Azure Monitor 中的成本优化
有关配置 Azure Monitor 所有功能以优化成本并限制收集的数据量的最佳做法。

支持的群集

本文就以下类型的群集提供加入指南。相关部分中介绍了每种类型过程中的任何差异。

先决条件

权限

至少需要群集的参与者访问权限才能加入。
需要监视读取者或监视参与者才能在启用监视后查看数据。

托管 Prometheus 的先决条件

群集必须使用托管标识身份验证。
必须在群集和 Azure Monitor 工作区的订阅中注册以下资源提供程序：
- Microsoft.ContainerService (微软容器服务)
- Microsoft.Insights
- Microsoft.AlertsManagement
- Microsoft.Monitor
- 以下资源提供程序必须在 Grafana 工作区订阅中注册：
  - Microsoft.Dashboard

已启用 Arc 的 Kubernetes 群集先决条件

请验证防火墙要求和已启用 Azure Arc 的 Kubernetes 网络要求。
如果以前为 AKS 安装了监视，请务必禁用监视后再继续，以免在扩展安装过程中出现问题。
如果以前在没有群集扩展的情况下使用脚本在群集上安装监视，请按照禁用 Kubernetes 群集监视的说明来删除此 Helm 图表。

注意

托管 Prometheus 已启用 Arc 的 Kubernetes 扩展不支持以下配置：

Red Hat Openshift 分发版，包括 Azure Red Hat OpenShift (ARO)
Windows 节点*

*对于包含 Windows 节点的已启用 ARC 的群集，可以在群集中的 Linux 节点上设置 Azure 托管 Prometheus，并配置为从 Windows 节点上运行的指标终结点抓取指标。

工作区

下表介绍了支持托管 Prometheus 和容器见解所需的工作区。可在加入过程中创建每个工作区，或者使用现有工作区。请参阅设计 Log Analytics 工作区体系结构，获取有关要创建多少个工作区以及应在何处放置工作区的指导。

功能	工作区	说明
托管 Prometheus	Azure Monitor 工作区	`Contributor` 权限足以允许加载项将数据发送到 Azure Monitor 工作区。若要链接 Azure Monitor 工作区以查看 Azure 托管 Grafana 中的指标，则需要 `Owner` 级别权限。这是必需项，因为执行入门步骤的用户需要能够在 Azure Monitor 工作区上为 Azure 托管 Grafana 系统标识授予 `Monitoring Reader` 角色，以便查询指标。
容器见解	Log Analytics 工作区	可以将群集附加到同一Microsoft Entra 租户中不同 Azure 订阅中的 Log Analytics 工作区，但必须使用 Azure CLI 或 Azure 资源管理器模板。目前不能使用 Azure 门户执行此配置。如果要将现有群集连接到另一订阅中的 Log Analytics 工作区，则必须在订阅中向 Log Analytics 工作区注册 Microsoft.ContainerService 资源提供程序。有关详细信息，请参阅注册资源供应商。
托管 Grafana	Azure 托管 Grafana 工作区	将 Grafana 工作区链接到 Azure Monitor 工作区，以使从群集收集的 Prometheus 指标可供 Grafana 仪表板使用。

启用 Prometheus 和 Grafana

使用以下方法之一可以从群集中抓取 Prometheus 指标，并启用 Managed Grafana 来可视化指标。有关连接 Azure Monitor 工作区和 Azure 托管 Grafana 工作区的选项，请参阅链接 Grafana 工作区。

重要

如果使用模板或 Azure Policy 进行部署，请确保命名了数据收集终结点、数据收集规则和数据收集规则关联 MSProm-<Location of Azure Monitor Workspace>-<Name of cluster resource> ，或者载入过程不会成功完成。
如果单个 Azure Monitor 资源是专用链接的，则如果 AKS 群集和 Azure Monitor 工作区位于不同的区域，Prometheus 启用将不起作用。在同一群集区域中创建新的 DCE 和 DCRA。将新的 DCE 与群集相关联，并将新的 DCRA 命名为 configurationAccessEndpoint。请参阅在 Azure Monitor 中为 Kubernetes 监视启用专用链接。

使用 CLI 启用

如果未在以下命令中指定现有的 Azure Monitor 工作区，则将使用资源组的默认工作区。如果群集区域中尚不存在默认工作区，则将在名为 DefaultAzureMonitorWorkspace-<mapped_region> 的资源组中创建一个名称格式为 DefaultRG-<cluster_region> 的工作区。

先决条件

需要 Az CLI 2.49.0 或更高版本。
必须使用命令az extension remove --name aks-preview aks-preview 扩展。
必须使用 az extension add --name k8s-extension 命令安装 k8s-extension 扩展。
需要 k8s-extension 版本 1.4.1 或更高版本。

可选参数

AKS 和 Arc-Enabled Kubernetes 的每个命令都允许以下可选参数。每个参数名称不同，但它们的使用是相同的。

参数	名称和说明
批注键	AKS：`--ksm-metric-annotations-allow-list` Arc：`--AzureMonitorMetrics.KubeStateMetrics.MetricAnnotationsAllowList` 在资源的 `kube_resource_annotations` 指标中使用的 Kubernetes 注释键的逗号分隔列表。例如，kube_pod_annotations 是 pod 资源的注释指标。默认情况下，此指标仅包含名称和命名空间标签。若要包含更多注释，请提供资源名称（复数形式）和要允许使用的 Kubernetes 注释键的列表。可为每个资源提供一个 `*` 以允许任何注释，但这会严重影响性能。例如 `pods=[kubernetes.io/team,...],namespaces=[kubernetes.io/team],...`。
标签键	AKS：`--ksm-metric-labels-allow-list` Arc：`--AzureMonitorMetrics.KubeStateMetrics.MetricLabelsAllowlist` 资源的 kube_resource_labels 指标中使用的更多 Kubernetes 标签键的逗号分隔列表。例如，kube_pod_labels 是 Pod 资源的标签指标。默认情况下，此指标仅包含名称和命名空间标签。若要包含更多标签，请提供一个复数形式的资源名称列表以及想要允许这些资源使用的 Kubernetes 标签键。可为每个资源提供一个 `*` 以允许任何标签，但这会严重影响性能。例如 `pods=[app],namespaces=[k8s-label-1,k8s-label-n,...],...`。
记录规则	AKS：`--enable-windows-recording-rules` 允许启用 Windows 仪表板正常运行所需的记录规则组。

AKS 群集

使用 -enable-azure-monitor-metrics 选项 az aks create 或 az aks update（具体取决于是要创建新群集还是要更新现有群集）来安装用于擦除 Prometheus 指标的指标加载项。

### Use default Azure Monitor workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group>

### Use existing Azure Monitor workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --azure-monitor-workspace-resource-id <workspace-name-resource-id>

### Use an existing Azure Monitor workspace and link with an existing Grafana workspace
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --azure-monitor-workspace-resource-id <azure-monitor-workspace-name-resource-id> --grafana-resource-id  <grafana-workspace-name-resource-id>

### Use optional parameters
az aks create/update --enable-azure-monitor-metrics --name <cluster-name> --resource-group <cluster-resource-group> --ksm-metric-labels-allow-list "namespaces=[k8s-label-1,k8s-label-n]" --ksm-metric-annotations-allow-list "pods=[k8s-annotation-1,k8s-annotation-n]"

已启用 Arc 的群集

### Use default Azure Monitor workspace
az k8s-extension create --name azuremonitor-metrics --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers.Metrics

## Use existing Azure Monitor workspace
az k8s-extension create --name azuremonitor-metrics --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers.Metrics --configuration-settings azure-monitor-workspace-resource-id=<workspace-name-resource-id>

### Use an existing Azure Monitor workspace and link with an existing Grafana workspace
az k8s-extension create --name azuremonitor-metrics --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers.Metrics --configuration-settings azure-monitor-workspace-resource-id=<workspace-name-resource-id> grafana-resource-id=<grafana-workspace-name-resource-id>

### Use optional parameters
az k8s-extension create --name azuremonitor-metrics --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers.Metrics --configuration-settings azure-monitor-workspace-resource-id=<workspace-name-resource-id> grafana-resource-id=<grafana-workspace-name-resource-id> AzureMonitorMetrics.KubeStateMetrics.MetricAnnotationsAllowList="pods=[k8s-annotation-1,k8s-annotation-n]" AzureMonitorMetrics.KubeStateMetrics.MetricLabelsAllowlist "namespaces=[k8s-label-1,k8s-label-n]"

以下附加可选参数可用于已启用 Azure Arc 的群集：

参数	说明	违约	上游 Arc 群集设置
`ClusterDistribution`	群集的分布。	`Azure.Cluster.Distribution`	是的
`CloudEnvironment`	群集的云环境。	`Azure.Cluster.Cloud`	是的
`MountCATrustAnchorsDirectory`	是否装载 CA 信任定位点目录。	`true`	否
`MountUbuntuCACertDirectory`	是否装载 Ubuntu CA 证书目录。	除非 `true` 发行版，否则 `aks_edge`。	否

使用 ARM 模板启用

先决条件

必须已创建 Azure Monitor 工作区和 Azure 托管 Grafana 实例。
模板必须部署在 Azure 托管 Grafana 实例所在的资源组中。
如果 Azure 托管 Grafana 实例的订阅与 Azure Monitor 工作区订阅不同，请按照Microsoft.Dashboard中的指导，将 Azure Monitor 工作区订阅注册到资源提供程序。
AKS 群集订阅中具有User Access Administrator角色的用户可以通过部署模板直接启用Monitoring Reader角色。

注意

目前在 Bicep 中，无法像在 ARM 模板中那样，在 Azure Monitor 工作区的字符串参数“资源 ID”上显式限定 Monitoring Reader 角色分配的范围。 Bicep 需要 resource | tenant 类型的值。此外，Azure Monitor 工作区没有 REST API 规范。

因此，Monitoring Reader角色的默认范围位于资源组上。该角色通过继承应用于同一 Azure Monitor 工作区，这是预期的行为。部署此 Bicep 模板后，为 Grafana 实例授予对该资源组中所有 Azure Monitor 工作区的Monitoring Reader权限。

检索 Grafana 资源所需的值

如果 Azure 托管 Grafana 实例已链接到 Azure Monitor 工作区，则必须在模板中包含此列表。在 Azure 门户中 Azure 托管 Grafana 实例的概述页面上，选择“JSON 视图”，然后复制的值，该值如下面的示例所示azureMonitorWorkspaceIntegrations。如果该值不存在，则实例尚未链接到任何 Azure Monitor 工作区。

"properties": {
    "grafanaIntegrations": {
        "azureMonitorWorkspaceIntegrations": [
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_1"
            },
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_2"
            }
        ]
    }
}

下载并编辑模板和参数文件

下载要使用的 Kubernetes 群集类型所需的文件。

AKS 群集 ARM
- 模板文件：https://aka.ms/azureprometheus-enable-arm-template
- 参数文件：https://aka.ms/azureprometheus-enable-arm-template-parameters
AKS 群集 Bicep
- 模板文件：https://aka.ms/azureprometheus-enable-bicep-template
- 参数文件：https://aka.ms/azureprometheus-enable-bicep-template-parameters
- DCRA 模块：https://aka.ms/nested_azuremonitormetrics_dcra_clusterResourceId
- 配置文件模块：https://aka.ms/nested_azuremonitormetrics_profile_clusterResourceId
- Azure 托管 Grafana 角色分配模块：https://aka.ms/nested_grafana_amw_role_assignment
已启用 Arc 的群集 ARM
- 模板文件：https://aka.ms/azureprometheus-arc-arm-template
- 参数文件：https://aka.ms/azureprometheus-arc-arm-template-parameters

编辑参数文件中的以下值。 ARM 和 Bicep 模板使用一组相同的值。从其概述页面的 JSON 视图中检索资源 ID。

参数	值
`azureMonitorWorkspaceResourceId`	Azure Monitor 工作区的资源 ID。在 Azure Monitor 工作区的“概述”页上的“JSON 视图”中检索。
`azureMonitorWorkspaceLocation`	Azure Monitor 工作区的位置。在 Azure Monitor 工作区的“概述”页上的“JSON 视图”中检索。
`clusterResourceId`	AKS 群集的资源 ID。从群集“概述”页的“JSON 视图”中检索。
`clusterLocation`	AKS 群集的位置。从群集“概述”页的“JSON 视图”中检索。
`metricLabelsAllowlist`	要在资源的标签指标中使用的 Kubernetes 标签键的逗号分隔列表。
`metricAnnotationsAllowList`	要在资源的注释指标中使用的更多 Kubernetes 标签键的逗号分隔列表。
`grafanaResourceId`	托管 Grafana 实例的资源 ID。从 Grafana 实例“概述”页面的“JSON 视图”中检索。
`grafanaLocation`	托管 Grafana 实例的位置。从 Grafana 实例“概述”页面的“JSON 视图”中检索。
`grafanaSku`	托管 Grafana 实例的 SKU。从 Grafana 实例“概述”页面的“JSON 视图”中检索。使用sku.name。

打开模板文件，并使用从 Grafana 实例检索的值更新文件末尾的 grafanaIntegrations 属性。这类似于以下示例。在这些示例中，full_resource_id_1 和 full_resource_id_2 已在 Azure 托管 Grafana 资源 JSON 中。最后的 azureMonitorWorkspaceResourceId 条目已在模板中，用于链接到参数文件中提供的 Azure Monitor 工作区资源 ID。

手臂

{
    "type": "Microsoft.Dashboard/grafana",
    "apiVersion": "2022-08-01",
    "name": "[split(parameters('grafanaResourceId'),'/')[8]]",
    "sku": {
        "name": "[parameters('grafanaSku')]"
    },
    "location": "[parameters('grafanaLocation')]",
    "properties": {
        "grafanaIntegrations": {
        "azureMonitorWorkspaceIntegrations": [
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_1"
            },
            {
                "azureMonitorWorkspaceResourceId": "full_resource_id_2"
            },
            {
                "azureMonitorWorkspaceResourceId": "[parameters('azureMonitorWorkspaceResourceId')]"
            }
        ]
        }
    }
}

肱二头肌

    resource grafanaResourceId_8 'Microsoft.Dashboard/grafana@2022-08-01' = {
        name: split(grafanaResourceId, '/')[8]
        sku: {
            name: grafanaSku
        }
        identity: {
            type: 'SystemAssigned'
        }
        location: grafanaLocation
        properties: {
            grafanaIntegrations: {
                azureMonitorWorkspaceIntegrations: [
                    {
                        azureMonitorWorkspaceResourceId: 'full_resource_id_1'
                    }
                    {
                        azureMonitorWorkspaceResourceId: 'full_resource_id_2'
                    }
                    {
                        azureMonitorWorkspaceResourceId: azureMonitorWorkspaceResourceId
                    }
                ]
            }
        }
    }

使用部署资源管理器模板的任意有效方法，用参数文件部署模板。有关不同方法的示例，请参阅部署示例模板。

使用 Terraform 启用

先决条件

必须已创建 Azure Monitor 工作区和 Azure 托管 Grafana 工作区。
模板需要部署在 Azure 托管 Grafana 工作区所在的资源组中。
AKS 群集订阅中具有“用户访问管理员”角色的用户可以通过部署模板直接启用“监视读者”角色。
如果 Azure 托管 Grafana 实例所在的订阅不是 Azure Monitor 工作区订阅，请按照Microsoft.Dashboard中的步骤向资源提供程序注册 Azure Monitor 工作区订阅。

获取 Grafana 资源所需的值

在 Azure 门户中 Azure 托管 Grafana 实例的“概述”页面，选择“JSON 视图”。

如果使用已链接到 Azure Monitor 工作区的现有 Azure 托管 Grafana 实例，则需要 Grafana 集成列表。复制azureMonitorWorkspaceIntegrations字段的值。如果该值不存在，则实例尚未链接到任何 Azure Monitor 工作区。使用 Grafana 集成列表更新 azure_monitor_workspace_integrations 中的 main.tf 块。

  azure_monitor_workspace_integrations {
    resource_id  = var.monitor_workspace_id[var.monitor_workspace_id1, var.monitor_workspace_id2]
  }

下载和编辑模板

如果要使用启用了托管 Prometheus 加载项的 Terraform 部署新的 AKS 群集，请按照以下步骤操作：

下载AddonTerraformTemplate下的所有文件。
使用正确的参数值编辑 variables.tf 文件中的变量。
运行 terraform init -upgrade，将 Terraform 部署进行初始化。
运行 terraform plan -out main.tfplan，将 Terraform 部署进行初始化。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

注意：仅当 annotations_allowed 和 labels_allowed 关键值的变量存在时，才会在 main.tf 中传递这些变量。这些模块是可选的。

注意

在运行 terraform 模板之前，相应地编辑 main.tf 文件。在运行模板之前，将任何现有的 azure_monitor_workspace_integrations 值添加到 Grafana 资源。否则，旧值将被删除，并替换为部署期间模板中的内容。 AKS 群集订阅中具有“用户访问管理员”角色的用户可以部署模板以直接启用“监视读者”角色。如果正在使用非标准 SKU，请编辑 GrafanaSku 参数，最后在 Grafana 资源的资源组中运行此模板。

通过 Azure Policy 启用

下载 Azure Policy 模板和参数文件。
- 模板文件：https://aka.ms/AddonPolicyMetricsProfile
- 参数文件：https://aka.ms/AddonPolicyMetricsProfile.parameters
使用以下 CLI 命令创建策略定义：

az policy definition create --name "Prometheus Metrics addon" --display-name "Prometheus Metrics addon" --mode Indexed --metadata version=1.0.0 category=Kubernetes --rules AddonPolicyMetricsProfile.rules.json --params AddonPolicyMetricsProfile.parameters.json
创建策略定义后，在 Azure 门户中，选择“策略”，然后选择“定义”。选择创建的策略定义。
选择“分配”，并在“参数”选项卡上填写详细信息。选择“查看 + 创建”。
如果要将策略应用于现有群集，请从“策略分配”为该群集资源创建“修正任务”。

将策略分配给订阅后，每当新建未启用 Prometheus 的群集时，策略都将运行并启用 Prometheus 监视。

启用容器见解

按照下述方法之一在群集中启用容器见解。完成此操作后，请参阅配置容器见解代理的数据收集，以根据需要自定义配置，确保收集的数据不会超出您的需求。

重要

如果你拥有一个具有专用链接的 Azure Monitor 资源，则无法通过 Azure 门户启用容器见解。请参阅在 Azure Monitor 中为 Kubernetes 监视启用专用链接。

使用下述命令之一来启用对 AKS 和已启用 Arc 的群集的监视。如果未指定现有的 Log Analytics 工作区，将使用资源组的默认工作区。如果群集区域中尚不存在默认工作区，会使用 DefaultWorkspace-<GUID>-<Region> 格式的名称创建一个工作区。

先决条件

Azure CLI 2.75.0 或更高版本
托管标识身份验证是 CLI 版本 2.49.0 或更高版本中的默认设置。
Azure k8s-extension 版本 1.3.7 或更高版本
在 k8s-extension 版本 1.43.0 或更高版本中，管理身份验证是默认选项。
使用 ARO (Azure Red Hat Openshift) 或 Windows 节点且已启用 Arc 的 Kubernetes 群集不支持托管标识身份验证。使用旧式身份验证。
对于 CLI 2.54.0 或更高版本，日志记录架构将使用 ConfigMap 配置为 ContainerLogV2。

注意

可以使用群集的数据收集规则 (DCR) 或 ConfigMap 为群集启用 ContainerLogV2 架构。如果同时启用这两个设置，ConfigMap 优先级更高。仅当 DCR 和 ConfigMap 都明确设置为关闭时，Stdout 和 stderr 日志才会引入到 ContainerLog 表。

AKS 群集

### Use default Log Analytics workspace
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name>

### Use existing Log Analytics workspace
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name> --workspace-resource-id <workspace-resource-id>

### Use legacy authentication
az aks enable-addons --addon monitoring --name <cluster-name> --resource-group <cluster-resource-group-name> --workspace-resource-id <workspace-resource-id> --enable-msi-auth-for-monitoring false

示例

az aks enable-addons --addon monitoring --name "my-cluster" --resource-group "my-resource-group" --workspace-resource-id "/subscriptions/my-subscription/resourceGroups/my-resource-group/providers/Microsoft.OperationalInsights/workspaces/my-workspace"

已启用 Arc 的群集

### Use default Log Analytics workspace
az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers

### Use existing Log Analytics workspace
az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings logAnalyticsWorkspaceResourceID=<workspace-resource-id>

### Use managed identity authentication (default as k8s-extension version 1.43.0)
az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings amalogs.useAADAuth=true

### Use advanced configuration settings
az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings  amalogs.resources.daemonset.limits.cpu=150m amalogs.resources.daemonset.limits.memory=600Mi amalogs.resources.deployment.limits.cpu=1 amalogs.resources.deployment.limits.memory=750Mi

### With custom mount path for container stdout & stderr logs
### Custom mount path not required for Azure Stack Edge version > 2318. Custom mount path must be /home/data/docker for Azure Stack Edge cluster with version <= 2318
az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings amalogs.logsettings.custommountpath=<customMountPath>

请参阅 Helm 图表的资源请求和限制部分，了解可用的配置设置。

示例

az k8s-extension create --name azuremonitor-containers --cluster-name "my-cluster" --resource-group "my-resource-group" --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings logAnalyticsWorkspaceResourceID="/subscriptions/my-subscription/resourceGroups/my-resource-group/providers/Microsoft.OperationalInsights/workspaces/my-workspace"

支持 Arc 功能的具有前向代理的群集

如果群集配置了正向代理，则代理设置会自动应用于扩展。对于使用 AMPLS + 代理的群集，应忽略代理配置。使用配置设置 amalogs.ignoreExtensionProxySettings=true 启动扩展。

az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings amalogs.ignoreExtensionProxySettings=true

具有 ARO、OpenShift 或 Windows 节点的已启用 Arc 的群集

使用 ARO (Azure Red Hat Openshift)、OpenShift 或 Windows 节点且已启用 Arc 的 Kubernetes 群集不支持托管标识身份验证。通过指定 amalogs.useAADAuth=false 来使用旧式身份验证，如以下示例所示。

az k8s-extension create --name azuremonitor-containers --cluster-name <cluster-name> --resource-group <resource-group> --cluster-type connectedClusters --extension-type Microsoft.AzureMonitor.Containers --configuration-settings amalogs.useAADAuth=false

删除扩展实例

以下命令仅删除扩展实例，但不删除 Log Analytics 工作区。 Log Analytics 资源中的数据保持不变。

az k8s-extension delete --name azuremonitor-containers --cluster-type connectedClusters --cluster-name <cluster-name> --resource-group <resource-group>

本部分提供了 ARM 和 Bicep 模板。

先决条件

模板必须部署在群集所在的同一资源组中。

下载并安装模板

下载并编辑模板和参数文件

AKS 群集 ARM
- 模板文件：https://aka.ms/aks-enable-monitoring-msi-onboarding-template-file
- 参数文件：https://aka.ms/aks-enable-monitoring-msi-onboarding-template-parameter-file
AKS 群集 Bicep
- 模板文件 (Syslog)：https://aka.ms/enable-monitoring-msi-syslog-bicep-template
- 参数文件（非 Syslog）：https://aka.ms/enable-monitoring-msi-syslog-bicep-parameters
- 模板文件（非 Syslog）：https://aka.ms/enable-monitoring-msi-bicep-template
- 参数文件（非 Syslog）：https://aka.ms/enable-monitoring-msi-bicep-parameters
已启用 Arc 的群集 ARM
- 模板文件：https://aka.ms/arc-k8s-azmon-extension-msi-arm-template
- 参数文件：https://aka.ms/arc-k8s-azmon-extension-msi-arm-template-params
- 模板文件（旧式身份验证）：https://aka.ms/arc-k8s-azmon-extension-arm-template
- 参数文件（旧式身份验证）：https://aka.ms/arc-k8s-azmon-extension-arm-template-params

编辑参数文件中的以下值。 ARM 和 Bicep 模板使用一组相同的值。从其概述页面的 JSON 视图中检索资源 ID。

参数	说明
AKS：`aksResourceId` Arc：`clusterResourceId`	群集的资源 ID。
AKS：`aksResourceLocation` Arc：`clusterRegion`	群集的位置。
AKS：`workspaceResourceId` Arc：`workspaceResourceId`	Log Analytics 工作区的资源 ID。
Arc：`workspaceRegion`	Log Analytics 工作区的区域。
Arc：`workspaceDomain`	Log Analytics 工作区的域。 `opinsights.azure.com`，适用于 Azure 公有云 `opinsights.azure.cn`，适用于由世纪互联运营的 Microsoft Azure。
AKS：`resourceTagValues`	为群集的现有容器见解扩展数据收集规则 (DCR) 和 DCR 的名称指定的标记值。该名称将为 `MSCI-<clusterName>-<clusterRegion>`，并在 AKS 群集资源组中创建此资源。首次载入时，可设置任意标记值。
启用容器日志V2	指示是否使用 ContainerLogV2 的标志。
enableRetinaNetworkFlowLogs	用于指示是否启用或不启用 Retina 网络流日志的标志。
enableSyslog	指示是否启用 Syslog 收集的标志。
syslogLevels	Syslog 收集的日志级别
syslogFacilities（系统日志设施）	Syslog 收集的设施
数据收集间隔	用于适用的库存和性能数据收集的数据收集间隔。默认值为 1m
命名空间过滤模式用于数据收集	用于适用的库存和性能数据收集的数据收集命名空间筛选模式。默认值为 off
用于数据收集的命名空间	用于适用的库存和性能数据收集的数据收集的命名空间。
流	数据收集的流。对于 retina networkflow 日志功能，包括“Microsoft-RetinaNetworkFlowLogs”
useAzureMonitorPrivateLinkScope	用于指示是否配置 Azure Monitor 专用链接范围的标志。
azureMonitorPrivateLinkScope资源标识符ID	Azure Monitor 专用链接范围的 Azure 资源 ID。

使用部署资源管理器模板的任意有效方法，用参数文件部署模板。有关不同方法的示例，请参阅部署示例模板。

新建 AKS 群集

下载 Terraform 模板文件，具体取决于是否要启用 Syslog 集合。

Syslog
- https://aka.ms/enable-monitoring-msi-syslog-terraform
没有 Syslog
- https://aka.ms/enable-monitoring-msi-terraform
根据您的群集设置，调整 azurerm_kubernetes_cluster 资源在 main.tf 中的位置。

更新 variables.tf 中的参数以替换“”中的值<>

参数	说明
`aks_resource_group_name`	使用资源组的“AKS 概述”页中的值。
`resource_group_location`	使用资源组的“AKS 概述”页中的值。
`cluster_name`	定义要创建的群集名称。
`workspace_resource_id`	使用你的 Log Analytics 工作区的资源 ID。
`workspace_region`	使用你的 Log Analytics 工作区的位置。
`resource_tag_values`	将为群集的现有容器见解扩展数据收集规则 (DCR) 指定的现有标记值与 DCR 的名称进行匹配。名称将匹配 `MSCI-<clusterName>-<clusterRegion>`，并且此资源在 AKS 群集所在的同一资源组中创建。首次载入时，可设置任意标记值。
`enabledContainerLogV2`	要使用推荐的默认 ContainerLogV2，请将此参数值设置为 true。
成本优化参数	请参考数据收集参数

运行 terraform init -upgrade，将 Terraform 部署进行初始化。
运行 terraform plan -out main.tfplan，将 Terraform 部署进行初始化。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

现有 AKS 群集

首先使用以下命令导入现有群集资源： terraform import azurerm_kubernetes_cluster.k8s <aksResourceId>

将 oms_agent 附加配置文件添加到现有 azurerm_kubernetes_cluster 资源。

oms_agent {
    log_analytics_workspace_id = var.workspace_resource_id
    msi_auth_for_monitoring_enabled = true
  }

从 Terraform 模板复制 DCR 和 DCRA 资源
运行 terraform plan -out main.tfplan 并确保更改是添加 oms_agent 属性。注意：如果在 terraform 计划期间定义的 azurerm_kubernetes_cluster 资源不同，则会销毁现有群集并重新进行创建。
运行 terraform apply main.tfplan，将执行计划应用到云基础结构。

提示

在运行 terraform 模板之前，相应地编辑 main.tf 文件
数据将在 10 分钟后开始流动，因为群集需要先准备好
WorkspaceID 需要与格式 /subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourceGroups/example-resource-group/providers/Microsoft.OperationalInsights/workspaces/workspaceValue 匹配
如果资源组已存在，请先运行 terraform import azurerm_resource_group.rg /subscriptions/<Subscription_ID>/resourceGroups/<Resource_Group_Name>，然后执行 terraform 计划

Azure 门户

在 Azure 门户中“策略”菜单的“定义”选项卡中，使用以下详细信息创建策略定义。
- 定义位置：应在其中存储策略定义的 Azure 订阅。
- 名称：AKS-Monitoring-Addon
- 说明：用于在 Azure Kubernetes 群集上启用监视加载项的 Azure 自定义策略。
- 类别：选择“使用现有项”，然后从下拉列表中选择“Kubernetes”。
- 策略规则：将现有示例 JSON 替换为 https://aka.ms/aks-enable-monitoring-custom-policy 的内容。
选择新的策略定义“AKS 监视加载项”。
选择分配并指定策略应分配的作用域。
选择“下一步”，并提供 Log Analytics 工作区的资源 ID。
如果要将策略应用于所选作用域中的现有 AKS 群集，请创建一个修正任务。
选择“查看 + 创建”以创建策略分配。

Azure CLI

下载 Azure Policy 模板和参数文件。
- 模板文件：https://aka.ms/enable-monitoring-msi-azure-policy-template
- 参数文件：https://aka.ms/enable-monitoring-msi-azure-policy-parameters

使用以下 CLI 命令创建策略定义：

az policy definition create --name "AKS-Monitoring-Addon-MSI" --display-name "AKS-Monitoring-Addon-MSI" --mode Indexed --metadata version=1.0.0 category=Kubernetes --rules azure-policy.rules.json --params azure-policy.parameters.json

使用以下 CLI 命令创建策略定义：

az policy assignment create --name aks-monitoring-addon --policy "AKS-Monitoring-Addon-MSI" --assign-identity --identity-scope /subscriptions/<subscriptionId> --role Contributor --scope /subscriptions/<subscriptionId> --location <location> -p "{ \"workspaceResourceId\": { \"value\": \"/subscriptions/<subscriptionId>/resourcegroups/<resourceGroupName>/providers/microsoft.operationalinsights/workspaces/<workspaceName>\" }, \"resourceTagValues\": { \"value\": {} }, \"workspaceRegion\": { \"value\": \"<location>\" }}"

将策略分配给订阅后，每当您创建新的群集且未启用“容器见解”时，策略将运行并执行部署，以启用“容器见解”监控功能。

使用 Azure 门户启用完整监视

新的 AKS 群集（Prometheus、容器见解和 Grafana）

在 Azure 门户中创建新的 AKS 群集时，会在“监视”选项卡中选中“启用容器日志”、“启用 Prometheus 指标”、“启用 Grafana”和“启用建议的警报”复选框。

现有集群（Prometheus、Container Insights 和 Grafana）

请在 Azure 门户中进入您的集群。
在服务菜单中，选择“ 监视>监视器设置”。
已为你选择 Prometheus 指标、Grafana 和容器日志及事件。如果你现在有 Azure Monitor 工作区、Grafana 工作区和 Log Analytics 工作区，系统会为你选择它们。
如果你希望选择备用工作区或创建新工作区，请选择“高级设置”。使用“日志记录配置文件和经典配置文件”设置，你可以修改默认集合详细信息来降低监视成本。有关详细信息，请参阅在容器见解中启用成本优化设置。
选择“配置” 。

启用 Windows 指标收集（预览）

注意

windows-exporter-daemonset.yaml 中不存在 CPU/内存限制，因此可能会过度预配 Windows 节点
有关更多详细信息，请参阅资源预留

在部署工作负载时，请对容器设置资源内存和 CPU 限制。这也会从 NodeAllocatable 中扣减，并且可以帮助群集范围的计划程序确定将哪些 pod 放置在哪些节点上。在没有限制的情况下调度 Pod 可能会导致 Windows 节点过度配置，并且在极端情况下可能会导致节点不健康。

自托管 Prometheus 加载项容器 (prometheus_collector) 的 6.4.0-main-02-22-2023-3ee44b9e 版本起，AKS 群集已启用 Windows 指标收集。加入 Azure Monitor 指标附加组件可使 Windows 守护进程集 pod 在节点池上开始运行。支持 Windows Server 2019 和 Windows Server 2022。按照以下步骤使 Pod 能够从 Windows 节点池收集指标。

通过部署 windows-exporter-daemonset YAML 文件，在 AKS 节点上手动安装 windows 导出程序以访问 Windows 指标。启用以下收集器：
- [defaults]
- container
- memory
- process
- cpu_info
有关更多收集器，请参阅适用于 Windows 指标的 Prometheus 导出器。

部署 windows-exporter-daemonset YAML 文件。请注意，如果在节点上应用了任何排斥，你将需要应用相应的容忍度。
```
    kubectl apply -f windows-exporter-daemonset.yaml
```
将 ama-metrics-settings-configmap 应用到群集。将 windowsexporter 和 windowskubeproxy 布尔值设置为 true。有关详细信息，请参阅指标加载项设置 configmap。
启用开箱即用仪表板所需的录制规则：
- 如果使用 CLI 载入，请包含选项--enable-windows-recording-rules。
- 如果使用 ARM 模板、Bicep 或 Azure Policy 载入，在参数文件中将enableWindowsRecordingRules设置为true。
- 如果群集已载入，使用此 ARM 模板和此参数文件以创建规则组。这将添加所需的记录规则，并且不是群集上的 ARM 操作，不会影响群集的当前监视状态。
[仅适用于已启用 ARC 的群集中的 Windows 节点]如果要为已启用 ARC 的群集启用托管 Prometheus，则可以配置群集中 Linux 节点上运行的 Managed Prometheus，以从 Windows 节点上运行的终结点中抓取指标。将以下抓取任务添加到 ama-metrics-prometheus-config-configmap.yaml，并将 configmap 应用到集群。

  scrape_configs:
    - job_name: windows-exporter
      scheme: http
      scrape_interval: 30s
      label_limit: 63
      label_name_length_limit: 511
      label_value_length_limit: 1023
      tls_config:
        ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
        insecure_skip_verify: true
      bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
      kubernetes_sd_configs:
      - role: node
      relabel_configs:
      - source_labels: [__meta_kubernetes_node_name]
        target_label: instance
      - action: keep
        source_labels: [__meta_kubernetes_node_label_kubernetes_io_os]
        regex: windows
      - source_labels:
        - __address__
        action: replace
        target_label: __address__
        regex: (.+?)(\:\d+)?
        replacement: $$1:9182

kubectl apply -f ama-metrics-prometheus-config-configmap.yaml

验证部署

使用 kubectl 命令行工具验证是否已正确部署代理。

托管 Prometheus

验证是否已在 Linux 节点池上正确部署 DaemonSet

kubectl get ds ama-metrics-node --namespace=kube-system

Pod 数应等于群集上的 Linux 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-metrics-node --namespace=kube-system
NAME               DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-metrics-node   1         1         1       1            1           <none>          10h

验证是否已正确部署 Windows 节点

kubectl get ds ama-metrics-win-node --namespace=kube-system

Pod 数应等于群集上的 Windows 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-metrics-node --namespace=kube-system
NAME                   DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-metrics-win-node   3         3         3       3            3           <none>          10h

验证是否为 Prometheus 部署了两个 ReplicaSet

kubectl get rs --namespace=kube-system

输出应与下面的示例类似：

User@aksuser:~$kubectl get rs --namespace=kube-system
NAME                            DESIRED   CURRENT   READY   AGE
ama-metrics-5c974985b8          1         1         1       11h
ama-metrics-ksm-5fcf8dffcd      1         1         1       11h

容器见解

验证是否已在 Linux 节点池上正确部署 DaemonSet

kubectl get ds ama-logs --namespace=kube-system

Pod 数应等于群集上的 Linux 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-logs --namespace=kube-system
NAME       DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
ama-logs   2         2         2         2            2           <none>          1d

验证是否已正确部署 Windows 节点

kubectl get ds ama-logs-windows --namespace=kube-system

Pod 数应等于群集上的 Windows 节点数。输出应与下面的示例类似：

User@aksuser:~$ kubectl get ds ama-logs-windows --namespace=kube-system
NAME                   DESIRED   CURRENT   READY     UP-TO-DATE   AVAILABLE   NODE SELECTOR     AGE
ama-logs-windows           2         2         2         2            2       <none>            1d

验证容器见解解决方案的部署

kubectl get deployment ama-logs-rs --namespace=kube-system

输出应与下面的示例类似：

User@aksuser:~$ kubectl get deployment ama-logs-rs --namespace=kube-system
NAME          READY   UP-TO-DATE   AVAILABLE   AGE
ama-logs-rs   1/1     1            1           24d

使用 CLI 查看配置

使用 aks show 命令查看是否已启用解决方案，并查看 Log Analytics 工作区资源 ID 以及有关群集的摘要信息。

az aks show --resource-group <resourceGroupofAKSCluster> --name <nameofAksCluster>

该命令将会返回有关解决方案的 JSON 格式信息。 addonProfiles 部分应包括有关 omsagent 的信息，如下例所示：

"addonProfiles": {
    "omsagent": {
        "config": {
            "logAnalyticsWorkspaceResourceID": "/subscriptions/aaaa0a0a-bb1b-cc2c-dd3d-eeeeee4e4e4e/resourcegroups/my-resource-group/providers/microsoft.operationalinsights/workspaces/my-workspace",
            "useAADAuth": "true"
        },
        "enabled": true,
        "identity": null
    },
}

预配的资源

启用监视时，会在你的订阅中创建以下资源：

资源名称	资源类型	资源组	区域/位置	说明
`MSCI-<aksclusterregion>-<clustername>`	数据收集规则	与群集相同	与 Log Analytics 工作区相同	此数据收集规则适用于 Azure Monitor 代理的日志收集，该代理使用 Log Analytics 工作区作为目标，并关联到 AKS 群集资源。
`MSPROM-<aksclusterregion>-<clustername>`	数据收集规则	与群集相同	与 Azure Monitor 工作区相同	此数据收集规则适用于指标加载项执行的 prometheus 指标收集，其目标位置为选定的 Azure Monitor 工作区，且与 AKS 群集资源相关联
`MSPROM-<aksclusterregion>-<clustername>`	数据收集终结点	与群集相同	与 Azure Monitor 工作区相同	上述数据收集规则利用这个数据收集终端来从指标插件中引入 Prometheus 指标。

新建 Azure Monitor 工作区时，会创建以下附加资源作为工作区的一部分

资源名称	资源类型	资源组	区域/位置	说明
`<azuremonitor-workspace-name>`	数据收集规则	<MA_azuremonitor-workspace-name>_<azuremonitor-workspace-region>_managed	与 Azure Monitor 工作区相同	使用 OSS Prometheus 服务器远程写入 Azure Monitor 工作区时创建的 DCR。
`<azuremonitor-workspace-name>`	数据收集终结点	<MA_azuremonitor-workspace-name>_<azuremonitor-workspace-region>_managed	与 Azure Monitor 工作区相同	使用 OSS Prometheus 服务器远程写入 Azure Monitor 工作区时创建的 DCE。

Windows 群集与 Linux 群集之间的差异

监视 Windows Server 群集与监视 Linux 群集相比，主要差异包括：

Windows 没有内存 RSS 指标。因此它不适用于 Windows 节点和容器。工作集指标已可用。
磁盘存储容量信息不适用于 Windows 节点。
仅监视 Pod 环境，不监视 Docker 环境。
使用预览版时，最多支持 30 个 Windows Server 容器。此限制不适用于 Linux 容器。

注意

适用于 Windows Server 2022 操作系统的容器见解功能目前为预览版。

容器化 Linux 代理 (replicaset pod) 向群集内 Kubelet 安全端口 (10250) 上的所有 Windows 节点进行 API 调用，以收集与节点和容器性能相关的指标。应在群集的虚拟网络中针对入站和出站打开 Kubelet 安全端口 (:10250)，以便正常收集 Windows 节点和容器性能相关指标。

如果你有一个包含 Windows 节点的 Kubernetes 群集，请查看并配置网络安全组和网络策略，确保在群集的虚拟网络中针对入站和出站打开 Kubelet 安全端口 (:10250)。

后续步骤

如果在尝试加入解决方案时遇到问题，请查看故障排除指南。
在启用了监视功能以收集 AKS 群集以及在其上运行的工作负载的运行状况和资源利用率之后，请了解如何使用容器见解。

通过

启用对 Kubernetes 群集的监视

支持的群集

先决条件

工作区

启用 Prometheus 和 Grafana

使用 CLI 启用

先决条件

可选参数

AKS 群集

已启用 Arc 的群集

启用容器见解

先决条件

AKS 群集

已启用 Arc 的群集

使用 Azure 门户启用完整监视

新的 AKS 群集（Prometheus、容器见解和 Grafana）

现有集群（Prometheus、Container Insights 和 Grafana）

启用 Windows 指标收集（预览）

验证部署

托管 Prometheus

容器见解

预配的资源

Windows 群集与 Linux 群集之间的差异

后续步骤

其他资源