监视Azure HDInsight

本文介绍：

可以为此服务收集的监视数据的类型。
如何分析这些数据。

注意

如果已熟悉此服务和/或Azure Monitor并只想了解如何分析监视数据，请参阅本文末尾附近的 Analyze 部分。

如果关键应用程序和业务流程依赖于Azure资源，则需要监视并获取系统的警报。 Azure Monitor服务从系统的每个组件收集并聚合指标和日志。 Azure Monitor提供可用性、性能和复原能力视图，并通知你问题。可以使用 Azure 门户、PowerShell、Azure CLI、REST API 或客户端库来设置和查看监视数据。

有关Azure Monitor的详细信息，请参阅 Azure Monitor 概述。
有关一般如何监视Azure资源的详细信息，请参阅使用Azure Monitor监视Azure资源。

HDInsight 监控选项

HDInsight 群集可用的特定指标和日志取决于群集类型和工具。 Azure HDInsight提供 Apache Hadoop、Spark、Kafka、HBase 和 Interactive Query 群集类型。可以通过 Apache Ambari Web UI 或在 Azure 门户中启用Azure Monitor集成来监视群集。

Apache Ambari 监控

Apache Ambari 提供 Web UI 和 REST API 来简化 HDInsight 群集的管理、配置和监视。基于 Linux 的所有 HDInsight 群集都包含 Ambari。若要使用 Ambari，请在 hdInsight 群集的 Overview Azure 页上选择 Ambari home。

有关如何使用 Ambari 进行监视的信息，请参阅以下文章：

在 Azure HDInsight 中监控群集性能
如何在 Azure HDInsight

Azure Monitor集成

还可以直接在 Azure 中监视 HDInsight 群集。新的Azure Monitor集成现在以预览版提供，可用于从 HDInsight 群集访问 Insights、Logs 和 Workbooks，而无需调用Log Analytics工作区。

若要使用新的 Azure Monitor 集成功能，请在你 HDInsight Azure 门户页面左侧菜单的 Monitoring 部分中选择 Monitor integration 以启用它。还可以使用 PowerShell 或Azure CLI来启用新的监视集成并与之交互。有关详细信息，请参阅以下文章：

使用 Azure Monitor 代理监视 HDInsight 群集

https://docs.azure.cn/azure-monitor/logs/logs-ingestion-api-overview

Insights

在 Azure 中的一些服务在 Azure 门户中内置了一个监控仪表板，为您提供监控服务的起点。这些仪表板称为 insights，可以在 Azure 门户中的 Azure Monitor Insights Hub 中找到它们。

Insights 群集门户集成

启用Azure Monitor集成后，可以在 HDInsight Azure 门户页面的左侧菜单中选择 Insights （预览版），以查看特定于群集类型的现成、自动填充的日志和指标可视化仪表板。见解仪表板使用预生成的 Azure Workbook，其中包含每个群集类型、YARN、系统指标和组件日志的部分。

这些详细的图形和可视化可让你深入了解群集的性能和运行状况。

资源类型

Azure使用资源类型和 ID 的概念来标识订阅中的所有内容。 Azure Monitor同样将核心监视数据组织成基于资源类型的指标和日志，也称为namespaces。不同的指标和日志可用于不同的资源类型。服务可能与多种资源类型关联。

资源类型也是Azure中运行的每个资源的资源 ID 的一部分。例如，虚拟机的一种资源类型为 Microsoft.Compute/virtualMachines。有关服务及其关联资源类型的列表，请参阅资源提供程序。

有关Azure HDInsight的资源类型的详细信息，请参阅 HDInsight 监视数据参考。

数据存储

关于Azure Monitor：

指标数据存储在Azure Monitor指标数据库中。
日志数据存储在Azure Monitor日志存储中。 Log Analytics 是 Azure 门户中可以查询此存储的工具。
Azure活动日志是一个单独的存储区，其自己的接口位于Azure门户中。
可以选择性地将指标和活动日志数据路由到Azure Monitor日志数据库存储，以便可以使用Log Analytics查询数据并将其与其他日志数据相关联。

有关如何Azure Monitor存储数据的详细信息，请参阅 Azure Monitor 数据平台。

HDInsight 将其日志文件存储在群集文件系统和Azure Storage中。由于日志文件的数量多且大小很大，因此必须优化日志存储和存档，以帮助进行成本管理。有关详细信息，请参阅管理 HDInsight 群集的日志。

Azure Monitor平台指标

Azure Monitor为大多数服务提供平台指标。这些指标是：

针对每个命名空间单独定义。
存储在Azure Monitor时序指标数据库中。
设计轻便，并能够支持近实时的警报。
用于跟踪资源随时间推移的性能变化。

Collection： Azure Monitor自动收集平台指标。不需要任何配置。

Routing：通常还可以将平台指标路由到Azure Monitor日志/Log Analytics，以便可以使用其他日志数据查询它们。有关详细信息，请参阅指标诊断设置。有关如何配置服务的诊断设置，请参阅在 Azure Monitor 中创建诊断设置。

有关在 Azure Monitor 中可对所有资源进行收集的所有指标的列表，请参阅 Azure Monitor 中的 Supported metrics。

有关为 HDInsight 自动收集的指标列表，请参阅 HDInsight 监视数据参考。

Azure Monitor资源日志

资源日志提供有关由Azure资源执行的操作的见解。日志是自动生成的，但必须将日志路由到Azure Monitor日志以保存或查询日志。日志按类别组织。给定的命名空间可能具有多个资源日志类别。

收集：在创建诊断设置并将日志路由到一个或多个位置之前，不会收集和存储资源日志。创建诊断设置时，请指定要收集的日志类别。可通过多种方式创建和维护诊断设置，包括Azure门户、编程方式以及Azure Policy。

Routing：建议的默认值是将资源日志路由到Azure Monitor日志，以便可以使用其他日志数据对其进行查询。其他位置，例如 Azure Storage、Azure Event Hubs，以及某些 Azure 监视合作伙伴也可用。有关详细信息，请参阅 Azure 资源日志和 resource 日志目标。

有关收集、存储和路由资源日志的详细信息，请参阅 Azure Monitor 中的 Diagnostic 设置。

有关 Azure Monitor 中所有可用资源日志类别的列表，请参阅 Azure Monitor 中支持的资源日志。

Azure Monitor中的所有资源日志具有相同的标头字段，后跟特定于服务的字段。通用架构在 Azure Monitor 资源日志架构中概述。

代理收集的日志

HDInsight 不按常规方法生成资源日志。而是从 HDInsight 群集内部收集日志，并使用 Log Analytics Agent 将其发送到 Azure Monitor 日志/Log Analytics 表。

HDInsight 群集生成许多日志文件，例如：

作业执行日志
YARN 日志资源管理器文件
脚本操作日志
Ambari 群集警报状态
Ambari 系统指标
安全日志
Hadoop 活动被记录到控制器、stderr 日志文件和 syslog 日志文件中

可用的特定日志取决于群集框架和工具。为群集启用Azure Monitor集成后，即可查看和查询其中任何日志。

有关收集的日志的详细信息，请参阅管理 HDInsight 群集的日志。
有关 HDInsight 的可用 Log Analytics 和 Azure Monitor 表和日志架构，请参阅 HDInsight 监控数据参考。

选择性日志记录

HDInsight 群集可以收集许多详细日志。为了帮助节省监视和存储成本，可以在 Azure 门户中使用 HDInsight 的脚本操作启用选择性日志记录功能。选择性日志记录允许你打开和关闭通过Log Analytics提供的不同日志和指标源。借助此功能，你只需为使用的内容付费。

可以配置日志收集和分析，以启用或禁用Log Analytics工作区中的表，并调整每个表的源类型。

Azure活动日志

活动日志包含订阅级事件，用于跟踪从该资源外部查看的每个Azure资源的操作;例如，创建新资源或启动虚拟机。

Collection：活动日志事件在单独的存储中自动生成和收集，以便在Azure门户中查看。

Routing： 可以将活动日志数据发送到Azure Monitor日志，以便可以与其他日志数据一起分析。其他位置，例如 Azure Storage、Azure Event Hubs，以及某些 Azure 监视合作伙伴也可用。有关如何路由活动日志的详细信息，请参阅Azure活动日志的 Overview。

分析监视数据

有许多工具可用于分析监视数据。

Azure Monitor工具

Azure Monitor支持以下基本工具：

Metrics 资源管理器，Azure门户中的一个工具，可用于查看和分析Azure资源的指标。有关详细信息，请参阅使用 Azure Monitor 指标资源管理器分析指标。
Log Analytics，Azure门户中的一个工具，可用于使用 Kusto 查询语言（KQL）查询和分析日志数据。有关详细信息，请参阅在 Azure Monitor 中开始日志查询。
活动日志，可以通过 Azure 门户中的用户界面进行查看和基本搜索。若要进行更深入的分析，必须将数据路由到Azure Monitor日志并在Log Analytics中运行更复杂的查询。

支持更复杂可视化效果的工具包括：

Dashboards，使你能够将不同类型的数据合并到Azure门户中的单个窗格中。
Workbooks，可以在Azure门户中创建的可自定义报表。工作簿可以包括文本、指标和日志查询。
Power BI，这是一项业务分析服务，用于跨各种数据源提供交互式可视化效果。可以将Power BI配置为从Azure Monitor自动导入日志数据，以利用这些可视化效果。

Azure Monitor 日志功能从 HDInsight 群集资源及其他监控工具中收集数据，并利用这些数据在多个来源中进行分析。

必须配置Azure Monitor集成才能直接从群集查看和分析群集日志。有关详细信息，请参阅如何使用 HDInsight 中的Azure Monitor日志监视群集可用性。
HDInsight 的新 Azure Monitor 集成（预览版）正在替换 Log Analytics。有关详细信息，请参阅 Azure HDInsight 群集的 Log Analytics 迁移指南。

Azure Monitor 导出工具

可以使用以下方法将数据从Azure Monitor中获取到其他工具：

Metrics： 使用 REST API 从 Azure Monitor 指标数据库提取度量数据。 API 支持使用筛选表达式优化检索到的数据。有关详细信息，请参阅 Azure Monitor REST API 参考。
日志：使用 REST API 或关联的客户端库。

若要开始使用适用于Azure Monitor的 REST API，请参阅Azure监视 REST API 演练。

Kusto 查询

可以使用 Kusto 查询语言（KQL）分析 Azure Monitor 日志/Log Analytics 存储中的监视数据。

重要

从门户中的服务菜单中选择Logs时，Log Analytics打开，并将查询范围设置为当前服务。此范围意味着日志查询将仅包含来自该资源类型的数据。如果要运行包含来自其他Azure服务的数据的查询，请从 Azure Monitor 菜单中选择 Logs。有关详细信息，请参阅日志查询范围和时间范围的 Azure Monitor Log Analytics。

有关任何服务的常见查询列表，请参阅 Log Analytics 查询接口。

启用Azure Monitor集成后，可以在 HDInsight 门户页面的左侧导航中选择 Logs（预览），然后选择 Queries 选项卡以查看群集的示例查询。例如，以下查询列出了过去五小时内未发送心跳的所有已知计算机。

// Unavailable computers 
Heartbeat
| summarize LastHeartbeat=max(TimeGenerated) by Computer
| where LastHeartbeat < ago(5h)

以下查询根据 CPU 消耗获取过去 24 小时内的前 10 大资源密集型查询。

// Top 10 resource intensive queries 
LAQueryLogs
| top 10 by StatsCPUTimeMs desc nulls last

重要

新的 Azure Monitor 集成在 Log Analytics 工作区中实现了新表。为了尽可能多地消除歧义，架构格式较少，架构格式也组织地更好，更易于理解。

Azure 门户中的新监视集成使用新表，但您需要重新调整现有查询和仪表板，以使用新表。有关从经典Azure Monitor集成到新表的日志表映射，请参阅 Log 表映射。

警报

Azure Monitor警报会在监视数据中找到特定条件时主动通知你。有了警报，你就可以在客户注意到你的系统中的问题之前找出和解决问题。有关详细信息，请参阅 Azure Monitor 警报。

Azure资源有许多常见警报来源。有关Azure资源的常见警报示例，请参阅 Sample 日志警报查询。 Azure Monitor Baseline Alerts (AMBA) 站点提供有关 Azure 着陆区 (ALZ) 场景的关键警报指标、仪表板和指南。

通用警报架构标准化了Azure Monitor警报通知的处理。有关详细信息，请参阅常见警报架构。

警报类型

可以在Azure Monitor数据平台中针对任何指标或日志数据源发出警报。警报具有许多不同类型，具体取决于要监视的服务以及要收集的监视数据。不同类型的警报各有优缺点。有关详细信息，请参阅选择正确的监视警报类型。

以下列表描述了可以创建的Azure Monitor警报的类型：

指标警报会定期评估资源指标。指标可以是平台指标、自定义指标、Azure Monitor转换为指标或 Application Insights 指标的日志。指标警报还可以应用多个条件和动态阈值。
Log 警报允许用户使用Log Analytics查询以预定义的频率评估资源日志。
当发生匹配所定义条件的新活动日志事件时，会触发活动日志警报。资源运行状况警报和服务运行状况警报是报告您服务和资源健康状况的活动日志警报。

还可以为某些Azure服务创建以下类型的警报：

Application Insights 资源上的智能检测警报会就 Web 应用程序中的潜在性能问题和故障异常自动向你发出警报。可以在 Application Insights 资源上迁移智能检测，以便为不同的智能检测模块创建警报规则。
Prometheus 警报会针对存储在 Azure Monitor 托管服务中的 Prometheus 指标发出警报。该警报规则基于 PromQL，它是一种开源查询语言。你的服务可能不支持此类型警报。目前，Prometheus 用于一组有限的服务，其中包含来宾操作系统，例如 Azure 虚拟机和 Azure 容器实例。
建议的警报规则可用于某些 Azure 资源，包括虚拟机、Azure Kubernetes Service (AKS) 资源和日志分析工作区。

监视多个资源

可以通过将同一指标警报规则应用于同一Azure区域中存在的同一类型的多个资源来大规模监视。将为每个受监视的资源发送单独通知。若需查看支持的 Azure 服务和云，请参阅使用一个警报规则监控多个资源。

HDInsight 警报规则

启用Azure Monitor集成后，可以在 HDInsight 门户页面的左侧导航中选择 Alerts，然后选择创建警报规则来配置警报。可以将警报基于任何日志分析查询，或使用来自指标或活动日志的信号。

下表介绍了 HDInsight 的几个警报规则。这些警报只是示例。可以为 HDInsight 监视数据参考中列出的任何指标、日志条目或活动日志条目设置警报。

警报类型	条件	说明
度量	挂起的 CPU	每当最大待处理 CPU 大于或小于动态阈值时
活动日志	删除群集	每当活动日志具有 Category='Administrative', Signal name='Delete Cluster (HDInsight Cluster)' 的事件时

有关如何创建警报的示例，请参阅 Azure Monitor 警报。

顾问建议

如果在资源操作期间出现严重情况或即将发生变化，则门户中的“概述”页面上会显示一个警报。

可以在“监视”下的“顾问建议”中找到有关警报的更多信息和建议的修复措施。在正常操作期间，不会显示任何顾问建议。

有关Azure Advisor的详细信息，请参阅 Azure Advisor 概述。

如需为 HDInsight 创建的指标、日志和其他重要值的参考，请参阅 HDInsight 监视数据参考。
有关通过 Azure Monitor 监控 Azure 资源的一般详细信息，请参阅监控 Azure 资源的 Azure Monitor。

Last updated on 2026-04-13