Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
本文介绍:
- 可以为此服务收集的监视数据的类型。
- 如何分析这些数据。
注释
如果已熟悉此服务和/或Azure Monitor并只想了解如何分析监视数据,请参阅本文末尾附近的 Analyze 部分。
如果关键应用程序和业务流程依赖于Azure资源,则需要监视并获取系统的警报。 Azure Monitor服务从系统的每个组件收集并聚合指标和日志。 Azure Monitor提供可用性、性能和复原能力视图,并通知你问题。 可以使用 Azure 门户、PowerShell、Azure CLI、REST API 或客户端库来设置和查看监视数据。
- 有关Azure Monitor的详细信息,请参阅 Azure Monitor 概述。
- 有关一般如何监视Azure资源的详细信息,请参阅使用Azure Monitor监视Azure资源。
有关如何使用 Azure PowerShell cmdlet 和 PowerShell 脚本监视和管理Azure 流分析资源的说明,请参阅 Monitor 并使用 Azure PowerShell cmdlet 管理流分析作业。
资源类型
Azure使用资源类型和 ID 的概念来标识订阅中的所有内容。 Azure Monitor同样将核心监视数据组织成基于资源类型的指标和日志,也称为namespaces。 不同的指标和日志可用于不同的资源类型。 服务可能与多种资源类型关联。
资源类型也是Azure中运行的每个资源的资源 ID 的一部分。 例如,虚拟机的一种资源类型为 Microsoft.Compute/virtualMachines。 有关服务及其关联资源类型的列表,请参阅 资源提供程序。
有关Azure 流分析的资源类型的详细信息,请参阅 Azure 流分析 监视数据参考。
数据存储
关于Azure Monitor:
- 指标数据存储在Azure Monitor指标数据库中。
- 日志数据存储在Azure Monitor日志存储中。 Log Analytics 是 Azure 门户中可以查询此存储的工具。
- Azure活动日志是一个单独的存储区,其自己的接口位于Azure门户中。
- 可以选择性地将指标和活动日志数据路由到Azure Monitor日志数据库存储,以便可以使用Log Analytics查询数据并将其与其他日志数据相关联。
- 通过使用诊断设置,许多服务可以将指标和日志数据发送到Azure Monitor之外的其他存储位置。 示例包括 Azure 存储、使用事件中心的非 Azure 第三方系统。
有关如何Azure Monitor存储数据的详细信息,请参阅 Azure Monitor 数据平台。 从 使用 Azure Monitor 监控 Azure 资源 一文开始,其中介绍了以下概念:
Azure Monitor平台指标
Azure Monitor为大多数服务提供平台指标。 这些指标是:
- 针对每个命名空间单独定义。
- 存储在Azure Monitor时序指标数据库中。
- 轻量级且具备支持准实时警报的能力。
- 用于跟踪资源随时间推移的性能变化。
Collection: Azure Monitor自动收集平台指标。 无需配置。
Routing:通常还可以将平台指标路由到Azure Monitor日志/Log Analytics,以便可以使用其他日志数据查询它们。 有关详细信息,请参阅指标诊断设置。 有关如何配置服务的诊断设置,请参阅 在 Azure Monitor 中创建诊断设置。
有关在 Azure Monitor 中可对所有资源进行收集的所有指标的列表,请参阅 Azure Monitor 中的 Supported metrics。
Azure 流分析指标
有关如何在 Azure 门户中监视指标的说明,请参阅使用 Azure 门户的Monitor 流分析作业。
注释
默认情况下,Azure 流分析通过 REST API、Azure SDK 或 PowerShell 创建的作业未启用监视。 若要启用监视,请按照以编程方式创建流分析作业监视器中的步骤操作。 然后,监视数据会显示在流分析作业Azure门户页的 Metrics 区域中。
下表列出了一些常用监视Azure 流分析指标的条件和纠正措施。
| Metric | 条件 | 时间聚合 | 阈值 | 更正操作 |
|---|---|---|---|---|
| SU (内存) 利用率百分比 | 大于 | 平均值 | 80 | 多种因素会增加 SU 的利用率。 可以使用查询并行化进行缩放,或者增加 SU 数。 有关详细信息,请参阅 Azure 流分析 中的 |
| CPU 使用率百分比 | 大于 | 平均值 | 90 | 这可能意味着某些操作(如用户定义函数、用户定义聚合或复杂输入反序列化)需要大量的 CPU 周期。 通常可以通过增加作业需要的 SU(服务单元)数量来解决此问题。 |
| 运行时错误 | 大于 | Total | 0 | 检查活动或资源日志,并对输入、查询或输出进行相应更改。 |
| 水印延迟 | 大于 | 平均值 | 当此指标在过去 15 分钟的平均值大于延迟容限(以秒为单位)时。 如果未修改延迟容限,默认值将设置为 5 秒。 | 尝试增加 SU 数量或将查询并行化。 有关 SU 的详细信息,请参阅了解和调整流单元。 有关并行化查询的详细信息,请参阅在 Azure 流分析 中利用查询并行化。 |
| 输入数据反序列化错误 | 大于 | Total | 0 | 检查活动或资源日志,并对输入进行相应更改。 有关资源日志的更多信息,请参阅使用资源日志排查 Azure 流分析 问题。 |
有关Azure 流分析所有可用指标的列表和说明,请参阅Azure 流分析监视数据参考。
Azure Monitor资源日志
资源日志提供有关由Azure资源执行的操作的见解。 日志是自动生成的,但必须将日志路由到Azure Monitor日志以保存或查询日志。 日志按类别组织。 给定的命名空间可能具有多个资源日志类别。
收集:在创建诊断设置并将日志路由到一个或多个位置之前,不会收集和存储资源日志。 创建诊断设置时,请指定要收集的日志类别。 可通过多种方式创建和维护诊断设置,包括Azure门户、编程方式以及Azure Policy。
Routing:建议的默认值是将资源日志路由到Azure Monitor日志,以便可以使用其他日志数据对其进行查询。 还可以访问其他位置,例如 Azure 存储、Azure 事件中心 和某些微软监控合作伙伴。 有关详细信息,请参阅 Azure 资源日志和 resource 日志目标。
有关收集、存储和路由资源日志的详细信息,请参阅 Azure Monitor 中的 Diagnostic 设置。
有关 Azure Monitor 中所有可用资源日志类别的列表,请参阅 Azure Monitor 中支持的资源日志。
Azure Monitor中的所有资源日志具有相同的标头字段,后跟特定于服务的字段。 通用架构在 Azure Monitor 资源日志架构中概述。
Azure 流分析日志
Azure 流分析捕获两类资源日志:
创作:捕获与作业创作操作相关的日志事件,例如作业创建、添加和删除输入与输出、添加和更新查询,以及开始或停止作业。
执行:捕获作业执行期间发生的事件。
- 连接错误
- 数据处理错误,包括:
- 不符合查询定义的事件(不匹配的字段类型和值、缺少字段等)
- 表达式计算错误
- 其他事件和错误
有关可用的资源日志类别、其关联的Log Analytics表以及Azure 流分析的日志架构,请参阅 Azure 流分析监视数据参考。
有关如何使用资源日志排查 Azure 流分析 作业失败的详细演练,请参阅 使用资源日志排查 Azure 流分析。
Azure活动日志
活动日志包含订阅级事件,用于跟踪从该资源外部查看的每个Azure资源的操作;例如,创建新资源或启动虚拟机。
Collection:活动日志事件在单独的存储中自动生成和收集,以便在Azure门户中查看。
Routing: 可以将活动日志数据发送到Azure Monitor日志,以便可以与其他日志数据一起分析。 还可以访问其他位置,例如 Azure 存储、Azure 事件中心 和某些微软监控合作伙伴。 有关如何路由活动日志的详细信息,请参阅Azure活动日志的 Overview。
有关如何使用活动日志对Azure 流分析作业失败进行故障排除的详细演练,请参阅使用活动日志对作业失败进行故障排除。
分析监视数据
有许多工具可用于分析监视数据。
Azure Monitor工具
Azure Monitor支持以下基本工具:
Metrics 资源管理器,Azure门户中的一个工具,可用于查看和分析Azure资源的指标。 有关详细信息,请参阅使用 Azure Monitor 指标资源管理器分析指标。
Log Analytics,Azure门户中的一个工具,可用于使用 Kusto 查询语言(KQL)查询和分析日志数据。 有关详细信息,请参阅 在 Azure Monitor 中开始日志查询。
活动日志,可以通过 Azure 门户中的用户界面进行查看和基本搜索。 若要进行更深入的分析,必须将数据路由到Azure Monitor日志并在Log Analytics中运行更复杂的查询。
支持更复杂可视化效果的工具包括:
- Dashboards,使你能够将不同类型的数据合并到Azure门户中的单个窗格中。
- Workbooks,可以在Azure门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
- Grafana 是一个在运维仪表板方面表现出色的开放平台工具。 可以使用 Grafana 创建仪表板,其中包含来自除Azure Monitor以外的多个源的数据。
- Power BI,这是一项业务分析服务,用于跨各种数据源提供交互式可视化效果。 可以将Power BI配置为从Azure Monitor自动导入日志数据,以利用这些可视化效果。
Azure Monitor 导出工具
可以使用以下方法将数据从Azure Monitor中获取到其他工具:
Metrics: 使用 REST API 从 Azure Monitor 指标数据库提取度量数据。 API 支持使用筛选表达式优化检索到的数据。 有关详细信息,请参阅 Azure Monitor REST API 参考。
日志: 使用 REST API 或 相关的客户端库。
另一个选项是工作区数据导出。
若要开始使用适用于Azure Monitor的 REST API,请参阅Azure监视 REST API 演练。
Kusto 查询
可以使用 Kusto 查询语言(KQL)分析 Azure Monitor 日志/Log Analytics 存储中的监视数据。
重要
从门户中的服务菜单中选择Logs时,Log Analytics打开,并将查询范围设置为当前服务。 此范围意味着日志查询将仅包含来自该资源类型的数据。 如果要运行包含来自其他Azure服务的数据的查询,请从 Azure Monitor 菜单中选择 Logs。 有关详细信息,请参阅 日志查询范围和时间范围的 Azure Monitor Log Analytics。
有关任何服务的常见查询列表,请参阅 Log Analytics 查询接口。
示例查询
下面是可用于帮助监视Azure 流分析资源的示例查询:
列出所有输入数据错误。 以下查询显示处理输入中的数据时发生的所有错误。
AzureDiagnostics | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and parse_json(properties_s).Type == "DataError" | project TimeGenerated, Resource, Region_s, OperationName, properties_s, Level, _ResourceId延迟到达的事件。 以下查询显示应用程序时间与到达时间之差大于延迟到达策略的事件导致的错误。
AzureDiagnostics | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and parse_json(properties_s).DataErrorType == "LateInputEvent" | project TimeGenerated, Resource, Region_s, OperationName, properties_s, Level, _ResourceId提前到达的事件。 以下查询显示应用程序时间与到达时间之差大于 5 分钟的事件导致的错误。
AzureDiagnostics | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and parse_json(properties_s).DataErrorType == "EarlyInputEvent" | project TimeGenerated, Resource, Region_s, OperationName, properties_s, Level, _ResourceId无顺序到达的事件。 以下查询显示了由于事件根据无序策略无序到达而导致的错误。
// To create an alert for this query, click '+ New alert rule' AzureDiagnostics | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and parse_json(properties_s).DataErrorType == "OutOfOrderEvent" | project TimeGenerated, Resource, Region_s, OperationName, properties_s, Level, _ResourceId所有输出数据错误。 以下查询显示将查询结果写入作业中的输出时发生的所有错误。
AzureDiagnostics | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and parse_json(properties_s).DataErrorType in ("OutputDataConversionError.RequiredColumnMissing", "OutputDataConversionError.ColumnNameInvalid", "OutputDataConversionError.TypeConversionError", "OutputDataConversionError.RecordExceededSizeLimit", "OutputDataConversionError.DuplicateKey") | project TimeGenerated, Resource, Region_s, OperationName, properties_s, Level, _ResourceId以下查询显示过去七天内失败操作的摘要。
AzureDiagnostics | where TimeGenerated > ago(7d) //last 7 days | where ResourceProvider == "MICROSOFT.STREAMANALYTICS" and status_s == "Failed" | summarize Count=count(), sampleEvent=any(properties_s) by JobName=Resource
警报
Azure Monitor警报会在监视数据中找到特定条件时主动通知你。 有了警报,你就可以在客户注意到你的系统中的问题之前找出和解决问题。 有关详细信息,请参阅 Azure Monitor 警报。
Azure资源有许多常见警报来源。 有关Azure资源的常见警报示例,请参阅 Sample 日志警报查询。 Azure Monitor基线警报(AMBA)站点提供了实现重要平台指标警报、仪表板和指南的半自动化方法。 该网站适用于不断扩展的Azure服务的子集,包括属于Azure登陆区域(ALZ)的所有服务。
通用警报架构标准化了Azure Monitor警报通知的处理。 有关详细信息,请参阅 常见警报架构。
警报类型
可以在Azure Monitor数据平台中针对任何指标或日志数据源发出警报。 警报具有许多不同类型,具体取决于要监视的服务以及要收集的监视数据。 不同类型的警报各有优缺点。 有关详细信息,请参阅 “选择正确的监视警报类型”。
以下列表描述了可以创建的Azure Monitor警报的类型:
- 指标警报会定期评估资源指标。 指标可以是平台指标、自定义指标、Azure Monitor转换为指标或 Application Insights 指标的日志。 指标警报还可以应用多个条件和动态阈值。
- Log 警报允许用户使用Log Analytics查询以预定义的频率评估资源日志。
- 当发生与定义的条件匹配的新活动日志事件时,活动日志警报会触发。 资源运行状况警报和服务运行状况警报是报告您服务和资源健康状况的活动日志警报。
某些 Azure 服务还支持 智能检测警报、Prometheus 警报或 推荐的警报规则。
对于某些服务,可以通过将相同的指标警报规则应用于同一Azure区域中存在的多个同一类型的资源来大规模监视。 将为每个受监视的资源发送单独通知。 若需查看支持的 Azure 服务和云,请参阅使用一个警报规则监控多个资源。
Azure 流分析警报规则
下表列出了Azure 流分析的一些建议警报规则。 这些警报只是示例。 可以为Azure 流分析监视数据引用中列出的任何指标、日志条目或活动日志条目设置警报。
| 警报类型 | 条件 | 说明 |
|---|---|---|
| 平台指标 | 流单元 (SU) 内存利用率 | 每当平均 SU(内存)利用率大于 80% 时 |
| 活动日志 | 失败的操作 | 每当活动日志中出现 Category='Administrative',Signal name='All Administrative operations',Status='Failed' 的事件时 |
有关如何为Azure 流分析设置警报的详细说明,请参阅为Azure 流分析作业设置警报。
顾问建议
对于某些服务,如果在资源操作期间出现严重情况或即将发生变化,则门户中的服务“概述”页面上会显示一个警报。 可以在左侧菜单“监视”下的“顾问建议”中找到警报的详细信息和建议补丁。 在正常操作期间,不会显示任何顾问建议。
有关Azure 顾问的详细信息,请参阅 Azure 顾问 概述。
相关内容
- 有关通过 Azure Monitor 监控 Azure 资源的一般详细信息,请参阅 监控 Azure 资源的 Azure Monitor。
- 有关为Azure 流分析创建的指标、日志和其他重要值的引用,请参阅 Azure 流分析 监视数据参考。
- 请参阅以下Azure 流分析监视和故障排除文章:
- 在 Azure 门户中监控作业
- 使用 Azure PowerShell 监控作业
- 使用 Azure .NET SDK 监测作业
- 设置警报
- 使用资源日志排查 Azure 流分析 的问题
- 使用活动和资源日志