为 Azure 流分析作业设置警报

必须监视 Azure 流分析作业,以确保作业持续正常运行。 本文介绍如何针对要监视的常见方案设置警报。

可以通过门户或以编程方式基于操作日志数据定义指标的规则。

在 Azure 门户中设置警报

作业意外停止时将收到警报

以下示例演示如何针对作业进入失败状态设置警报。 建议对所有作业设置此警报。

  1. 在 Azure 门户中,打开要为其创建警报的流分析作业。

  2. 在“作业”页上,导航到“监视”部分。

  3. 选择“指标”,然后选择“新建警报规则”。

    Azure 门户流分析警报设置

  4. 流分析作业名称应会自动显示在“资源”下。 单击“添加条件”,然后选择“配置信号逻辑”下的“所有管理操作”。

    选择流分析警报的信号名称

  5. 在“配置信号逻辑”下,将“事件级别”更改为“所有”,将“状态”更改为“失败”。 将“事件发起者”保留空白,然后选择“完成”。

    配置流分析警报的信号逻辑

  6. 选择现有的操作组或创建新组。 本示例创建了名为 TIDashboardGroupActions 的新操作组,其中包含一个“电子邮件”操作,该操作可将电子邮件发送到具有“所有者”Azure 资源管理器角色的用户。

    为 Azure 流分析作业设置警报

  7. “资源”、“条件”和“操作组”都应该有对应的条目。 请注意,为了触发警报,需要满足所定义的条件。 例如,可以每 5 分钟检测一次某个指标在过去 15 分钟的平均值。

    屏幕截图显示了包含“资源”、“条件”和“操作组”的“创建规则”对话框。

    在“警报详细信息”中添加 警报规则名称说明资源组,然后单击“创建警报规则”创建流分析作业的规则。

    屏幕截图显示了带有“警报详细信息”的“创建规则”对话框。

要监视的方案

建议监视以下警报,以了解流分析作业的性能。 在过去 5 分钟时段内,应每隔一分钟评估这些指标。

指标 条件 时间聚合 阈值 纠正措施
SU% 利用率 大于 最大值 80 有多个因素可以提高 SU% 利用率。 可以使用查询并行化进行缩放,或者增加流单元数。 有关详细信息,请参阅利用 Azure 流分析中的查询并行化
运行时错误 大于 总计 0 检查活动或资源日志,并对输入、查询或输出进行相应更改。
水印延迟 大于 最大值 当此指标在过去 15 分钟的平均值大于延迟容限(以秒为单位)时。 如果未修改延迟容限,默认值将设置为 5 秒。 尝试增加 SU 数量或将查询并行化。 有关 SU 的详细信息,请参阅了解和调整流单元。 有关并行化查询的详细信息,请参阅利用 Azure 流分析中的查询并行化
输入反序列化错误 大于 总计 0 检查活动或资源日志,并对输入进行相应更改。 有关资源日志的详细信息,请参阅使用资源日志排查 Azure 流分析问题

后续步骤