使用 Azure 门户针对 Azure DocumentDB 的指标设置警报

本文介绍如何使用 Azure 门户设置和管理 Azure DocumentDB 运维指标的警报。 可以根据 Azure 服务的监视指标创建警报,以主动管理群集。

设置警报以在指定指标超过阈值时触发。 条件第一次满足时触发警报,之后直到条件不再满足之前,警报会继续触发。

可以配置警报,以在触发时执行以下作:

  • 向服务管理员和共同管理员发送电子邮件通知。
  • 将电子邮件发送到额外的指定地址。
  • 调用 Webhook。

可以使用以下工具配置和管理警报规则:

通过 Azure 门户针对指标创建警报规则

按照以下步骤基于指标创建警报规则:

  1. Azure 门户中,选择要监视的 Azure DocumentDB 群集。
  2. 在边栏的“ 监视 ”部分下,选择“ 警报”,然后选择“ 创建 ”和“ 警报规则”。 Azure 门户中 Azure DocumentDB 中的警报规则创建页的屏幕截图。
  3. 在“条件”选项卡上,选择“选择信号”下拉列表旁边的“查看所有信号”。
  4. 从可用信号列表中选择指标。 例如,选择 “存储百分比 ”,然后选择“ 应用”。 Azure 门户中,选择了一个指标的警报条件选择面板的屏幕截图。
  5. 在“创建警报规则”页的“条件”选项卡上,在“警报逻辑”下配置以下内容:
    • 对于“阈值”,请选择“静态”。
    • 对于“聚合类型”,请选择“平均值”。
    • 对于“运算符”,请选择“大于”
    • 对于“阈值”,请输入 85。
  6. 选择“操作”选项卡Azure 门户中选定指标的警报定义的屏幕截图。
  7. 确保“使用操作组”处于选中状态,然后选择“创建操作组”,以创建一个将在警报触发时接收通知的新组。 Azure 门户中操作组创建面板的屏幕截图。
  8. “创建作组”窗体上,确认订阅资源组、指定区域,然后输入组的作组名称和显示名称
  9. 选择页面底部的“下一步: 通知”。 Azure 门户中操作组基本信息的屏幕截图。
  10. 在“通知”选项卡的“通知类型”下,选择“电子邮件/短信/推送/语音”。
  11. “电子邮件/短信/推送/语音 ”窗体上,输入要通知的收件人的电子邮件地址和电话号码。 然后选择“ 确定”。
  12. “创建操作组” 窗体中,提供通知的名称。 在 Azure 门户中创建电子邮件通知的屏幕截图。
  13. 选择“查看 + 创建”,然后选择“创建”以完成操作组设置。
  14. 新的操作组会显示在“创建警报规则”页的“操作”选项卡上的“操作组名称”下。
  15. 选择页面底部的“下一步: 详细信息”。 Azure 门户中已完成的警报规则操作选项卡的屏幕截图。
  16. 在“ 详细信息 ”选项卡上,为警报规则设置 严重性 级别。 提供易于识别 的名称 和规则的可选 说明 Azure 门户中已完成的警报规则详细信息选项卡的屏幕截图。
  17. 选择 “查看 + 创建”,然后选择“ 创建 ”以完成警报规则。 警报将在几分钟内处于活动状态,并将按配置触发。

管理警报

创建警报后,可以通过多种方式查看、修改或管理警报:

  • 禁用或启用 警报以暂时停止或恢复接收通知。
  • 编辑或删除 警报规则。

若要访问警报,请在群集属性边栏的 “监视 ”部分下,选择“ 警报”,然后在工具栏中选择 “警报规则 ”。 Azure 门户中 Azure DocumentDB 中警报页的屏幕截图。

建议的警报

建议使用以下警报来帮助监视和维护 Azure DocumentDB 群集。

磁盘空间

监视磁盘空间对于每个生产群集都至关重要。 基础数据库需要足够的可用磁盘空间才能正常运行。 如果磁盘已满,群集的物理分片(节点)可能会脱机并拒绝启动,直到有更多可用空间。 在这种情况下,必须提交支持请求来Microsoft解决此问题。

建议在每个群集中的所有节点上设置磁盘空间警报,包括非生产环境。 磁盘空间使用情况警报提供早期警告,可帮助你采取主动步骤来维护节点运行状况。

为获得最佳结果,请在 75%、85%95% 使用阈值 处设置一系列警报。 所选的特定百分比可能取决于数据引入速度,因为快速引入可以快速填充磁盘。

若要释放磁盘空间,请考虑以下作:

  • 查看数据保留策略 ,并尽可能将旧数据移动到冷存储。
  • 如有必要,请增加节点容量。 每个节点最多可以支持 32 TiB 的存储

CPU 使用率

监视 CPU 使用率有助于建立性能基线。 例如,如果群集的 CPU 使用率通常徘徊在 40-60%,则突然增加到 95% 可能表示异常。

CPU 使用率峰值可能是由于有机增长或低效查询引起的。 创建 CPU 使用率警报时,请设置较长的聚合期,以捕获持续增加并忽略瞬间峰值。 较长的聚合期有助于决定纵向扩展或缩减 群集计算 。 对于具有业务模式的工作负荷(包括 CPU 使用率定期出现峰值以及期间延长的谷底期),建议考虑使用 自动缩放计算

借助这些警报,可以主动监视和管理 Azure DocumentDB 群集,以保持高可用性和性能。