本文介绍如何使用 Azure 门户设置和管理 Azure DocumentDB 运维指标的警报。 可以根据 Azure 服务的监视指标创建警报,以主动管理群集。
设置警报以在指定指标超过阈值时触发。 条件第一次满足时触发警报,之后直到条件不再满足之前,警报会继续触发。
可以配置警报,以在触发时执行以下作:
- 向服务管理员和共同管理员发送电子邮件通知。
- 将电子邮件发送到额外的指定地址。
- 调用 Webhook。
可以使用以下工具配置和管理警报规则:
通过 Azure 门户针对指标创建警报规则
按照以下步骤基于指标创建警报规则:
- 在 Azure 门户中,选择要监视的 Azure DocumentDB 群集。
- 在边栏的“ 监视 ”部分下,选择“ 警报”,然后选择“ 创建 ”和“ 警报规则”。
- 在“条件”选项卡上,选择“选择信号”下拉列表旁边的“查看所有信号”。
- 从可用信号列表中选择指标。 例如,选择 “存储百分比 ”,然后选择“ 应用”。
- 在“创建警报规则”页的“条件”选项卡上,在“警报逻辑”下配置以下内容:
- 对于“阈值”,请选择“静态”。
- 对于“聚合类型”,请选择“平均值”。
- 对于“运算符”,请选择“大于”。
- 对于“阈值”,请输入 85。
- 选择“操作”选项卡。
- 确保“使用操作组”处于选中状态,然后选择“创建操作组”,以创建一个将在警报触发时接收通知的新组。
- 在“创建作组”窗体上,确认订阅、资源组、指定区域,然后输入组的作组名称和显示名称。
- 选择页面底部的“下一步: 通知”。
- 在“通知”选项卡的“通知类型”下,选择“电子邮件/短信/推送/语音”。
- 在 “电子邮件/短信/推送/语音 ”窗体上,输入要通知的收件人的电子邮件地址和电话号码。 然后选择“ 确定”。
- 在 “创建操作组” 窗体中,提供通知的名称。
- 选择“查看 + 创建”,然后选择“创建”以完成操作组设置。
- 新的操作组会显示在“创建警报规则”页的“操作”选项卡上的“操作组名称”下。
- 选择页面底部的“下一步: 详细信息”。
- 在“ 详细信息 ”选项卡上,为警报规则设置 严重性 级别。 提供易于识别 的名称 和规则的可选 说明 。
- 选择 “查看 + 创建”,然后选择“ 创建 ”以完成警报规则。 警报将在几分钟内处于活动状态,并将按配置触发。
管理警报
创建警报后,可以通过多种方式查看、修改或管理警报:
- 禁用或启用 警报以暂时停止或恢复接收通知。
- 编辑或删除 警报规则。
若要访问警报,请在群集属性边栏的 “监视 ”部分下,选择“ 警报”,然后在工具栏中选择 “警报规则 ”。
建议的警报
建议使用以下警报来帮助监视和维护 Azure DocumentDB 群集。
磁盘空间
监视磁盘空间对于每个生产群集都至关重要。 基础数据库需要足够的可用磁盘空间才能正常运行。 如果磁盘已满,群集的物理分片(节点)可能会脱机并拒绝启动,直到有更多可用空间。 在这种情况下,必须提交支持请求来Microsoft解决此问题。
建议在每个群集中的所有节点上设置磁盘空间警报,包括非生产环境。 磁盘空间使用情况警报提供早期警告,可帮助你采取主动步骤来维护节点运行状况。
为获得最佳结果,请在 75%、85%和 95% 使用阈值 处设置一系列警报。 所选的特定百分比可能取决于数据引入速度,因为快速引入可以快速填充磁盘。
若要释放磁盘空间,请考虑以下作:
- 查看数据保留策略 ,并尽可能将旧数据移动到冷存储。
- 如有必要,请增加节点容量。 每个节点最多可以支持 32 TiB 的存储。
CPU 使用率
监视 CPU 使用率有助于建立性能基线。 例如,如果群集的 CPU 使用率通常徘徊在 40-60%,则突然增加到 95% 可能表示异常。
CPU 使用率峰值可能是由于有机增长或低效查询引起的。 创建 CPU 使用率警报时,请设置较长的聚合期,以捕获持续增加并忽略瞬间峰值。 较长的聚合期有助于决定纵向扩展或缩减 群集计算 。 对于具有业务模式的工作负荷(包括 CPU 使用率定期出现峰值以及期间延长的谷底期),建议考虑使用 自动缩放计算。
借助这些警报,可以主动监视和管理 Azure DocumentDB 群集,以保持高可用性和性能。