开始使用 Azure 托管 HSM 来存储生产密钥之后,必须监视 HSM 的运行状况,确保服务按预期运行。
当你开始扩展服务时,发送到 HSM 的请求数量将会增加。 这种上升可能会增加请求的延迟时间。 在极端情况下,它可能会导致请求受到限制,从而影响服务的性能。 你还需要知道 HSM 是否发送了异常数量的错误代码,以便快速处理访问策略或防火墙配置存在的任何问题。
本文介绍如何在指定阈值下配置警报,以便在 HSM 运行不正常时立即提醒团队采取行动。 可以配置发送电子邮件的警报(最好是发送到团队通讯组),触发 Azure 事件网格通知,或者拨打电话号码/发短信。
警报类型
可以选择以下警报类型:
- 基于固定值的静态警报
- 动态警报,当受监视的指标在定义的时间范围内超出 HSM 的平均限制一定次数时,向你发出通知
重要
新配置的警报最长需要 10 分钟才会开始发送通知。
本文重点介绍托管 HSM 的警报。
配置操作组
操作组是可配置的通知和属性列表。 配置警报的第一步是创建操作组并选择警报类型:
在 Azure 门户中选择 HSM 资源,然后选择“监控”下的“警报”。
选择 创建。
选择“操作组”。
输入“项目”和“实例”详细信息,然后选择“下一步”。
为操作组选择“通知类型”。 本示例将创建电子邮件和短信提示。 选择“电子邮件/短信/推送/语音”。
在对话框中,输入电子邮件和短信详细信息,然后选择“确定”。
输入通知时间的名称,然后选择“下一步”。
为操作组选择“操作类型”。 在这个例子中,我们创建一个 Event Hubs 操作。 选择“事件中心”。
输入事件中心命名空间和名称,然后选择“确定”。
输入操作的“名称”。
选择“查看 + 创建”,然后选择“创建”。
配置警报阈值
接下来,创建规则并配置触发警报的阈值:
在 Azure 门户中选择 HSM 资源,然后选择“监控”下的“警报”。
在“创建”下选择“警报规则”。
选择警报规则的作用域。 您可以选择单个 HSM 或多个 HSM。
重要
如果选择多个 HSM 作为警报范围,则选定的所有 HSM 都必须位于同一区域中。 不同区域中的 HSM 需要配置单独的警报规则。
选择定义警报逻辑的阈值。 可以通过选择“查看所有信号”来查看所有可用信号。 托管 HSM 团队建议为大多数应用程序配置以下阈值,但你可以根据应用程序需求对其进行调整:
- “密钥保管库可用性”低于 100%(静态阈值)
- “密钥保管库延迟”大于 1000 毫秒(静态阈值)
注释
设置 1000 毫秒阈值的目的是通知该区域的 Key Vault 服务的工作负载高于平均水平。 我们的密钥保管库操作的服务水平协议(SLA)要高出数倍。 有关目前的 SLA,请参阅联机服务的服务级别协议。 若要在 Key Vault 操作超出服务级别协议时发出警报,请使用服务级别协议文档中的阈值。
- 总错误代码高于平均值(动态阈值)。
选择要应用于警报规则的操作。 本示例将添加一个现有操作组。 选择操作组,然后选择“选择”。
输入“项目”和“警报规则”详细信息,然后选择“下一步”。
选择 创建。
示例:为延迟配置静态警报阈值
选择“整体服务 API 延迟”作为信号名称并选择“应用”。
使用以下配置参数:
- 将“阈值”设置为“静态” 。
- 将“聚合类型”设置为“平均” 。
- 将“运算符”设置为“大于”。
- 将“阈值”设置为 1000 。
- 将“检查间隔”设置为“1 分钟”。
- 将“回溯期”设置为“5 分钟”。
选择“完成”。
示例:配置 Azure 顾问警报
若要在最近 30 天内未执行备份时收到警报,必须在“顾问”中设置警报。
在 Azure 门户中搜索“顾问”,然后选择“顾问”服务。
在监视下选择警报。
选择新建顾问警报。
选择警报规则的作用域。
选择“建议类型”作为配置条件。
搜索“创建 HSM 备份”作为建议类型并选择它。
选择一个“操作组”。 本示例将选择一个现有操作组。 最多可选择 5 个操作组并附加到警报规则。 选择“选择现有”,将弹出一个侧面板。选择现有操作组。
为警报规则命名,并选择它将应用到的资源组。 然后选择“创建警报”。
后续步骤
使用你在本文中设置的工具积极监视密钥保管库的运行状况: