Azure Database for PostgreSQL 灵活服务器包括高可用性(HA)运行状况监视功能,该功能使用 Azure 的资源运行状况检查 (RHC) 框架。 此服务持续深入了解已启用 HA 的实例的运行状况,向你通知可能影响连接性和可用性的事件。 下面详细介绍了每个运行状况状态和相关场景,以帮助排查和维护 HA 稳定性。
运行状态
每个 HA 状态都通过表示特定情况的各种内部信号进行监视。 下面是可能的高可用性状态、可视指示器以及可能影响 Azure Database for PostgreSQL 灵活服务器的方案。
就绪 - HA 正常
就绪状态指示已启用 HA 的服务器正常运行,且未检测到影响故障转移就绪情况的问题。 所有必需的配置都保持不变,并且未检测到任何重大错误情况。
已降级 - 网络安全组 (NSG) 或虚拟设备阻止连接
当 NSG 规则或虚拟设备阻止实现高可用性所需的基本连接时,可能会出现“降级”状态。 此配置问题会阻止完整的 HA 功能,应通过调整 NSG 设置来更正。
已降级 - 只读状态
如果 PostgreSQL 灵活服务器进入只读状态,则 降级 状态反映此限制。 这通常需要预配其他资源或解决导致只读设置还原完整功能的情况。
已降级 - 高可用性处于降级状态
当 HA 服务本身遇到性能下降时(可能是由于遇到暂时性问题或系统级情况),将显示此状态。 实现重试逻辑有助于缓解这些临时连接中断的影响。 请务必注意,“已降级”状态并不意味着服务器不可用。 相反,这表明整体高可用性配置和运行状况检查尚未完全完成。 尽管存在此状态,但服务器可能仍可运行且可访问。
若要在此类时间段内准确监视数据库的可用性,建议使用“is_db_alive”指标作为 数据库可用性指标的一部分。 此指标提供数据库可用性的可靠指示器,可帮助你区分临时不完整的 HA 设置和实际停机时间。
已降级 - 启动了计划的故障转移
在为服务器启动的计划内故障转移事件期间,将显示“降级”状态,表明 HA 故障转移进程处于活动状态。 这通常是一个简短和受控的过程,服务应很快恢复。
已降级 - 启动了计划外故障转移
对于计划外故障转移,此状态指示意外情况触发了活动的故障转移事件。 此场景可能涉及短暂的连接中断,直到服务器完成故障转移过程。
已降级 - 启动了升级故障转移
在系统升级期间,HA 服务器可能会经历升级故障转移以应用必要的更新。 处于此状态时,服务器可能会暂时限制新连接,应实施重试逻辑以有效处理暂时性问题。
配置资源运行状况警报
可以将资源运行状况警报设置为在已启用 HA 的 PostgreSQL 实例的运行状况发生任何更改时接收实时通知。 可以通过 Azure 门户或使用 ARM 模板使用配置,帮助你无需主动监视门户即可随时了解 HA 状态更新。
通过门户配置资源运行状况警报的步骤
- 导航到 Azure 门户并选择 PostgreSQL 灵活服务器。
- 在左侧菜单中,选择“监视”部分下的“警报”。
- 选择“新建警报规则”,并根据资源运行状况信号配置警报逻辑。
- 设置操作组以指定要如何收到通知(电子邮件、短信等)。
- 查看并创建警报规则。
使用 ARM 模板创建资源运行状况警报的步骤
- 从资源运行状况警报 ARM 模板指南下载 ARM 模板。
- 使用特定的服务器详细信息和警报首选项自定义模板。
- 使用 Azure CLI 或 Azure PowerShell 部署 ARM 模板。
- 验证部署并确保警报处于活动状态。
有关设置警报的更多详细信息,请按照以下指南操作:
通过使用 HA 运行状况监视,可以获得有关 PostgreSQL 服务器的 HA 性能的必要见解,从而主动管理运行时间和可用性。