在 Azure Stack Hub 中监视运行状况和警报

Azure Stack Hub 包含基础结构监视功能,有助于查看 Azure Stack Hub 区域的运行状况和警报。 “区域管理”磁贴列出了 Azure Stack Hub 的所有已部署区域。 它默认固定在默认提供商订阅的管理员门户上。 该磁贴除了显示每个区域的活动严重警报和警告警报数目以外, 也是 Azure Stack Hub 运行状况和警报功能的入口点。

The Region Management tile in Azure Stack Hub administrator portal

了解 Azure Stack Hub 中的运行状况

运行状况资源提供程序管理运行状况和警报。 在 Azure Stack Hub 部署和配置期间,Azure Stack Hub 基础结构组件将注册到运行状况资源提供程序。 注册后,可以显示每个组件的运行状况和警报。 Azure Stack Hub 中的“运行状况”是个简单的概念。 如果组件的已注册实例存在警报,该组件的运行状况会反映最不利的活动警报的严重性:警告或严重。

警报严重性定义

Azure Stack Hub 引发的警报只有两个严重级别:警告严重

  • 警告
    操作员可以按计划方式处理警告警报。 该警报通常不会影响用户工作负荷。

  • 严重
    操作员应紧急处理严重警报。 这些警报指示目前影响或将很快影响 Azure Stack Hub 用户的问题。

查看和管理组件运行状况

可以通过管理员门户以及 REST API 和 PowerShell 查看组件的运行状况。

若要在门户中查看运行状况状态,请在“区域管理”磁贴中单击你要查看的区域。 可以查看基础结构角色和资源提供程序的运行状况。

List of infrastructure roles

可以单击资源提供程序或基础结构角色来查看更详细的信息。

警告

如果单击基础结构角色,然后单击角色实例,则会看到“启动”、“重启”或“关机”选项。 对集成系统应用更新时,请勿使用这些操作。 此外,请勿在 Azure Stack 开发工具包 (ASDK) 环境中使用这些选项。 这些选项是针对每个基础结构角色具有多个角色实例的集成系统环境设计的。 在 ASDK 中重启角色实例(特别是 AzS-Xrp01)会导致系统不稳定。 如需故障排除方面的帮助,请在 Azure Stack Hub 论坛中提问。

查看警报

可直接从“区域管理”边栏选项卡查看每个 Azure Stack Hub 区域的活动警报列表。 默认配置中的第一个磁贴是“警报”磁贴,其中显示区域的严重警报和警告警报摘要。 如同此边栏选项卡中的其他磁贴一样,可将“警报”磁贴固定到仪表板,以便快速访问。

Alerts tile that shows a warning in Azure Stack Hub administrator portal

若要查看区域的所有活动警报的列表,请选择“警报”磁贴的顶部。 若要查看警报的筛选列表(“严重”或“警告”),请选择磁贴中的“严重”或“警告”行项。

“警报”边栏选项卡支持按状态(“活动”或“已关闭”)和严重性(“严重”或“警告”)进行筛选。 默认视图显示所有活动警报。 所有已关闭的警报在七天后将从系统中删除。

注意

如果某个警报保持活动状态,但超过一天仍未更新,可运行 Test-AzureStack,如果未报告问题,则可关闭该警报。

Filter pane to filter by critical or warning status in Azure Stack Hub administrator portal

“视图 API”操作显示用于生成列表视图的 REST API。 借助此操作可以快速熟悉可用于查询警报的 REST API 语法。 可在自动化中使用此 API,或者将它与现有的数据中心监视、报告和票证解决方案相集成。

可以单击特定的警报来查看警报详细信息。 警报详细信息显示与警报关联的所有字段,并可让用户快速导航到受影响的组件和警报源。 例如,如果某个基础结构角色实例脱机或不可访问,则会发生以下警报。

The Alert details blade in Azure Stack Hub administrator portal

警报修正

自动修正

一些警报支持“修复”选项,如上图所示。 选中以后,“修复”操作会执行特定于警报的步骤来尝试解决问题。 选中以后,“修复”操作的状态会以门户通知的形式提供。

The Repair alert action in progress

“修复”操作会在同一门户通知边栏选项卡中报告成功完成了操作或无法完成操作。 如果某项“修复”操作因出现警报而失败,则可在警报详细信息中重新运行“修复”操作。 如果“修复”操作成功完成,请勿重新运行“修复”操作。 基础结构角色实例重新联机后,会自动关闭此警报。

The Repair action completes successfully

手动修正

如果“修复”选项不受支持,请确保按照警报中提供的一组完整修正说明进行操作。 例如,内部证书到期修正步骤将指导你完成机密轮换过程:

Certificate expiration remediation

警报关闭

在根本问题得到解决后,许多(但并非所有)警报会自动关闭。 如果 Azure Stack Hub 解决了问题,提供“修复”操作按钮的警报会自动关闭。 对于所有其他警报,请在执行补救步骤之后选择“关闭警报”。 如果问题仍然存在,Azure Stack Hub 会生成新警报。 如果解决了问题,警报将保持关闭,无需采取其他步骤。

后续步骤

在 Azure Stack Hub 中管理更新

Azure Stack Hub 中的区域管理