使用 Insights 监视单个 Azure Stack HCI 群集
适用于:Azure Stack HCI 版本 22H2 和 21H2
本文介绍如何使用 Insights 监视单个 Azure Stack HCI 群集。 有关多个 Azure Stack HCI 群集,请参阅《使用 Insights 监视多个 Azure Stack HCI 群集》。
Insights 是 Azure Monitor 的一项功能,可让你快速开始监视 Azure Stack HCI 群集。 你可以查看有关群集、服务器、虚拟机和存储的关键指标、运行状况和使用情况信息。
重要
如果在 2023 年 11 月之前注册了 Azure Stack HCI 群集并配置了 Insights,则使用 Azure Monitor 代理 (AMA) 的某些功能(例如 Arc for Servers、VM Insights、Defender for Cloud 或 Sentinel)可能无法正确收集日志和事件数据。 有关故障排除指南,请参阅对 2023 年 11 月之前注册的群集进行故障排除部分。
好处
Insights for Azure Stack HCI 具有以下优势:
由 Azure 管理。 Insights 由 Azure 管理,可以通过 Azure 门户访问它,因此可确保它始终保持最新状态。 无需安装数据库或特殊软件。
可伸缩性。 Insights 能够同时跨多个订阅加载 400 多个群集信息集。 群集、域或物理位置没有限制。
可定制性。 Insights 体验是基于 Azure Monitor 工作簿模板构建的。 因此,你可以更改视图和查询、修改或设置与特定限制相符的阈值,并将这些自定义设置保存到工作簿中。 然后,可以将工作簿中的图表固定到 Azure 仪表板。
配置 Insights for Azure Stack HCI
使用 Insights 之前所要满足的先决条件和所需设置根据你的 Azure Stack HCI 版本而异。 请选择以下选项卡之一获取有关如何在特定版本的 Azure Stack HCI 中使用 Insights 的说明。
Azure Stack HCI 版本 22H2 及更高版本中的 Insights 功能使用 Azure Monitor 代理 (AMA),与 Azure Stack HCI 版本 21H2 及更低版本中使用的旧版 Microsoft Monitoring Agent (MMA) 相比,AMA 的优势非常明显。 这些优势包括更快的速度、增强的安全性和卓越的性能。 可以将新节点加入 AMA,或者将现有节点从旧版代理迁移到 AMA。
我们建议将 Azure Stack HCI 系统升级到 22H2 或更高版本,以利用包含 AMA 的 Insights 体验。
从 Azure Stack HCI 版本 22H2 的 2023 年 5 月的累积更新开始,你可以使用 Insights for Azure Stack HCI 监视本地 Azure Stack HCI 系统。
先决条件
下面是使用 Insights for Azure Stack HCI 之前所要满足的先决条件:
Azure Stack HCI 群集应已注册到 Azure 并已启用 Arc。 如果你是在 2021 年 6 月 15 日或之后注册的群集,则默认情况下已启用。 否则,必须启用 Azure Arc 集成。
群集上必须已安装 Azure Stack HCI 版本 22H2 和 2023 年 5 月累积更新或更高版本。
必须启用 Azure 资源的托管标识。 有关详细信息,请参阅启用增强管理。
启用 Insights
启用 Insights 可通过提供有用的运行状况指标,来帮助监视当前与 Log Analytics 工作区关联的所有 Azure Stack HCI 群集。 Insights 安装 Azure Monitor 代理,并帮助你配置数据收集规则 (DCR) 来监视 Azure Stack HCI 群集。
若要从 Azure 门户启用此功能,请执行以下步骤:
在 Azure 门户中,浏览到 Azure Stack HCI 群集资源页,然后选择你的群集。 在“功能”选项卡下,选择“Insights”。
在“Insights”页上,选择“开始”。
注意
“开始”按钮仅适用于安装了 2023 年 5 月累积更新或更高版本的 Azure Stack HCI 版本 22H2,并且仅在启用托管标识后才可用。 否则,此按钮将处于禁用状态。
在“Insights 配置”页上,从“数据收集规则”下拉列表中选择现有的 DCR。 DCR 指定需要收集的事件日志和性能计数器,并将其存储在 Log Analytics 工作区中。 如果 DCR 尚不存在,Insights 会创建一个默认 DCR。 仅包括为 Insights 启用的 DCR。
(可选)还可以通过在“Insights 配置”页上选择“新建”来创建新的 DCR。
重要
我们强烈建议不要创建你自己的 DCR。 Insights 创建的 DCR 包括其操作所需的特殊数据流。 你可以编辑此 DCR 以收集更多数据,例如 Windows 和 Syslog 事件。 通过 AMA 安装创建的 DCR 的 DCR 名称中附加了前缀
AzureStackHCI-
。在“新建数据收集规则”页上,指定订阅、DCR 名称和数据收集终结点 (DCE) 名称。 DCE 用于访问配置服务以提取 Azure Monitor 代理的关联 DCR。 有关 DCE 的详细信息,请参阅 Azure Monitor 中的数据收集终结点。
注意
如果在代理上使用专用链接,则必须添加 DCE。 有关 AMA 网络设置的详细信息,请参阅定义 Azure Monitor 代理 网络设置。
选择“查看 + 创建”按钮。
如果尚未为不受监视的群集创建 DCR,则会创建一个 DCR 并启用性能计数器和 Windows 事件日志通道。
查看最终屏幕,其中显示了 DCR 名称、事件日志数量、性能计数器和存储了数据的 Log Analytics 工作区名称的摘要。 选择“设置”。
选择“设置”后,你会重定向到“扩展”页,在其中可以查看代理安装状态。 配置 Insights 后,AMA 会自动安装在群集的所有节点上。
转到 Azure Stack HCI 群集资源页,然后选择你的群集。 Insights 现在会在“功能”选项卡上显示为“已配置”:
数据收集规则
在具有 Azure Monitor 代理的计算机上启用 Insights 时,必须指定要使用的 DCR。 有关 DCR 的详细信息,请参阅 Azure Monitor 中的数据收集规则。
选项 | 说明 |
---|---|
性能计数器 | 指定要从操作系统收集哪些数据性能计数器。 必须为所有计算机指定此选项。 这些性能计数器用于填充 Insights 工作簿中的可视化效果。 目前,Insights 工作簿使用五个性能计数器 - Memory()\Available Bytes 、Network Interface()\Bytes Total/sec 、Processor(_Total)\% Processor Time 、RDMA Activity()\RDMA Inbound Bytes/sec 和 RDMA Activity()\RDMA Outbound Bytes/sec |
事件日志通道 | 指定要从操作系统收集哪些 Windows 事件日志。 必须为所有计算机指定此选项。 Windows 事件日志用于填充 Insights 工作簿中的可视化效果。 目前,数据是通过两个 Windows 事件日志通道收集的:- microsoft-windows-health/operational 和 microsoft-windows-sddc-management/operational |
Log Analytics 工作区 | 用于存储数据的工作区。 仅列出具有 Insights 的工作区。 |
事件通道
Microsoft-windows-sddc-management/operational
和 Microsoft-windows-health/operational
事件通道将添加到“Windows 事件日志”下的 Log Analytics 工作区。
通过收集这些日志,Insights 会显示各个服务器、驱动器、卷和 VM 的运行状况。 默认情况下,将添加五个性能计数器。
性能计数器
默认情况下,将添加五个性能计数器:
下表介绍了受监视的性能计数器:
性能计数器 | 说明 |
---|---|
Memory(*)\Available Bytes | Available Bytes 是可立即分配给进程或供系统使用的物理内存量(以字节为单位)。 |
Network Interface(*)\Bytes Total/sec | 每个网络适配器上发送和接收字节(包括组帧字符)的速率。 Bytes Total/sec 是 Bytes Received/sec 和 Bytes Sent/sec 之和。 |
Processor(_Total)% Processor Time | 所有进程线程使用处理器执行指令所用的运行时间的百分比。 |
RDMA Activity(*)\RDMA Inbound Bytes/sec | 网络适配器每秒通过 RDMA 接收数据的速率。 |
RDMA Activity(*)\RDMA Outbound Bytes/sec | 网络适配器每秒通过 RDMA 发送数据的速率。 |
启用 Insights 后,收集数据最多可能需要 15 分钟。 该过程完成后,你可以在左侧窗格的“Insights”菜单中看到群集运行状况的丰富可视化效果:
禁用 Insights
若要禁用 Insights,请执行以下步骤:
禁用 Insights 功能时,将删除数据收集规则与群集之间的关联,并且不再收集运行状况服务和 SDDC 管理日志;但是,不会删除现有的数据。 如果要删除这些数据,请转到你的 DCR 和 Log Analytics 工作区并手动删除。
更新 Insights
“Insights”磁贴在以下情况下会显示“需要更新”消息:
- 数据收集规则已更改。
- 已从 Windows 事件日志中删除运行状况事件。
- 已从 Log Analytics 工作区中删除五个性能计数器中的任何一个。
要再次启用 Insights,请执行以下步骤:
从 Microsoft Monitoring Agent 迁移
若要从 Microsoft Monitoring Agent (MMA) 迁移到 Azure Monitoring Agent (AMA),请向下滚动到“Insights”。
选择“安装 AMA”,此时会打开“Insights 配置”窗口。
按照前面的启用 Insights 部分中所述,选择或创建数据收集规则。
在迁移过程中,Azure Monitor 代理和 Microsoft Monitoring Agent 扩展可以安装在同一台计算机上。 运行这两个代理可能会导致重复数据并增加成本。 如果计算机上同时安装了这两个代理,Azure 门户中会显示一条警告,指出系统可能会收集重复数据,如下方屏幕截图所示。
警告
使用 Azure Monitor 代理和 Microsoft Monitoring Agent 扩展从一台计算机收集重复数据可能会导致将重复数据发送到 Log Analytics 工作区,从而产生额外的引入成本。
你必须自行在任何使用 Microsoft Monitoring Agent 扩展的计算机上删除该扩展。 在执行此步骤之前,请确保该计算机不依赖于任何其他需要 Microsoft Monitoring Agent 的解决方案。 在确认 MicrosoftMonitoringAgent 仍未连接到 Log Analytics 工作区后,可以通过重定向到“扩展”页来手动删除 MicrosoftMonitoringAgent。
疑难解答
本部分提供使用 Insights for Azure Stack HCI 解决问题的相关指导。
排查在 2023 年 11 月之前注册的群集问题
问题。 对于 2023 年 11 月之前注册的群集,在 Azure Stack HCI 上使用 AMA 的某些功能(例如 Arc for Servers、VM Insights、Container Insights、Defender for Cloud 或 Sentinel)可能无法正确收集日志和事件数据。
原因。 在 2023 年 11 月之前,群集注册将 AMA 配置为使用群集标识,而在 Azure Stack HCI 上使用 AMA 的服务需要群集节点的标识才能正确收集日志。 这种不匹配导致这些服务的日志收集不当。
解决方案。 为了解决此问题,我们在 AMA 的 HCI 群集注册中进行了更改,以改用服务器标识。 要执行此更改,请在 2023 年 11 月之前注册的群集上执行以下步骤:
- 修复群集注册。 请参阅《修复群集注册》。
- 修复 AMA。 请参阅《修复 AMA》。
- 重新配置 Insights for Azure Stack HCI。 请参阅《重新配置 Insights for Azure Stack HCI》。
在 Azure 门户中,Insights for Azure Stack HCI 页会自动检测 AMA 配置中的更改,并在页面顶部显示横幅,指导你采取必要措施继续使用依赖于 AMA 的服务。
修复群集注册
按照以下步骤修复群集注册:
在群集节点上,安装最新的
Az.StackHCI
PowerShell 模块。 使用最新版本号Az.StackHCI
替换latestversion
。Install-Module -Name Az.StackHCI -RequiredVersion {latestversion} -Scope CurrentUser -Repository PSGallery -Force
运行修复注册命令以删除 regkey:
Register-AzStackHCI -TenantId {TenantID} -SubscriptionId {subscriptionID} -ComputerName {NodeName} -RepairRegistration
修复 Azure Stack HCI 的 AMA
选择以下其中一个选项修复 AMA:
选项 1:卸载 AMA
如果 AMA 已更新,请将其卸载。 请按照下列步骤卸载 AMA:
选项 2:更新 AMA
执行以下步骤以更新 AMA:
选项 3:重启 AMA
在所有群集节点上执行以下步骤以重启 AMA:
运行以下命令来禁用 AMA:
cd C:\Packages\Plugins\Microsoft.Azure.Monitor.AzureMonitorWindowsAgent\<agent version number> AzureMonitorAgentExtension.exe disable
可执行文件完成后,所有 AMA 进程停止后,运行以下命令以重启代理:
AzureMonitorAgentExtension.exe enable
选项 4:重启群集节点
重新配置 Insights for Azure Stack HCI
请执行以下步骤以重新配置 Insights for Azure Stack HCI:
在 Azure 门户中,Azure Stack HCI 群集的“Insights”页会在顶部显示横幅(如以下屏幕截图中所示),这有助于再次配置 Insights 并将 DCR 与群集节点相关联。 查看横幅并选择“配置 Insights”。
重新配置 DCR。 按照本文中提供的说明配置 Insights。 请参阅《配置 Insights for Azure Stack HCI》。
对未填充数据的空白工作簿页进行故障排除
问题。 你将看到一个空白的“工作簿”页,其中未填充任何数据,如以下屏幕截图所示:
可能的原因。 此问题可能有多种原因,包括 Insights 最近的配置、未彻底完成 2023 年 11 月之前注册的群集的排查步骤,或未正确配置关联的 DCR。
解决方案。 要排查此问题,可按顺序执行以下步骤:
- 如果最近配置了 Insights,请等待最多一小时,让 AMA 收集数据。
- 如果等待后仍没有数据,请确保已完成“排查 2023 年 11 月之前注册的群集”这一部分中提及的所有步骤。
- 验证关联 DCR 的配置。 确保事件通道和性能计数器作为数据源添加到关联的 DCR,如“数据收集规则”这部分中所述。
- 如果在执行上述步骤后问题仍然存在,仍看不到任何数据,请与客户支持部门联系以获取帮助。
要查看更详细的故障排除指南,请参阅《Azure Monitor 代理故障排除指南》。
Insights 可视化效果
下表提供了启用 Insights 后所有资源的详细信息。
健康产业
提供群集上的运行状况故障。
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
故障 | 有关运行状况故障的简短说明。 单击链接时,会打开侧面板,其中包含详细信息。 | 无单位 | PoolCapacityThresholdExceeded |
错误资源类型 | 遇到错误的资源类型。 | 无单位 | StoragePool |
错误资源 ID | 遇到运行状况错误的资源的唯一 ID。 | 唯一 ID | {1245340c-780b-4afc-af3c-f9bdc4b12f8a}: SP:{c57f23d1-d784-4a42-8b59-4edd8e70e830} |
严重性 | 故障的严重性可能是“警告”或“严重”。 | 无单位 | 警告 |
初始故障时间 | 上次更新服务器时的时间戳。 | datetime | 2022/4/9 中午 12:15:42 |
服务器
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
服务器 | 群集中的服务器的名称。 | 无单位 | VM-1 |
上次更新时间 | 上次更新服务器的日期和时间。 | datetime | 2022/4/9 中午 12:15:42 |
状态 | 群集中的服务器资源的运行状况。 | 它可以是“正常”、“警告”、“严重”和“其他” | 正常 |
CPU 使用率 | 进程使用 CPU 的时间百分比。 | 百分比 | 56% |
内存使用率 | 服务器进程的内存使用率等于计数器 Process\Private Bytes 加上内存映射数据的大小。 | 百分比 | 16% |
逻辑处理器 | 逻辑处理器的数目。 | 计数 | 2 |
CPU | CPU 的数目。 | 计数 | 2 |
运行时间 | 机器(尤其是计算机)处于运行状态的时间。 | Timespan | 2.609 小时 |
站点 | 服务器所属站点的名称。 | 站点名称 | SiteA 的节点上运行 |
域名 | 服务器所属的本地域。 | 无单位 | Contoso.local |
虚拟机
提供群集中所有虚拟机的状态。 VM 可能处于以下状态之一:“正在运行”、“已停止”、“已失败”或“其他”(“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”)。
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
服务器 | 服务器的名称。 | 无单位 | Sample-VM-1 |
上次更新时间 | 此项提供上次更新服务器的日期和时间 | datetime | 2022/4/9 中午 12:24:02 |
VM 总数 | 服务器节点中的 VM 数。 | 计数 | 0 个正在运行,共 0 个 |
正在运行 | 服务器节点中正在运行的 VM 数。 | 计数 | 2 |
已停止 | 服务器节点中已停止的 VM 数。 | 计数 | 3 |
Failed | 服务器节点中已发生故障的 VM 数。 | 计数 | 2 |
其他 | 如果 VM 处于以下状态之一:“未知”、“正在启动”、“正在拍摄快照”、“正在保存”、“正在停止”、“正在暂停”、“正在恢复”、“已暂停”、“已挂起”,则将该状态视为“其他”。 | 计数 | 2 |
存储
下表提供了群集中卷和驱动器的运行状况:
指标 | 说明 | 计价单位 | 示例 |
---|---|---|---|
卷 | 卷的名称 | 无单位 | ClusterPerformanceHistory |
上次更新时间 | 上次更新存储的日期和时间。 | datetime | 2022/4/14 下午 2:58:55 |
状态 | 卷的状态。 | “正常”、“警告”、“严重”和“其他”。 | 正常 |
总容量 | 报告期内设备的总容量(以字节为单位)。 | 字节 | 2.5 GB |
可用容量 | 报告期间可用容量(以字节为单位)。 | 字节 | 20B |
Iops | 每秒输入/输出操作数。 | 每秒 | 45 个/秒 |
吞吐量 | 应用程序网关每秒提供的字节数。 | 每秒字节数 | 5 字节/秒 |
延迟 | 完成 I/O 请求所需的时间。 | Second | 0.0016 秒 |
复原 | 要从故障中恢复的容量。 最大化数据可用性。 | 无单位 | 三向镜像 |
重复数据删除 | 减少需要存储在磁盘上的数据的物理字节数的过程。 | 可用或不可用 | Yes/No |
文件系统 | 文件系统的类型。 | 无单位 | ReFS |
Azure Monitor 定价
启用监视可视化效果时,会从以下位置收集日志:
- 运行状况管理 (Microsoft-windows-health/operational)。
- SDDC 管理(Microsoft-Windows-SDDC-Management/Operational;事件 ID:3000、3001、3002、3003、3004)。
将根据引入数据量及 Log Analytics 工作区的数据保留设置向你收费。
Azure Monitor 采用即用即付定价,每个计费帐户每月首个 5 GB 免费。 由于定价可能因多种因素而异,例如所使用的 Azure 区域,请访问 Azure Monitor 定价计算器以获取最新的定价计算。