VM 监视:增强 VM 运行状况监视(预览版)

VM 监视是适用于虚拟机 (VM) 和虚拟机规模集的标准化、轻型且可适应的服务产品。 它在 VM 中以可配置的间隔运行运行状况检查,并通过统一数据模型将结果发送到 Azure。 Azure 中用于生产监控的 AI 运维 (AIOps) 引擎会使用这些运行状况结果来进行回归检测和预防。

通过应用程序运行状况 VM 扩展提供的 VM 监视,使客户能够轻松部署和管理。 此外,VM 监视功能无需支付额外费用。

VM 监视的监视具体信息

  • 易于采用:可通过应用程序运行状况 VM 扩展使用 VM 监视。
  • 灵活部署:可以使用 Azure 资源管理器模板(ARM 模板)、PowerShell 或 Azure CLI 启用 VM 监视
  • 兼容性:VM 监视在 Linux 和 Windows 环境中均可无缝运行。 它适用于单个虚拟机和虚拟机规模集群。
  • 资源治理:VM 监视提供高效的监视,而不会影响系统性能。 VM 监视进程的 CPU 和内存资源利用率上限有助于保护 VM。
  • 开箱即用就绪情况:VM 监视配备了一套默认测试,你可以根据自己的需求进行配置。

网络

信号名称 类型 描述
出站连接 检查 验证来自 Azure VM 的网络出站连接。
DNS 解析 检查 验证是否可以解析一个或多个 DNS 名称。
TCPSynRetransmits (仅限 Linux) 指标 在放弃建立连接之前,系统重新传输 TCP SYN 和 SYN/ACK 数据包的次数。
SegmentsRetransmitted 指标 包含一个或多个之前传输的八位字节的传输 TCP 段的数量。
NormalizedSegmentsRetransmitted 指标 重传段数 / (发送段数 + 重传段数)
连接重置 指标 TCP 连接从 CLOSED 状态或 ESTABLISHED 状态直接转换为 CLOSE_WAIT 状态的次数。
NormalizedConnectionResets 指标 上次测量间隔期间重置的连接百分比。
连接失败尝试次数 指标 TCP 连接从 CLOSED 状态或 SYN_SENT 状态直接转换为 SYN_RCVD 状态的次数。
NormalizedFailedConnectionAttempts 指标 FailedConnectionAttempts / (ActiveConnectionOpenings + PassiveConnectionOpenings)
ActiveConnectionOpenings 指标 TCP 连接从 SYN_SENT 状态直接转换为 CLOSED 状态的次数。
PassiveConnectionOpenings 指标 TCP 连接从 SYN_RCVD 状态直接转换为 LISTEN 状态的次数。
CurrentConnections 指标 已建立的连接数。
SegmentsReceived 指标 所收到的段数,包括错误收到的段数。
SegmentsSent 指标 已发送的段数,包括当前连接上的段,但不包括仅包含重传字节的段。

磁盘

信号名称 类型 描述
Azure 磁盘 I/O 检查 验证文件创建、写入和读取。 删除装载到 VM 的每个驱动器上的操作。
FreeSpaceInBytes 指标 目标装入点的可用磁盘空间。
UsedSpaceInBytes 指标 目标装入点的已用磁盘空间。
CapacityInBytes 指标 目标装入点的磁盘空间容量。
使用百分比 指标 目标装入点的已用磁盘空间百分比。
WriteOps 指标 目标磁盘/分区的每秒写入操作数。
ReadOps 指标 目标磁盘/分区的每秒读取操作数。

中央处理器 (CPU)

信号名称 类型 描述
ProcessCPUCoreUsage 指标 目标进程在单个 CPU 核心中占用的百分比的即时度量(100 = 100%,整个核心)。
ProcessCPUMachineUsage 指标 此进程在计算机总 CPU 中占用的百分比。
机器总CPU使用率 指标 VM 的总即时 CPU 利用率。

内存

信号名称 类型 描述
ProcessRSSPercent 指标 进程 RSS / (计算机总内存 * 100%
ProcessPageFaults 指标 自进程启动以来的页错误数。
MachineMemoryTotalInBytes 指标 VM 的总内存(以字节为单位)。
MachineMemoryUsedPercent 指标 计算机已用内存 / (计算机总内存 * 100%
TotalPageFaults 指标 所有正在运行的进程自启动以来的页错误总数。

进程

信号名称 类型 描述
进程创建 检查 启动轻量级进程,验证是否可以创建进程。
正在运行的进程 检查 验证一个或多个目标进程是否正在运行。
UpTime 指标 自目标进程上次启动以来的运行时间。

IMDS

信号名称 类型 描述
IMDS 检查 验证用户是否可以从 VM 内部访问 Azure 实例元数据服务 (IMDS) 终结点。 VM 信息是从 IMDS 终结点查询返回的。

时钟

信号名称 类型 描述
时钟偏差 检查 验证远程网络时间协议 (NTP) 服务器与 Azure VM 之间的时钟偏差。 对于 Windows VM,如果无法访问远程 NTP 服务器,请回退以检查 Windows 时间服务是否与 w32tm 同步。

操作系统

信号名称 类型 描述
系统错误 指标 从 SystemData <=2(包括 LOG_ALWAYS、严重、错误)的系统级事件日志(仅限 Windows)收集错误数。 measurementTarget 定义为使用默认 Windows 区域设置的 EventLog Source_EventId。 每个集合限制为 10 多个不同的度量目标。

azblob

信号名称 类型 描述
Azure 存储 Blob 连接 检查 使用 MSI 或共享访问签名 (SAS) 令牌来验证与 Azure 存储 Blob 的连接并下载该 Blob。

硬件

信号名称 类型 描述
硬件运行状况监视器 EventLog 从 Windows 事件日志收集硬件运行状况信息。 目前只会收集磁盘相关的关键事件,包括 ID 为 7、500、504、505、512、549 的事件。
硬件运行状况 Nvidia Smi EventLog 通过运行 nvidia-smi 命令(仅限 Linux Ubuntu)收集 GPU 统计信息,包括内存和 GPU 使用情况、temp 和其他统计信息