VM 监视是适用于虚拟机 (VM) 和虚拟机规模集的标准化、轻型且可适应的服务产品。 它在 VM 中以可配置的间隔运行运行状况检查,并通过统一数据模型将结果发送到 Azure。 Azure 中用于生产监控的 AI 运维 (AIOps) 引擎会使用这些运行状况结果来进行回归检测和预防。
通过应用程序运行状况 VM 扩展提供的 VM 监视,使客户能够轻松部署和管理。 此外,VM 监视功能无需支付额外费用。
VM 监视的监视具体信息
- 易于采用:可通过应用程序运行状况 VM 扩展使用 VM 监视。
- 灵活部署:可以使用 Azure 资源管理器模板(ARM 模板)、PowerShell 或 Azure CLI 启用 VM 监视。
- 兼容性:VM 监视在 Linux 和 Windows 环境中均可无缝运行。 它适用于单个虚拟机和虚拟机规模集群。
- 资源治理:VM 监视提供高效的监视,而不会影响系统性能。 VM 监视进程的 CPU 和内存资源利用率上限有助于保护 VM。
- 开箱即用就绪情况:VM 监视配备了一套默认测试,你可以根据自己的需求进行配置。
网络
信号名称 |
类型 |
描述 |
出站连接 |
检查 |
验证来自 Azure VM 的网络出站连接。 |
DNS 解析 |
检查 |
验证是否可以解析一个或多个 DNS 名称。 |
TCPSynRetransmits (仅限 Linux) |
指标 |
在放弃建立连接之前,系统重新传输 TCP SYN 和 SYN/ACK 数据包的次数。 |
SegmentsRetransmitted |
指标 |
包含一个或多个之前传输的八位字节的传输 TCP 段的数量。 |
NormalizedSegmentsRetransmitted |
指标 |
重传段数 / (发送段数 + 重传段数) |
连接重置 |
指标 |
TCP 连接从 CLOSED 状态或 ESTABLISHED 状态直接转换为 CLOSE_WAIT 状态的次数。 |
NormalizedConnectionResets |
指标 |
上次测量间隔期间重置的连接百分比。 |
连接失败尝试次数 |
指标 |
TCP 连接从 CLOSED 状态或 SYN_SENT 状态直接转换为 SYN_RCVD 状态的次数。 |
NormalizedFailedConnectionAttempts |
指标 |
FailedConnectionAttempts / (ActiveConnectionOpenings + PassiveConnectionOpenings) |
ActiveConnectionOpenings |
指标 |
TCP 连接从 SYN_SENT 状态直接转换为 CLOSED 状态的次数。 |
PassiveConnectionOpenings |
指标 |
TCP 连接从 SYN_RCVD 状态直接转换为 LISTEN 状态的次数。 |
CurrentConnections |
指标 |
已建立的连接数。 |
SegmentsReceived |
指标 |
所收到的段数,包括错误收到的段数。 |
SegmentsSent |
指标 |
已发送的段数,包括当前连接上的段,但不包括仅包含重传字节的段。 |
磁盘
信号名称 |
类型 |
描述 |
Azure 磁盘 I/O |
检查 |
验证文件创建、写入和读取。 删除装载到 VM 的每个驱动器上的操作。 |
FreeSpaceInBytes |
指标 |
目标装入点的可用磁盘空间。 |
UsedSpaceInBytes |
指标 |
目标装入点的已用磁盘空间。 |
CapacityInBytes |
指标 |
目标装入点的磁盘空间容量。 |
使用百分比 |
指标 |
目标装入点的已用磁盘空间百分比。 |
WriteOps |
指标 |
目标磁盘/分区的每秒写入操作数。 |
ReadOps |
指标 |
目标磁盘/分区的每秒读取操作数。 |
中央处理器 (CPU)
信号名称 |
类型 |
描述 |
ProcessCPUCoreUsage |
指标 |
目标进程在单个 CPU 核心中占用的百分比的即时度量(100 = 100%,整个核心)。 |
ProcessCPUMachineUsage |
指标 |
此进程在计算机总 CPU 中占用的百分比。 |
机器总CPU使用率 |
指标 |
VM 的总即时 CPU 利用率。 |
内存
信号名称 |
类型 |
描述 |
ProcessRSSPercent |
指标 |
进程 RSS / (计算机总内存 * 100%) |
ProcessPageFaults |
指标 |
自进程启动以来的页错误数。 |
MachineMemoryTotalInBytes |
指标 |
VM 的总内存(以字节为单位)。 |
MachineMemoryUsedPercent |
指标 |
计算机已用内存 / (计算机总内存 * 100%) |
TotalPageFaults |
指标 |
所有正在运行的进程自启动以来的页错误总数。 |
进程
信号名称 |
类型 |
描述 |
进程创建 |
检查 |
启动轻量级进程,验证是否可以创建进程。 |
正在运行的进程 |
检查 |
验证一个或多个目标进程是否正在运行。 |
UpTime |
指标 |
自目标进程上次启动以来的运行时间。 |
IMDS
信号名称 |
类型 |
描述 |
IMDS |
检查 |
验证用户是否可以从 VM 内部访问 Azure 实例元数据服务 (IMDS) 终结点。 VM 信息是从 IMDS 终结点查询返回的。 |
时钟
信号名称 |
类型 |
描述 |
时钟偏差 |
检查 |
验证远程网络时间协议 (NTP) 服务器与 Azure VM 之间的时钟偏差。 对于 Windows VM,如果无法访问远程 NTP 服务器,请回退以检查 Windows 时间服务是否与 w32tm 同步。 |
操作系统
信号名称 |
类型 |
描述 |
系统错误 |
指标 |
从 SystemData <=2(包括 LOG_ALWAYS、严重、错误)的系统级事件日志(仅限 Windows)收集错误数。 measurementTarget 定义为使用默认 Windows 区域设置的 EventLog Source_EventId。 每个集合限制为 10 多个不同的度量目标。 |
azblob
信号名称 |
类型 |
描述 |
Azure 存储 Blob 连接 |
检查 |
使用 MSI 或共享访问签名 (SAS) 令牌来验证与 Azure 存储 Blob 的连接并下载该 Blob。 |
硬件
信号名称 |
类型 |
描述 |
硬件运行状况监视器 |
EventLog |
从 Windows 事件日志收集硬件运行状况信息。 目前只会收集磁盘相关的关键事件,包括 ID 为 7、500、504、505、512、549 的事件。 |
硬件运行状况 Nvidia Smi |
EventLog |
通过运行 nvidia-smi 命令(仅限 Linux Ubuntu)收集 GPU 统计信息,包括内存和 GPU 使用情况、temp 和其他统计信息 |
相关内容