使用指标监视 Azure 数据资源管理器的性能、运行状况和使用情况

Azure 数据资源管理器指标提供关于 Azure 数据资源管理器群集资源运行状况和性能的关键指标。 可以将本文中详述的指标作为独立指标,用来监视特定方案中 Azure 数据资源管理器群集的使用情况、运行状况和性能。 还可以将指标用作正常运行的 Azure 仪表板Azure 警报的基础。

若要详细了解 Azure 指标资源管理器,请参阅指标资源管理器

先决条件

使用指标来监视 Azure 数据资源管理器资源

  1. 登录到 Azure 门户
  2. 在 Azure 数据资源管理器群集的左窗格中,搜索“指标”。
  3. 选择“指标”,以打开指标窗格,然后开始对群集进行分析。 在 Azure 门户中搜索和选择指标

使用指标窗格

在指标窗格中,选择要跟踪的特定指标,选择聚合数据的方式,并创建要在仪表板上查看的指标图表。

系统为 Azure 数据资源管理器群集预先选择了“资源”和“指标命名空间”选取器。 下图中的数字对应于下面带编号的列表。 这些内容可以指导你掌握在设置和查看指标时使用的不同选项。

指标窗格。

  1. 若要创建指标图表,请选择指标名称和每个指标的相关聚合。 有关不同指标的详细信息,请参阅支持的 Azure 数据资源管理器指标
  2. 选择“添加指标”可以查看在同一图表中绘制的多个指标。
  3. 选择“+ 新建图表”可在一个视图中查看多个图表。
  4. 使用时间选取器更改时间范围(默认:过去 24 小时)。
  5. 对包含维度的指标使用添加筛选器应用拆分
  6. 选择“固定到仪表板”可将图表配置添加到仪表板,以便可以再次查看它。
  7. 设置新的警报规则可以使用设置的条件将指标可视化。 新的警报规则将包括图表的目标资源、指标、拆分和筛选器维度。 在警报规则创建窗格中修改这些设置。

支持的 Azure 数据资源管理器指标

Azure 数据资源管理器指标有助于深入了解资源的整体性能和使用情况,以及特定操作(如引入或查询)的相关信息。 本文中的指标已按使用类型分组。

指标类型为:

有关适用于 Azure 数据资源管理器的 Azure Monitor 的指标列表(按字母顺序排列),请参阅受支持的 Azure 数据资源管理器群集指标

群集指标

群集指标跟踪群集的常规运行状况。 例如,资源和引入的使用及响应情况。

指标 单位 聚合 度量值说明 Dimensions
缓存利用率(已弃用) 百分比 Avg、Max、Min 群集当前使用的已分配缓存资源百分比。 缓存是为用户活动分配的、符合定义的缓存策略的 SSD 大小。

80% 或更低的平均缓存利用率可以维持群集的正常状态。 如果平均缓存利用率高于 80%,则应对群集执行以下操作:
纵向扩展到存储优化定价层,或
横向扩展到更多实例。 也可通过调整缓存策略减少缓存的天数。 如果缓存利用率超过 100%,则缓存的数据大小将大于群集上的缓存总大小。
此指标已弃用,保留该指标只是为了保证后向兼容性。 请改用“缓存利用率因子”指标。
缓存利用率因子 百分比 Avg、Max、Min 群集中专用于热缓存的已利用磁盘空间的百分比。
100% 表示分配给热数据的磁盘空间得到了充分利用。 无需执行任何操作,群集完全正常。
小于 100% 表示为热数据分配的磁盘空间未得到充分利用。
超过 100% 表示群集的磁盘空间不够大,无法容纳缓存策略定义的热数据。 为确保所有热数据都有足够的空间,需减少热数据量或横向扩展群集。建议启用自动缩放。
CPU 百分比 Avg、Max、Min 群集中的计算机当前使用的已分配计算资源百分比。

80% 或更低的平均 CPU 利用率可以维持群集的正常状态。 最大 CPU 利用率值为 100%,表示没有更多的计算资源可用于处理数据。
如果某个群集的性能不佳,请检查最大 CPU 利用率值,以确定特定的 CPU 是否阻塞。
引入利用率 百分比 Avg、Max、Min 用于从容量策略中分配的所有资源引入数据,以执行引入的实际资源百分比。 默认的容量策略是不超过 512 个并发的引入操作,或者不超过引入中投入的群集资源数的 75%。

80% 或更低的平均引入利用率可以维持群集的正常状态。 最大的引入利用率值为 100%,表示使用整个群集引入能力,这可能会生成引入队列。
InstanceCount 计数 Avg 实例总计数。
保持活动状态 计数 Avg 跟踪群集的响应度。

完全可响应的群集将返回值 1,受阻或断开连接的群集将返回 0。
受限制的命令总数 计数 Avg、Max、Min、Sum 由于达到了允许的最大并发(并行)命令数,而在群集中限制(拒绝)的命令数。
盘区总数 计数 Avg、Max、Min、Sum 群集中的数据盘区总数。

更改此项指标可能会更改大规模数据的结构并在群集上施加较高的负载,因为合并数据盘区是 CPU 密集型活动。
追随者延迟 毫秒 Avg、Max、Min 追随者数据库会同步领导者数据库中的更改。 由于同步,需要经过几秒到几分钟的延迟之后,才会提供数据。

此指标度量延迟的时长。 延迟取决于几个因素,例如:引入到领导者数据库的数据的总体大小和速率、追随的数据库的数量、对领导者数据库执行的内部操作的速率(合并/重新生成操作)。

这是一个群集级别的指标:追随者捕获所追随的所有数据库的元数据。 此指标表示进程的延迟。

导出指标

导出指标可跟踪导出操作的常规运行状况和性能,如延迟、结果、记录数和利用率。

指标 单位 聚合 度量值说明 Dimensions
连续导出的记录数 计数 Sum 所有连续导出作业中导出的记录数。 ContinuousExportName
连续导出最大延迟 计数 Max 群集中连续导出作业报告的延迟(分钟)。
连续导出挂起计数 计数 Max 挂起的连续导出作业数。 这些作业已准备好运行,但可能由于容量不足而在队列中等待。
连续导出结果 Count 计数 每个连续导出运行的失败/成功结果。 ContinuousExportName
导出利用率 百分比 最大值 已使用的导出容量占群集中总导出容量的百分比(介于 0 和 100 之间)。

引入指标

引入指标可跟踪引入操作的常规运行状况和性能,如延迟、结果和数据量。 优化分析:

  • 将筛选器应用到图表,以便按维度绘制部分数据。 例如,浏览引入,一直浏览到特定的 Database
  • 将拆分应用到图表,以便按不同组件将数据可视化。 此过程可用于分析引入管道的每个步骤所报告的指标,例如 Blobs received
指标 单位 聚合 度量值说明 Dimensions
批处理 Blob 计数 计数 Avg、Max、Min 引入的已完成批处理中数据源数。 数据库
批处理持续时间 Avg、Max、Min 引入流中批处理阶段的持续时间。 数据库
批大小 字节 Avg、Max、Min 引入的聚合批处理中未压缩的预期数据大小。 数据库
已处理批处理 计数 Sum、Max、Min 引入的已完成批处理数。
Batching Type:用于密封批处理的触发器。
有关批处理类型的完整列表,请参阅批处理类型
数据库、批处理类型
已接收的 blob 计数 Sum、Max、Min 组件从输入流接收的 blob 数。

使用“应用拆分”来分析每个组件。
数据库、组件类型、组件名称
已处理的 blob 计数 Sum、Max、Min 组件处理的 blob 数。

使用“应用拆分”来分析每个组件。
数据库、组件类型、组件名称
已删除的 blob 计数 Sum、Max、Min 被组件永久删除的 blob 数。 对于每个这样的 blob,都将发送一个包含失败原因的 Ingestion result 指标。

使用“应用拆分”来分析每个组件。
数据库、组件类型、组件名称
发现延迟 平均值 从数据排队开始到被数据连接发现为止的时间。 此时间未包括在“阶段延迟”或“引入延迟”指标中。

在以下情况下,发现延迟可能会增加:
  • 使用了跨区域数据连接时。

  • 在事件中心数据连接中,如果事件中心分区数不够用于数据流出量或者如果事件在分区间分布不均匀。
组件类型、组件名称
已接收的事件 计数 Sum、Max、Min 数据连接从输入流接收的事件数。 组件类型、组件名称
已处理的事件 计数 Sum、Max、Min 数据连接处理的事件数。 组件类型、组件名称
已删除的事件 计数 Sum、Max、Min 数据连接永久删除的事件数。 对于每个这样的事件,都将发送一个包含失败原因的Ingestion result指标。 组件类型、组件名称
引入延迟 Avg、Max、Min 引入数据的延迟,根据从群集中收到数据,到数据可供查询的时间来测得。 引入延迟周期决于引入方案。
Ingestion Kind:流式引入或排队引入
引入类型
引入结果 计数 总和 失败或成功被引入的源的总数。
Status:“成功”表示引入成功,或失败类别表示失败。 有关可能失败类别的完整列表,请参阅 Azure 数据资源管理器中的引入错误代码
Failure Status Type:指示失败是永久性的还是暂时性的。 为了成功引入,此维度为 None

注意:
  • 事件中心和 IoT 中心引入事件会预先聚合到一个 Blob 中,然后被视为要导入的单一源。 因此,预先聚合的事件在预先聚合后显示为单个的引入结果。

  • 在内部重试暂时性故障的次数有限。 每个暂时性故障都报告为暂时性的引入结果。 因此,单次引入可能会产生多个引入结果。
状态,失败状态类型
引入量(字节) 计数 Max、Sum 压缩前引入到群集中的数据总大小(字节)。 数据库
队列长度 计数 Avg 组件输入队列中挂起的消息数。 批处理管理器组件的每个 Blob 有一条消息。 引入管理器组件的每个批处理有一条消息。 批处理是包含一个或多个 Blob 的单个引入命令。 组件类型
队列最早消息 平均值 从在组件的输入队列中插入最早消息开始算起的时间,以秒为单位。 组件类型
接收的数据大小(字节) 字节 Avg、Sum 数据连接从输入流接收的数据的大小。 组件类型、组件名称
阶段延迟 平均值 从 Azure 数据资源管理器接受消息到引入组件收到其要处理的内容的时间。

使用“应用筛选器”并选择“组件类型”>“EngineStorage”,以便显示总引入延迟。
数据库、组件类型

流引入指标

流引入指标跟踪流引入数据和请求速率、持续时间与结果。

指标 单位 聚合 度量值说明 Dimensions
流引入数据速率 Count RateRequestsPerSecond 引入群集的数据总量。
流引入持续时间 毫秒 Avg、Max、Min 所有流引入请求的总持续时间。
流引入请求速率 计数 Count、Avg、Max、Min、Sum 流引入请求总数。
流引入结果 计数 Avg 流引入请求总数,按结果类型列出。 Result

查询指标

查询性能指标跟踪查询持续时间,以及并发或受限制查询的总数。

指标 单位 聚合 度量值说明 Dimensions
查询持续时间 毫秒 Avg、Min、Max、Sum 收到查询结果之前所花费的总时间(不包括网络延迟)。 QueryStatus
QueryResult 计数 计数 总查询数。 QueryStatus
并发查询总数 计数 Avg、Max、Min、Sum 群集中并行运行的查询数。 使用此指标可以很好地评估群集上的负载。
受限制的查询总数 计数 Avg、Max、Min、Sum 群集中受限制(被拒绝)的查询数。 允许的最大并发(并行)查询数在请求速率限制策略中进行定义。

具体化视图指标

指标 单位 聚合 度量值说明 Dimensions
MaterializedViewHealth 1、0 平均值 当视图被认为正常时,值为 1,否则为 0。 Database、MaterializedViewName
MaterializedViewAgeSeconds 平均值 视图的 age 定义为当前时间减去由视图处理的上次引入时间。 指标值是以秒为单位的时间(值越小,视图越“正常”)。 Database、MaterializedViewName
MaterializedViewResult 1 平均值 指标包括一个 Result 维度,该维度指示上一个具体化循环的结果(有关可能值的详细信息,请参见 MaterializedViewResult 指标)。 指标值始终等于 1。 Database、MaterializedViewName、Result
MaterializedViewRecordsInDelta 记录计数 平均值 当前在源表的未处理部分中的记录数。 有关详细信息,请参阅具体化视图的工作原理 Database、MaterializedViewName
MaterializedViewExtentsRebuild 区计数 平均值 需要在具体化循环中进行更新的盘区数。 Database、MaterializedViewName
MaterializedViewDataLoss 1 最大值 当未处理的源数据接近保留期时,会触发指标。 指示具体化视图运行不正常。 Database、MaterializedViewName、Kind

分区指标

分区指标使用分区策略监视表的分区流程。

指标 单位 聚合 度量值说明 Dimensions
PartitioningPercentage 百分比 平均值、最小值、最大值 相对于记录总数进行分区的记录百分比。 数据库,表
PartitioningPercentageHot 百分比 平均值、最小值、最大值 相对于记录总数(仅“热”缓存中)进行分区的记录百分比。 数据库,表
ProcessedPartitionedRecords 百分比 Avg、Min、Max、Sum 在测量的时间窗口内进行分区的记录数。 数据库,表