Compartilhar via

监视Azure 文件同步

使用Azure 文件同步将组织的文件共享集中到Azure 文件存储中,同时保持本地文件服务器的灵活性、性能和兼容性。 Azure 文件同步将Windows Server转换为Azure文件共享的快速缓存。 可以使用Windows Server上提供的任何协议在本地访问数据,包括 SMB、NFS 和 FTPS。 您可以在世界各地根据需要拥有多个缓存。

Azure 文件同步 的内置监视

本文介绍如何使用 Azure Monitor、存储同步服务和Windows Server监视Azure 文件同步部署。 它涵盖以下方案:

  • 在Azure Monitor中查看Azure 文件同步指标。
  • 在Azure Monitor中创建警报,主动通知关键情况。
  • 使用 Azure 门户查看Azure 文件同步部署的运行状况。
  • 使用Windows Server上的事件日志和性能计数器监视Azure 文件同步部署的运行状况。

查看Azure 文件同步指标

默认情况下启用Azure 文件同步指标,每 15 分钟发送到Azure Monitor。

若要查看Azure Monitor中的Azure 文件同步指标,

  1. 转到 Azure 门户中的 Storage Sync Service并选择 Metrics
  2. 单击“指标”下拉列表,然后选择要查看的指标

 Azure 门户中 Azure 文件同步 指标的屏幕截图。

在监视数据中发现重要情况时,警报会以主动的方式通知你。 若要详细了解如何在 Azure Monitor 中配置警报,请参阅 Microsoft Azure>。

Alerts

若要为Azure 文件同步创建警报,请执行以下操作:

  1. Azure 门户中,转到 Storage Sync Service
  2. 在“监视”部分中选择“警报”,然后选择“+ 新建警报规则”
  3. 单击“选择条件”,并为警报提供以下信息
    • Metric
    • 维度名称
    • 警报逻辑
  4. 单击“选择操作组”,并通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中
  5. 填写警报详细信息,例如警报规则名称说明严重性
  6. 选择“创建警报规则”可以创建警报 。

Note

如果使用“服务器名称”维度配置警报,然后重命名服务器,则需要更新警报以监视新的服务器名称。

存储同步服务

若要在 Azure 门户中查看Azure 文件同步部署的运行状况,请导航到 Storage Sync Service。 该边栏选项卡中提供以下信息:

  • 已注册服务器健康状况

  • 服务器终结点运行状况

    • 持久同步错误
    • 暂时性同步错误
    • 同步活动(上传到云,下载到服务器)
    • 云分层节省空间
    • 分层错误
    • 召回错误
  • Metrics

已注册服务器健康状况

若要在门户中查看“已注册的服务器运行状况”,请导航到“存储同步服务”的“已注册的服务器”部分 。

屏幕截图显示已注册的服务器页面,其中包含服务器名称和状态。

  • 如果“已注册的服务器”状态为“联机”,则服务器已成功与服务进行通信 。
  • 如果 注册服务器状态为 Appears Offline,则存储同步监视器进程(AzureStorageSyncMonitor.exe)未运行或服务器无法访问Azure 文件同步服务。 有关详细信息,请参阅故障排除文档

服务器终结点运行状况

要在门户中查看服务器终结点的运行状况,请导航到存储同步服务同步组部分,然后选择同步组

显示 Azure 门户中服务器端点运行状况的截图。

  • 门户中的“服务器终结点运行状况”和“同步活动”(上传到云,下载到服务器)基于服务器上的遥测事件日志中记录的同步事件(ID 9102 和 9302)。 如果同步会话由于暂时性错误(如错误被取消)而失败,只要当前同步会话正在进行(文件正在应用),服务器终结点就会在门户中依旧显示为“正常”。 事件 ID 9302 是同步进度事件,而事件 ID 9102 是同步会话完成后被记录的。 有关详细信息,请参阅同步运行状况同步进度。 如果服务器终结点运行状况显示“运行正常”以外的状态,请参阅故障排除文档以获取指导。
  • 门户中的“持久性同步错误”和“暂时性同步错误”计数基于服务器上的遥测事件日志中记录的事件 ID 9121。 同步会话完成后,每项的错误都会记录在此事件中。 若要查看门户中的错误,请转到“服务器终结点属性”并导航到“错误 + 故障排除”部分。 若要解决每项目错误,请参阅 如何查看是否存在未同步的特定文件或文件夹?
  • "云分层节省空间"指的是通过云分层节省的磁盘空间量。 为“云分层节省空间”提供的数据基于服务器上的遥测事件日志中记录的事件 ID 9071。 若要查看其他云分层信息和指标,请转到“服务器终结点属性”并导航到“云分层状态”部分。 若要了解详细信息,请参阅监视云分层
  • 若要查看门户中的“分层错误”和“召回错误”,请转到“服务器终结点属性”并导航到“错误 + 故障排除”部分。 “分层错误”基于服务器上的遥测事件日志中记录的事件 ID 9003,“召回错误”基于事件 ID 9006。 有关无法进行分层或召回的文件的更多信息,请参阅如何对未能分层的文件进行故障排除如何对未能召回的文件进行故障排除

指标图表

可以在“存储同步服务”门户中查看以下指标图表:

指标名称 Description 页名称
代理版本过期信息 代理版本过期前的天数 存储同步服务 - 指标
同步的字节数 传输的数据大小(上传和下载) 同步组 - 状态,服务器终结点 - 同步状态,存储同步服务 - 指标
缓存数据大小(按上次访问时间) 上次访问时间的数据大小 服务器终结点 - 云分层状态、存储同步服务 - 指标
云分层缓存命中率 从缓存中提供的字节百分比与从云中召回的字节数。 仅当服务器终结点上存在活动 I/O(例如文件读取或召回)时,才会生成此指标。 同步组 - 状态、服务器终结点 - 云分层状态、存储同步服务 - 指标
云分层磁盘空间不足模式 服务器上的磁盘空间状态 存储同步服务 - 指标
云分层召回成功率 云分层召回的成功状态。 仅当服务器终结点上存在活动 I/O(例如文件读取或召回)时,才会生成此指标。 存储同步服务 - 指标
云层存储的数据分层大小 分层数据的大小 存储同步服务 - 指标
分层数据的云分层大小(按上次维护作业) 上次维护作业期间分层数据的大小。 存储同步服务 - 指标
云分层重调大小 召回的数据大小 同步组 - 状态、已注册的服务器、存储同步服务 - 指标
按应用程序划分的云分层数据召回大小 应用程序检索到的数据的大小。 仅当服务器终结点上存在活动 I/O(例如文件读取或召回)时,才会生成此指标。 服务器终结点 - 云分层状态、存储同步服务 - 指标
云分层召回吞吐量 召回的数据吞吐量。 仅当服务器终结点上存在活动 I/O(例如文件读取或召回)时,才会生成此指标。 存储同步服务 - 指标
出口明细 用户对分层文件召回、后台召回和同步下载的流出数据细分 服务器终端 - 云分层状态
同步的文件 传输的文件计数(上传和下载) 同步组 - 状态,服务器终结点 - 同步状态,存储同步服务 - 指标
未同步的文件 未能同步的文件计数 同步组 - 状态,服务器终结点 - 同步状态,存储同步服务 - 指标
服务器缓存大小 服务器上缓存的数据的大小 存储同步服务 - 指标
服务器联机状态 从服务器接收的心跳信号数。 已注册的服务器、存储同步服务 - 指标
节省空间 本地数据缓存与云分层数据的空间节省细分 服务器终端 - 云分层状态
同步会话结果 同步会话的成功状态 同步组 - 状态、存储同步服务 - 指标
按分层策略分类的数据 分级的文件数及其分级原因 服务器终端 - 云分层状态

Note

“存储同步服务”门户中的图表的时间范围为 24 小时。 若要查看不同的时间范围或维度,请使用Azure Monitor。

Windows Server

在安装了Azure 文件同步代理的 Windows Server上,可以使用 event 日志性能计数器查看该服务器上的服务器终结点的运行状况。

事件日志

若要监视已注册的服务器、同步和云分层运行状况,请使用遥测事件服务器日志。 遥测事件日志位于 Applications 和 Services\Microsoft\FileSync\Agent 下的 事件查看器。

  • 同步运行状况

    • 同步会话完成后,将记录事件 ID 9102。 使用此事件来确定同步会话是否已成功 (HResult = 0),以及是否存在每项同步错误 (PerItemErrorCount) 。 有关详细信息,请参阅同步运行状况以及按项列出的错误文档。

      Note

      有时同步会话会整体失败或具有非零值 PerItemErrorCount。 不过,它们仍在前进,并且某些文件会成功同步。 可以在应用的字段(如 AppliedFileCount、AppliedDirCount、AppliedTombstoneCount 和 AppliedSizeBytes)中查看此项。 这些字段将显示会话成功的次数。 如果您看到多个同步会话连续失败,并且应用计数不断增加,请在创建支持工单之前,留出时间让同步重试。

    • 同步会话完成后,每项的错误都会记录在事件 ID 9121 中。 使用此事件以确定由于此错误(PersistentCount 和 TransientCount)而未能同步的文件数 。 应调查每个项目的持续性错误。 有关详细信息,请参阅 如何查看是否存在未同步的特定文件或文件夹?

    • 如果存在活动同步会话,则每 5 到 10 分钟记录一次事件 ID 9302。 使用此事件确定要同步多少项 (TotalItemCount)、到目前为止已同步的项数 (AppliedItemCount) 和由于每项错误而未能同步的项数 (PerItemErrorCount)。 如果同步没有进展(AppliedItemCount=0),同步会话最终将失败,并记录一个带有错误的事件 ID 9102。 有关详细信息,请参阅同步进度文档

  • 已注册服务器健康状况

    • 当服务器查询作业服务时,每 30 秒记录一次事件 ID 9301。 如果 GetNextJob 已完成且状态为 0,服务器就可以与服务进行通信。 如果 GetNextJob 已完成但出现错误,请查看故障排除文档以获得指导。
  • 云分层运行状况

    • 若要监视服务器上的分层活动,请使用遥测事件日志中的事件 ID 9003、9016 和 9029,该日志位于 事件查看器 Applications and Services\Microsoft\FileSync\Agent 下。

      • 事件 ID 9003 提供服务器终结点的错误分布情况。 例如,错误总数、错误代码。 将为每个错误代码记录一个事件。
      • 事件 ID 9016 提供对卷的影像创建结果。 例如:可用空间百分比、会话期间克隆的文件数和无法克隆的文件数。
      • 事件 ID 9029 为服务器终结点提供临时会话信息。 例如:会话中尝试的文件数、会话中分层存储的文件数以及已分层存储的文件数。
    • 若要监视服务器上的召回活动,请使用遥测事件日志中的事件 ID 9005、9006、9009、9059 和 9071,该事件日志位于 事件查看器 Applications and Services\Microsoft\FileSync\Agent

      • 事件 ID 9005 提供服务器终结点的召回可靠性。 例如:访问的唯一文件总数和访问失败的唯一文件总数。
      • 事件 ID 9006 提供服务器终结点的召回错误分布情况。 例如:失败的请求总数和错误代码。 将为每个错误代码记录一个事件。
      • 事件 ID 9009 提供服务器终结点的回调会话信息。 例如:DurationSeconds、CountFilesRecallSucceeded 和 CountFilesRecallFailed。
      • 事件 ID 9059 提供服务器终结点的应用程序回调分布情况。 例如:ShareId、应用程序名称和 TotalEgressNetworkBytes。
      • 事件 ID 9071 为服务器终结点提供云分层效率。 例如:TotalDistinctFileCountCacheHit、TotalDistinctFileCountCacheMiss、TotalCacheHitBytes 和 TotalCacheMissBytes。

性能计数器

使用服务器上的Azure 文件同步性能计数器监视同步活动。

若要查看服务器上的Azure 文件同步性能计数器,请打开性能监视器(Perfmon.exe)。 可以在“已传输的 AFS 字节数”和“AFS 同步操作”对象下找到计数器 。

性能监视器中提供了Azure 文件同步的以下性能计数器:

性能对象\计数器名称 Description
AFS 传输的字节数\下载的字节数/秒 每秒下载的字节数。
AFS 传输的字节数\上传的字节数/秒 每秒上传的字节数。
AFS 传输的字节数\总字节数/秒 每秒(上传和下载)的总字节数。
AFS 同步操作\每秒下载的同步文件数 每秒下载的文件数。
AFS 同步操作数\上传的同步文件数/秒 每秒上传的文件数。
AFS 同步操作数\同步文件总操作数/秒 同步的文件总数(上传和下载)。

使用 Azure Monitor 收集数据

下表介绍了如何收集数据来监视服务,以及如何在收集数据后对数据执行哪些操作:

要收集的数据 Description 如何收集和路由数据 在何处查看数据 支持的数据
指标数据 指标是数值,用于描述特定时间点系统的各个方面。 可以使用算法聚合指标,与其他指标进行比较,并针对一段时间内的趋势进行分析。 数据将定期自动收集。 指标探索器 由 Azure Monitor 支持的 Azure 文件同步 指标
活动日志数据 Azure Monitor活动日志提供有关订阅级别事件的洞察。 活动日志包含信息,例如在修改资源或启动虚拟机时。 自动收集。 活动日志

有关Azure Monitor支持的所有指标数据的列表,请参阅Azure Monitor支持的指标

使用Azure Monitor工具分析数据

Azure门户中提供了这些Azure Monitor工具,可帮助你分析监视数据:

支持更复杂可视化效果的工具包括:

  • Dashboards,使你能够将不同类型的数据合并到Azure门户中的单个窗格中。
  • Workbooks,可以在Azure门户中创建的可自定义报表。 工作簿可以包括文本、指标和日志查询。
  • Grafana 是一个在运维仪表板方面表现出色的开放平台工具。 可以使用 Grafana 创建仪表板,其中包含来自除Azure Monitor以外的多个源的数据。
  • Power BI,这是一项业务分析服务,用于跨各种数据源提供交互式可视化效果。 可以将Power BI配置为从Azure Monitor自动导入日志数据,以利用这些可视化效果。

导出Azure Monitor数据

可以使用以下方法将数据从Azure Monitor导出到其他工具:

若要开始使用 Azure Monitor REST API,请参阅Azure监视 REST API 演练

使用 Azure Monitor 警报通知您出现的问题

Azure Monitor警报使你能够识别和解决系统中的问题,并在客户注意到它们之前在监视数据中找到特定条件时主动通知你。 可以在Azure Monitor数据平台中针对任何指标或日志数据源发出警报。 有不同类型的 Azure Monitor 警报,根据您正在监视的服务和收集的监视数据而定。 请参阅选择正确的警报规则类型

下表列出了Azure 文件同步的常见和建议警报规则。

Scenario 用于警报的指标
服务器终结点运行状况在门户中显示错误 同步会话结果
文件未能同步到服务器或云终结点 未同步的文件
已注册的服务器未能与存储同步服务进行通信 服务器联机状态
云分层召回大小在一天内超过 500GiB 云分层重调大小

有关Azure资源的常见警报示例,请参阅 Sample 日志警报查询

大规模部署警报系统

对于某些服务,可以通过将相同的指标警报规则应用于同一Azure区域中存在的多个同一类型的资源来大规模监视。 Azure Monitor基线警报(AMBA)提供了一种半自动化的方法,用于大规模实现重要的平台指标警报、仪表板和指南。

警报示例

本部分提供了Azure 文件同步的一些示例警报。

Note

如果创建了警报,但警报导致过多的干扰,请调整阈值和警报逻辑。

若要在门户中服务器终结点健康状况显示错误时创建警报,请执行以下操作:

  1. Azure 门户中,导航到相应的 Storage Sync Service
  2. 转到“监视”部分,然后选择“警报”
  3. 选择“+ 新建警报规则”,以新建警报规则。
  4. 通过单击“选择条件”配置条件。
  5. 配置信号逻辑部分,选择信号名称下的同步会话结果
  6. 选择以下维度配置:
    • 维度名称:服务器端点名称
    • 运算符:=
    • 维度值:所有当前值和未来值
  7. 导航到“警报逻辑”,然后完成以下操作
    • 阈值设置为“静态”
    • 运算符:小于
    • 聚合类型:最大值
    • 阈值:1
    • 计算依据:聚合粒度 = 24 小时 | 计算频率 = 每小时
    • 选择“完成”。
  8. 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中
  9. 填写警报详细信息,例如警报规则名称说明严重性
  10. 选择“创建警报规则”。

若要在文件未能同步到服务器或云终结点时创建警报,请执行以下操作:

  1. Azure 门户中,导航到相应的 Storage Sync Service
  2. 转到“监视”部分,然后选择“警报”
  3. 选择“+ 新建警报规则”,以新建警报规则。
  4. 通过选择“选择条件”配置条件
  5. 配置信号逻辑部分,选择信号名称下的未同步的文件
  6. 选择以下维度配置:
    • 维度名称:服务器端点名称
    • 运算符:=
    • 维度值:所有当前值和未来值
  7. 导航到“警报逻辑”,然后完成以下操作
    • 阈值设置为“静态”
    • 运算符:大于
    • 聚合类型:平均值
    • 阈值:100
    • 评估依据:聚合粒度 = 5 分钟 | 评估频率 = 每 5 分钟
    • 选择“完成”。
  8. 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中
  9. 填写警报详细信息,例如警报规则名称说明严重性
  10. 选择“创建警报规则”。

若要在已注册的服务器未能与存储同步服务进行通信时创建警报,请执行以下操作:

  1. Azure 门户中,导航到相应的 Storage Sync Service
  2. 转到“监视”部分,然后选择“警报”
  3. 选择“+ 新建警报规则”,以新建警报规则。
  4. 通过选择“选择条件”配置条件
  5. 在“配置信号逻辑”部分,选择信号名称下的“服务器联机状态”
  6. 选择以下维度配置:
    • 维度名称:服务器名称
    • 运算符:=
    • 维度值:所有当前值和未来值
  7. 导航到“警报逻辑”,然后完成以下操作
    • 阈值设置为“静态”
    • 运算符:小于
    • 聚合类型:最大值
    • 阈值(字节):1
    • 计算依据:聚合粒度 = 1 小时 | 计算频率 = 每 30 分钟
      • 指标每 15 到 20 分钟发送到Azure Monitor。 请勿将“计算频率”设置为小于 30 分钟,因为这样做将生成错误警报
    • 选择“完成”。
  8. 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中
  9. 填写警报详细信息,例如警报规则名称说明严重性
  10. 选择“创建警报规则”。

若要在云分层召回大小在一天内超过 500 GiB 时创建警报,请执行以下操作:

  1. Azure 门户中,导航到相应的 Storage Sync Service
  2. 转到“监视”部分,然后选择“警报”
  3. 选择“+ 新建警报规则”,以新建警报规则。
  4. 通过选择“选择条件”配置条件
  5. 在“配置信号逻辑”部分,在信号名称中选择“云分层召回大小”
  6. 选择以下维度配置:
    • 维度名称:服务器名称
    • 运算符:=
    • 维度值:所有当前值和未来值
  7. 导航到“警报逻辑”,然后完成以下操作
    • 阈值设置为“静态”
    • 运算符:大于
    • 聚合类型:总计
    • 阈值(字节):67108864000
    • 计算依据:聚合粒度 = 24 小时 | 计算频率 = 每小时
    • 选择“完成”。
  8. 选择“选择操作组”,通过选择现有操作组或创建新的操作组,将一个操作组(电子邮件、短信等)添加到警报中
  9. 填写警报详细信息,例如警报规则名称说明严重性
  10. 选择“创建警报规则”。