Microsoft Purview 数据映射中的定价

本指南介绍 Microsoft Purview 治理门户中数据映射的定价指南。

有关 Microsoft Purview (即以前的 Azure Purview)的完整定价指南详细信息,请参阅 定价指南概述。

有关特定价格详细信息,请参阅 Microsoft Purview(即以前的 Azure Purview)定价页。 本文将指导你了解影响 Microsoft Purview 数据映射定价的功能和因素。

直接成本会通过以下三个维度影响 Microsoft Purview 数据映射的定价:

弹性数据映射

  • 数据映射是 Microsoft Purview 治理门户体系结构的基础,因此需要与任何给定点数据资产中的资产信息保持同步

  • 根据容量单位 (CU) 对数据映射实施收费。 如果目录存储的元数据存储多达 10 GB,且每秒最多可提供 25 个数据映射操作,则会在一个 CU 上预配数据映射

  • 首次创建帐户时,会始终在一个 CU 上预配数据映射

  • 但是,数据映射会自动在此弹性时段的下限和上限之间缩放,以满足数据映射中发生的更改,这些更改涉及两个关键因素:操作吞吐量和元数据存储

操作吞吐量

  • 基于对数据映射执行创建、读取、更新、删除操作的事件驱动因素
  • 数据映射操作的一些示例包括:
    • 在数据映射中创建资产
    • 为资产添加关系,例如所有者、专员、父级、世系等
    • 编辑资产以添加业务元数据,例如说明、术语表术语等
    • 在搜索结果页中返回结果的关键字搜索
    • 使用 API 导入或导出信息
  • 如果在数据映射上执行多个查询,则 I/O 操作的数量也会增加,进而增加数据映射
  • 并发用户的数量也是治理数据映射容量单位的因素
  • 其他需考虑的因素包括搜索查询的类型、API 交互、工作流、审批等
  • 数据突发级别
    • 如果需要增加更多每秒操作的吞吐量,数据映射即可在弹性时段中自动缩放,以满足已更改的负载
    • 此级别构成了需要估计和计划的突发特征
    • 突发特征由突发级别和存在突发的突发持续时间组成
      • 突发级别是在稳定状态下预期弹性一致的乘法索引
      • 突发持续时间是由于元数据增长或数据映射上的操作数量增加而预期发生此类突发(弹性)的月份所占的比例

元数据存储

  • 如果数据资产中的资产数量减少,然后在后续的增量扫描中遭删除,则存储组件会自动减少,数据映射会因此减少

自动化扫描、分类和引入

有两个主要的自动过程可以触发元数据到 Microsoft Purview 数据映射的引入:

  • 使用本机连接器自动扫描。 此过程包括三个主要步骤:

    • 元数据扫描
    • 自动分类
    • 将元数据引入 Microsoft Purview 数据映射
  • 使用 Azure 数据工厂和/或 Azure Synapse 管道自动引入。 此过程包括:

    • 如果帐户连接到任何 Azure 数据工厂或 Azure Synapse 管道,则元数据和世系会引入到 Microsoft Purview 数据映射中。

使用本机连接器自动扫描

  • 完全扫描会处理选定的数据源范围内的所有资产,而增量扫描则会检测并处理自上次成功扫描后创建、修改或删除的资产

  • 所有扫描(完全或增量扫描)都将选取已更新、修改或删除的资产

  • 当属于不同部门的多个人员或组为同一数据源设置扫描,导致因重复扫描而支付额外费用时,考虑和避免出现这种情况便十分重要

  • 完成初始完全扫描后,计划频繁的增量扫描,以便与数据资产中的更改保持一致。 此操作将确保数据映射始终保持最新状态,且增量扫描会耗费比完全扫描更少的虚拟核心时间

  • 数据源的“查看详细信息”链接可让用户运行完全扫描。 但是,请考虑在完全扫描后执行增量扫描,以便获取优化的扫描结果(更改扫描规则集(例如分类或文件类型)除外)

  • 在父集合中注册数据源,并通过不同的访问控制在子集合上确定范围扫描,以确保没有执行重复的扫描

  • 使用集合授权限制某些用户,使其无法再通过精细访问控制和“数据源管理员”角色注册用于扫描的数据源。 此操作将确保只允许注册有效数据源,并对扫描虚拟核心时间进行控制,从而降低扫描成本

  • 请考虑正在扫描的数据源类型和资产数量对扫描持续时间的影响

  • 创建自定义扫描规则集,使其只包含数据区域中可用文件类型的子集,以及与业务要求相关的分类,以确保可以充分使用扫描程序

  • 为数据源创建新扫描时,请在实际运行扫描之前遵循建议的准备顺序。 其中包括收集适用于业务特定分类和文件类型(适用于存储帐户)的要求,以实现定义相应的扫描规则集,从而避免多次扫描并控制因缺少要求而进行多次扫描所致的不必要成本

  • 将扫描计划数量与自承载集成运行时 (SHIR) 虚拟机 (VM) 数量保持一致,以避免与虚拟机关联时产生额外成本

使用 Azure 数据工厂和/或 Azure Synapse 管道进行自动引入

  • 每次在源系统中运行管道时,元数据和世系都从 Azure 数据工厂或 Azure Synapse 管道引入。

高级资源集

  • Microsoft Purview 数据映射使用资源集解决将大量数据资产映射到单个逻辑资源的难题,具体方法为提供扫描数据湖中的所有文件并查找模式(GUID、本地化模式等)的能力,以将这些文件作为数据映射中的单个资产进行分组

  • “高级资源集”是一项可选功能,可让客户计算丰富的资源集信息(如总大小、分区计数等),并通过模式规则启用自定义资源集分组。 如果未启用高级资源集功能,则数据目录仍将包含资源集资产,但不含聚合属性。 在这种情况下,不会对客户的“资源集”计量收费。

  • 使用基本资源集功能,然后再开启 Microsoft Purview 数据映射中的“高级资源集”,验证是否满足要求

  • 出现以下情况时,请考虑打开高级资源集:

    • 数据湖架构不断变化,并且正在寻找除基本资源集功能之外的更多值,以使 Microsoft Purview 数据映射能够以服务的方式计算参数(例如 #partitions、数据资产的大小等)
    • 需要自定义资源集资产分组的方法。
  • 请务必注意,对高级资源集的计费基于脱机层用于聚合资源集信息的计算,且取决于目录中的资源集的大小/数量

后续步骤