共用方式為

了解 Microsoft Purview 数据映射

Microsoft Purview 数据映射为数据发现和数据治理提供了基础。 它捕获存在于混合、本地和多云环境中的分析、软件即服务 (SaaS) 和运营系统中的数据的元数据。 数据映射通过内置的扫描和分类系统保持最新。

所有Microsoft Purview 帐户都有一个数据映射,该映射从一个容量单位开始,并且可以弹性增长。 它们根据请求负载和存储在数据映射中的元数据来扩展和缩减规模。

数据映射容量单位

数据映射包含两个组件:元数据存储和操作吞吐量,以容量单位 (CU) 表示。 默认情况下,所有Microsoft Purview 帐户都从一个容量单位开始,并根据使用情况弹性增长。 每个数据映射容量单位包括 25 个操作/秒的吞吐率和 10 GB 的元数据存储限制。

操作

操作是 Microsoft Purview 数据映射的吞吐量度量。 它们包括对数据地图中存储的元数据执行的任何创建、读取、写入、更新和删除操作。 一些操作的示例包括:

  • 在数据地图中创建资源
  • 向资产添加关系,例如所有者、管家、父级、世系等
  • 编辑资产以添加业务元数据,例如说明、术语表术语等
  • 关键字搜索将结果返回到搜索结果页面

存储

存储是数据映射的第二个组件,包括技术、业务、操作和语义数据元数据的存储。

技术元数据包括Microsoft Purview 扫描 过程发现的架构、数据类型、列等。 业务元数据包括自动化元数据,例如从 Power BI 数据集中提取的元数据或 SQL 表中的描述,以及手动添加标签以标记描述、术语表中的术语等。 语义元数据的示例包括到数据源或分类的集合映射。 作元数据包括数据工厂复制和数据流活动运行状态以及运行时间。

处理数据映射

  • 使用自动缩放的弹性数据映射 - 从数据映射开始,只需一个容量单位,就可以根据负载自动缩放。 对于大多数组织来说,此功能可以提高成本,降低启动数据治理项目的价格。 此功能会影响定价。

  • 增强的扫描和引入 - 在扫描和引入过程中跟踪和控制数据资产、分类和世系的填充。 此功能会影响定价。

方案

Claudia 是 Contoso 的 Azure 管理员,想要从 Azure 门户创建新的 Microsoft Purview 帐户。 她不知道支持平台未来状态所需的 Purview 数据映射大小。 但是,她知道数据映射是使用容量单位计费的,这会影响存储和作吞吐量。 她希望创建最小的数据映射,以保持低成本,并根据使用量弹性增加数据映射大小。

Claudia 可以创建一个 Microsoft Purview 帐户,其默认数据映射大小为一个容量单位,该帐户可自动纵向扩展和缩减。 自动缩放功能还允许根据特定时间段的间歇性或计划内的数据突发来调整处理能力。 Claudia 按照创建体验中的后续步骤设置网络配置并完成创建。

在 Azure 门户的 Microsoft Purview 帐户的“指标”选项卡中,Claudia 可以看到数据映射存储和操作吞吐量的消耗情况。 当存储或作吞吐量达到特定限制时,她可以进一步设置警报,以监视新 Microsoft Purview 帐户的消耗和计费。

数据映射计费

需要支付一个容量单位 (25 个作/秒和 10 GB) 。 额外计费基于每小时汇总的每个额外容量单位的消耗量。 数据映射作以 25 个作/秒为增量缩放,元数据存储以 10 GB 为增量缩放。 数据映射可以在弹性窗口中自动纵向扩展和缩减, (检查当前限制) 。 但是,若要获得下一级别的弹性窗口,需要创建支持票证。

数据映射容量单位对作吞吐量和存储具有上限。 如果存储超过当前容量单位,即使不使用作吞吐量,也会为下一个容量单位付费。 下表显示了数据映射容量单位范围。 如果数据映射容量单位超过 100 个容量单位,请联系支持人员。

数据映射容量单位 吞吐量(操作次数/秒) 存储容量(以 GB 为单位)
1 二十五 10
2 50 20
3 75 30
4 100 40
5 125 50
6 150 六十
7 175 70
8 200 80
9 225 90
10 250 100
100 2500 1000

计费示例

  • 给定小时的数据映射的作吞吐量小于或等于 25 个作/秒,存储大小为 1 GB。 你为一个容量单位付费。

  • 数据映射给定小时的作吞吐量小于或等于 25 个作/秒,存储大小为 15 GB。 你为两个容量单位付费。

  • 给定小时的数据映射作吞吐量为 50 个作/秒,存储大小为 15 GB。 你为两个容量单位付费。

  • 给定小时的数据映射作吞吐量为 50 个作/秒,存储大小为 25 GB。 你为三个容量单位付费。

  • 给定小时的数据映射的作吞吐量为 250 个作/秒,存储大小为 15 GB。 你为 10 个容量单位付费。

详细计费示例

数据映射计费示例显示了一个数据映射,在从中午 12 点到晚上 6 点的 6 小时时段内,元数据存储量和每秒操作次数波动都在增加。 图中的红线是每秒作消耗量,蓝色虚线是此 6 小时时段内的元数据存储消耗:

显示操作次数和元数据随时间增长情况的图表。

每个数据映射容量单位支持每秒 25 个作和 10 GB 的元数据存储。 数据映射按小时计费。 计费过程考虑一小时内所需的最大数据映射容量单位,并且至少有一个容量单位。 有时,可能需要在一小时内每秒执行更多作,而更多作会增加该小时内所需的容量单位数。 在其他情况下,每秒作使用量可能较低,但可能仍需要大量的元数据存储。 元数据存储确定在一小时内所需的容量单位数。

下表显示此计费示例每小时使用的最大作数和元数据存储:

描述一段时间内元数据的最大作数和增长情况的表。

根据此期间每秒的数据映射作数和元数据存储消耗量,此数据映射在此 6 小时内按 22 个容量单位小时计费, (1 + 3 + 4 + 5 + 6 + 3) :

该表描绘了一段时间内的 CU 小时数。

重要

数据映射可以在弹性窗口中自动纵向扩展和缩减, (检查当前限制) 。 若要获取弹性窗口的下一级别,请创建支持票证。

提高操作吞吐量限制

每秒允许的最大操作数的默认限制为 10 个容量单位。 如果使用的是大型 Microsoft Purview 环境,并且需要更高的吞吐量,可以通过 创建配额请求来请求更大的弹性窗口容量。 选择“ 数据映射容量单位 ”作为配额类型。 尽可能多地提供有关环境和所需额外容量的相关信息。

重要

元数据存储没有默认限制。 向数据地图添加更多元数据时,数据地图会弹性扩展。

提高作吞吐量限制时,还会增加最小容量单位数。 例如,如果将吞吐量限制提高到 20,则至少支付 2 个容量单位的费用。 下表显示了可能的吞吐量选项。 在配额请求中输入的数字是帐户上的最小容量单位数。

最小容量单位 操作吞吐量限制
1 10 (默认)
2 20
3 30
4 40
5 50
6 六十
7 70
8 80
9 90
10 100

监视数据映射

可以监视指标 数据映射容量单位 和数据 映射存储大小 ,以便了解数据资产大小和计费。

  1. 转到 Azure 门户,导航到 “Microsoft Purview 帐户 ”页,然后选择 Purview 帐户

  2. 选择“概述”并向下滚动以观察不同时间段内数据映射容量单位和数据映射存储大小指标的“监视”部分

    显示弹性数据映射指标概述页的菜单的屏幕截图。

  3. 对于其他设置,请导航到 “监视”--“> 指标 ”以观察 数据映射容量单位 和数据 映射存储大小

    显示指标的菜单的屏幕截图。

  4. 选择 “数据映射容量单位 ”以查看过去 24 小时内的容量单位使用情况。 请注意,将鼠标悬停在折线图上会指示特定日期的特定时间使用的数据映射容量单位数。

    菜单的屏幕截图,显示 24 小时内所消耗的数据映射容量单位。

  5. 选择位于屏幕右上角的本地时间:过去 24 小时(自动 - 1 小时),以修改图表显示的时间范围。

    菜单的屏幕截图显示了自定义时间范围内消耗的数据地图容量单位。

    菜单的屏幕截图,显示三天时间范围内消耗的数据地图容量单位。

  6. 通过选择选项自定义图形类型:

    显示用于修改图形类型的选项的菜单的屏幕截图。

  7. 选择“新建图表”以添加“数据映射存储大小”图表的图形

    显示所用数据映射存储大小的菜单的屏幕截图。

摘要

数据映射为客户提供了一个低成本的障碍来开始其数据治理之旅。 数据映射可以弹性增长,即用即付模型从一个容量单位开始。 无需担心在创建时为数据资产选择正确的数据映射大小。

后续步骤