Microsoft Purview 中的弹性数据映射

Microsoft Purview 数据映射为数据发现和数据治理奠定了基础。 它可以捕获混合、本地和多云环境中的分析、软件即服务 (SaaS) 和操作系统上存在的数据的相关元数据。 数据映射会通过其内置扫描和分类系统掌握最新动态。

所有 Microsoft Purview 帐户都有一个弹性增长的数据映射,其起始大小为一个容量单位。 它们根据数据映射中存储的请求负载和元数据进行纵向扩展和缩减。

数据映射容量单位

弹性数据映射有两个组件:元数据存储和操作吞吐量,以容量单位 (CU) 表示。 默认情况下,所有 Microsoft Purview 帐户一开始都有一个容量单位,可根据使用情况弹性增长。 每个数据映射容量单位的吞吐量限制为每秒 25 次操作,元数据存储限制为 10 GB。

Operations

操作是 Microsoft Purview 数据映射的吞吐量度量。 它们包括对数据映射中存储的元数据执行的任何创建、读取、写入、更新和删除操作。 一些操作示例:

  • 在数据映射中创建资产
  • 为资产添加关系,例如所有者、专员、父级、世系等。
  • 编辑资产以添加业务元数据,例如说明、术语表术语等。
  • 在搜索结果页中返回结果的关键字搜索。

存储

存储是数据映射的第二个组件,包括技术、业务、操作和语义元数据的存储。

技术元数据包括在 Microsoft Purview 扫描期间发现的架构、数据类型、列等。 业务元数据包括说明、术语表术语等项的自动(例如,从 Power BI 数据集提升的内容,或 SQL 表中的说明)和手动标记。 语义元数据的例子包括集合到数据源或分类的映射。 操作元数据包括数据工厂复制和数据流活动运行状态以及运行时间。

使用弹性数据映射

  • 可自动缩放的弹性数据映射 - 可以从低至一个容量单位,但可以基于负载自动缩放的数据映射开始。 对于大多数组织而言,此功能可以实现更大的节省,同时还能以较低的价格启动数据治理项目。 此功能影响定价。

  • 增强的扫描和引入 - 可以在扫描和引入过程中跟踪并控制数据资产的填充、分类与世系。 此功能影响定价。

方案

Claudia 是 Contoso 的 Azure 管理员,她想要通过 Azure 门户创建一个新的 Microsoft Purview 帐户。 她并不知道为了支持平台的将来状态而需要的 Microsoft Purview 数据映射大小。 但她知道,Microsoft Purview 数据映射是按容量单位计费的,这种计费方式受存储和操作吞吐量的影响。 她想要创建最小的数据映射以保持较低的成本,并使数据映射大小根据使用情况弹性增长。

Claudia 可以创建一个 Microsoft Purview 帐户,其默认数据映射大小为一个容量单位,并且映射大小可自动纵向扩展和缩减。 自动缩放功能还允许根据特定时段内的间歇性或计划内数据突发来调整容量。 Claudia 遵循创建体验中的后续步骤设置网络配置并完成创建。

在 Azure 门户,Microsoft Purview 帐户的指标选项卡中,Claudia 可以看到“数据映射”存储和操作吞吐量的消耗情况。 她可以进一步设置要在存储或操作吞吐量达到特定的限制时发出的警报,以监视新 Microsoft Purview 帐户的消耗量和计费情况。

数据映射计费

客户按一个容量单位(每秒 25 次操作和 10 GB)付费,额外的费用按照一小时内累积额外消耗的每一容量单位计收。 数据映射操作以每秒 25 次操作为增量缩放,元数据存储以 10 GB 大小为增量缩放。 Microsoft Purview 数据映射可以在弹性窗口内自动纵向扩展和缩减(查看当前限制)。 但是,若要获取下一个级别的弹性窗口,需要创建支持票证。

数据映射容量单位的操作吞吐量和存储有上限。 如果存储超过当前容量单位,则即使未使用操作吞吐量,也会向客户收取下一个容量单位的费用。 下表显示了数据映射容量单位范围。 如果数据映射容量单位的数量超过 100,请联系支持人员。

数据映射容量单位 吞吐量(操作次数/秒) 存储容量 (GB)
1 25 10
2 50 20
3 75 30
4 100 40
5 125 50
6 150 60
7 175 70
8 200 80
9 225 90
10 250 100
.. .. ..
100 2500 1000

计费示例

  • 给定小时内的 Microsoft Purview 数据映射操作吞吐量小于或等于 25 次操作/秒,并且存储大小为 1 GB。 将向客户计收一个容量单位的费用。

  • 给定小时内的 Microsoft Purview 数据映射操作吞吐量小于或等于 25 次操作/秒,并且存储大小为 15 GB。 将向客户计收两个容量单位的费用。

  • 给定小时内的 Microsoft Purview 数据映射操作吞吐量为 50 次操作/秒,并且存储大小为 15 GB。 将向客户计收两个容量单位的费用。

  • 给定小时内的 Microsoft Purview 数据映射操作吞吐量为 50 次操作/秒,并且存储大小为 25 GB。 将向客户计收三个容量单位的费用。

  • 给定小时内的 Microsoft Purview 数据映射操作吞吐量为 250 次操作/秒,并且存储大小为 15 GB。 将向客户计收 10 个容量单位的费用。

详细计费示例

数据映射示例显示了从中午 12 点到下午 6 点的六小时时段内,元数据存储消耗量不断增长且每秒操作次数可变的数据映射。 图中的红线表示此六小时时段内的每秒操作次数消耗量,蓝色虚线表示元数据存储消耗量:

Chart depicting number of operations and growth of metadata over time.

每个数据映射容量单位支持每秒 25 次操作和 10 GB 元数据存储。 数据映射按小时计费。 计费方式是按一小时内所需的最大数据映射容量单位计费,不足一单位容量以一单位容量计。 有时,你可能需要在一小时内每秒完成更多次的操作,这就会增加该小时内所需的容量单位数。 而有时,每秒操作次数使用量可能较低,但仍然需要大量的元数据存储。 一小时内所需的容量单位数是由元数据存储决定的。

此表显示了此计费示例中每小时使用的每秒最大操作次数和元数据存储:

Table depicting max number of operations and growth of metadata over time.

根据此时段内数据映射每秒操作次数和元数据存储的消耗量,在此六小时时段内,将按 22 个容量单位小时数 (1 + 3 + 4 + 5 + 6 + 3) 计收此数据映射的费用:

Table depicting number of CU hours over time.

重要

Microsoft Purview 数据映射可以在弹性窗口内自动纵向扩展和缩减(查看当前限制)。 若要获取下一个级别的弹性窗口,需要创建支持票证。

提高操作吞吐量限制

每秒最大操作数的默认限制为 10 个容量单位。 如果使用大型的 Microsoft Purview 环境,需要更高的吞吐量,则可以通过创建配额请求来请求更大的弹性窗口容量。 选择“数据映射容量单位”作为配额类型。 尽可能多地提供有关你的环境的信息,以及你希望请求的额外容量。

重要

元数据存储没有默认限制。 向数据映射添加更多元数据时,它会弹性增加。

提高操作吞吐量限制也能增加容量单位的最小数目。 如果将吞吐量限制增大到 20,则收费的最小容量单位数为 2 个 CU。 下表说明了可能的吞吐量选项。 在配额请求中输入的数字是帐户上的最小容量单位数。

最小容量单位数 操作吞吐量限制
1 10(默认值)
2 20
3 30
4 40
5 50
6 60
7 70
8 80
9 90
10 100

监视弹性数据映射

可以监视指标数据映射容量单位和数据映射存储大小,以了解数据资产大小和计费 。

  1. 转到 Azure 门户,导航到“Microsoft Purview 帐户”页并选择你的 Microsoft Purview 帐户

  2. 选择“概述”并向下滚动,以在“监视”部分中观察不同时间段的“数据映射容量单位”和“数据映射存储大小”指标

    Screenshot of the menu showing the elastic data map metrics overview page.

  3. 若要查看其他设置,请导航到“监视 -> 指标”以观察“数据映射容量单位”和“数据映射存储大小”。

    Screenshot of the menu showing the metrics.

  4. 选择“数据映射容量单位”查看过去 24 小时的数据映射容量单位使用量。 请注意,将鼠标悬停在折线图上会指示特定日期的特定时间使用的数据映射容量单位数。

    Screenshot of the menu showing the data map capacity units consumed over 24 hours.

  5. 选择屏幕右上方的“本地时间: 过去 24 小时(自动 - 1 小时)”以修改图形显示的时间范围。

    Screenshot of the menu showing the data map capacity units consumed over a custom time range.

    Screenshot of the menu showing the data map capacity units consumed over a three day time range.

  6. 选择该选项来自定义图形类型:

    Screenshot of the menu showing the options to modify the graph type.

  7. 选择“新建图表”以添加“数据映射存储大小”图表的图形。

    Screenshot of the menu showing the data map storage size used.

总结

Microsoft Purview 通过弹性数据映射为客户提供低成本的解决方案,让客户不受阻碍地开启数据治理历程。 Microsoft Purview 数据映射可以从低至一个容量单位的大小开始按照即用即付模式弹性增长。 客户在创建时不用担心为其数据资产选择的“数据映射”大小是否合适。

后续步骤