了解资源集
本文帮助你了解 Microsoft Purview 如何使用资源集将数据资产映射到逻辑资源。
背景信息
大规模数据处理系统通常将单个表作为多个文件存储在存储中。 在 Microsoft Purview 数据目录中,此概念是使用资源集表示的。 资源集是目录中的单个对象,表示存储中的大量资产。
例如,假设 Spark 群集在 Azure Data Lake Storage (ADLS) Gen2 数据源中持久保存某个数据帧。 虽然 Spark 中的表看似是单个逻辑资源,但在磁盘上可能有数千个 Parquet 文件,其中每个文件代表数据帧总体内容的一个分区。 IoT 数据和 Web 日志数据也存在相同的难题。 假设某个传感器每秒会多次输出日志文件。 不久之后,这一个传感器就会输出几十万个日志文件。
Microsoft Purview 如何检测资源集
Microsoft Purview 支持检测 Azure Blob 存储、ADLS Gen1、ADLS Gen2 和 Azure 文件存储中的资源集。
扫描时,Microsoft Purview 会自动检测资源集。 此功能通过扫描查看引入的所有数据,并将其与一组定义的模式进行比较。
例如,假设你在扫描一个 URL 为 https://myaccount.blob.core.chinacloudapi.cn/mycontainer/machinesets/23/foo.parquet
的数据源。 Microsoft Purview 将查看路径段,并确定它们是否与任何内置模式相匹配。 Azure Purview 包含针对 GUID、数字、日期格式、本地化代码(例如 en-us)等的内置模式。 在本例中,数字模式匹配 23。 Microsoft Purview 假设此文件是名为 https://myaccount.blob.core.chinacloudapi.cn/mycontainer/machinesets/{N}/foo.parquet
的资源集的一部分。
或者,对于类似于 https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/en_au/23.json
的 URL,Microsoft Purview 将匹配本地化模式和数字模式,并生成名为 https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/{LOC}/{N}.json
的资源集。
Microsoft Purview 使用此策略将以下资源映射到同一资源集 https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/{LOC}/{N}.json
:
https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.chinacloudapi.cn/mycontainer/weblogs/de_Ch/23434.json
Microsoft Purview 不会检测为资源集的文件类型
Microsoft Purview 有意不将 Word、Excel 或 PDF 等大多数文档文件类型分类为资源集。 例外的格式是 CSV,因为它是常用的分区文件格式。
Microsoft Purview 如何扫描资源集
当 Microsoft Purview 检测到它认为是资源集一部分的资源时,将从完全扫描切换到样本扫描。 样本扫描只会打开它认为位于资源集中的文件子集。 对于打开的每个文件,它将使用该文件的架构并运行其分类器。 然后,Microsoft Purview 在打开的资源中查找最新的资源,并在目录中整个资源集的条目中使用该资源的架构和分类。
高级资源集
Microsoft Purview 可以通过“高级资源集”功能来自定义并进一步扩充资源集资产。 高级资源集允许 Microsoft Purview 了解引入的数据的基础分区,并允许创建资源集模式规则,以自定义 Microsoft Purview 在扫描期间如何对资源集进行分组。
启用高级资源集后,Microsoft Purview 将运行额外的聚合来计算有关资源集资产的以下信息:
- 构成资源集的文件中的样本路径。
- 分区计数,显示构成资源集的文件数。
- 构成资源集的所有文件的总大小。
可以在资源集的资产详细信息页上找到这些属性。
打开高级资源集
在所有新的 Microsoft Purview 实例中,高级资源集默认处于关闭状态。 可以从管理中心的“帐户信息”启用高级资源集。 只有在根集合中拥有“数据管护者”角色的那些用户才能管理高级资源集设置。
启用高级资源集后,将在所有新引入的资产上进行额外的扩充。 引入后,这些扩充最长可能需要 12 小时才能在资产上可用。 Microsoft Purview 团队建议在打开该功能后,先等待一小时再扫描新的数据湖数据。
重要
启用高级资源集会影响资产和分类见解的刷新频率。 打开高级资源集后,资产和分类见解每天只会更新两次。
此外,如果已启用高级资源集,则最长可能需要 12 小时才能看到架构更新。
内置资源集模式
Microsoft Purview 支持以下资源集模式。 这些模式可能显示为目录中的某个名称,也可能显示为文件名的一部分。
基于正则表达式的模式
模式名称 | 显示名称 | 说明 |
---|---|---|
GUID | {GUID} | RFC 4122 中定义的全局唯一标识符 |
Number | {N} | 一个或多个数字 |
日期/时间格式 | {Year}{Month}{Day}{N} | 我们支持各种日期/时间格式,但所有格式采用 {Year}[delimiter]{Month}[delimiter]{Day} 或 {N} 系列表示形式。 |
4ByteHex | {HEX} | 一个 4 位数的十六进制数。 |
本地化 | {LOC} | BCP 47 中定义的语言标记,- 和 _ 名称均受支持(例如 en_ca 和 en-ca) |
复杂模式
模式名称 | 显示名称 | 说明 |
---|---|---|
SparkPath | {SparkPartitions} | Spark 分区文件标识符 |
Date(yyyy/mm/dd)InPath | {Year}/{Month}/{Day} | 跨多个文件夹的年/月/日模式 |
资源集在 Microsoft Purview 数据目录中的显示方式
当 Microsoft Purview 在资源集中匹配一组资产时,它会尝试提取最有用的信息用作目录中的显示名称。 应用默认命名约定的一些示例:
示例 1
限定名称:https://myblob.blob.core.chinacloudapi.cn/sample-data/name-of-spark-output/{SparkPartitions}
显示名称:“spark output name”
示例 2
限定名称:https://myblob.blob.core.chinacloudapi.cn/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
显示名称:“my partitioned data”
示例 3
限定名称:https://myblob.blob.core.chinacloudapi.cn/sample-data/data{N}.csv
显示名称:“data”
使用模式规则自定义资源集分组
扫描存储帐户时,Microsoft Purview 使用一组定义的模式来确定一组资产是否为资源集。 在某些情况下,Microsoft Purview 的资源集分组可能无法准确反映数据资产。 这些问题可能包括:
- 错误地将资产标记为资源集
- 将资产放入错误的资源集
- 错误地将资产标记为不是资源集
若要自定义或替代 Microsoft Purview 检测哪些资源可分组为资源集的方式,以及其在目录中的显示方式,你可以在管理中心定义模式规则。 有关分步说明和语法,请参阅资源集模式规则。
资源集的已知限制
- 默认情况下,仅当启用高级资源集时,资源集资产才会被扫描删除。 如果此功能已关闭,则只能手动或通过 API 删除资源集资产。
后续步骤
若要开始使用 Microsoft Purview,请参阅快速入门:创建 Microsoft Purview 帐户。