资产规范化

将资产引入 Microsoft Purview 数据映射时,更新同一数据资产的不同源可能会发送类似但略有不同的限定名称。 虽然这些限定名称代表同一资产,但细微差异(例如额外字符)可能导致这些资产表面上不同,并导致 Microsoft Purview 中出现重复条目。 为了避免在使用数据目录时存储重复的条目并造成混淆,Microsoft Purview 在引入过程中自动应用规范化,以确保同一实体类型的所有完全限定名称采用相同的格式。

例如,假设你在限定名称为 https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/my-file.parquet 的 Azure Blob 中进行扫描。 此 Blob 也由某个 Azure 数据工厂管道使用,而后者随后将在资产中添加世系信息。 ADF(Azure 数据工厂)管道可配置为将文件作为 https://myAccount.file.core.chinacloudapi.cn//myshare/folderA/folderB/my-file.parquet 读取。 虽然限定名称不同,但此 ADF 管道使用的是同一个数据片段。 规范化可确保 Azure Blob 存储和 Azure 数据工厂中的所有元数据均在单个资产 https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/my-file.parquet 上可见。

重要

下面列出的规则是 Microsoft Purview 当前可识别的唯一潜在重复类型。 如果遇到意外资产重复,请比较资产的完全限定名称,检查是否存在大小写差异或额外字符。 更新任何引入点(例如 ADF 管道),使限定名称匹配。

规范化规则

这些是 Microsoft Purview 自动应用的规范化规则。

对大括号进行编码

适用于:所有资产

之前: https://myaccount.file.core.chinacloudapi.cn/myshare/{folderA}/folder{B/

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/%7BfolderA%7D/folder%7BB/

剪裁节中的空格

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享

之前: https://myaccount.file.core.chinacloudapi.cn/myshare/ folder A/folderB /

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folder A/folderB/

删除主机名中的空格

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享、Amazon S3

之前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/

删除方括号

适用于:Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池

之前: mssql://foo.database.chinacloudapi.cn/[bar]/dbo/[foo bar]

之后: mssql://foo.database.chinacloudapi.cn/bar/dbo/foo%20bar

注意

将对两个方括号之间的空格进行编码

小写方案

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

之前: HTTPS://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/

小写主机名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3

之前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/

小写文件扩展名

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3

之前: https://myAccount.file.core.chinacloudapi.cn/myshare/folderA/data.TXT

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/data.txt

删除重复的斜杠

适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享、Amazon S3

之前: https://myAccount.file.core.chinacloudapi.cn//myshare/folderA////folderB/

之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/

转换为 ADL 方案

适用于:Azure Data Lake Storage Gen1

之前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

之后: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv

删除尾随斜杠

从 Azure Blob、ADLS Gen1 和 ADLS Gen2 的更高级别资产中删除尾随斜杠。

适用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2

资产类型:“azure_blob_container”、“azure_blob_service”、“azure_storage_account”、“azure_datalake_gen2_service”、“azure_datalake_gen2_filesystem”、“azure_datalake_gen1_account”。

之前: https://myaccount.core.chinacloudapi.cn/

之后: https://myaccount.core.chinacloudapi.cn

疑难解答

如果数据未规范化,并且你遇到意外资产重复,请比较资产的完全限定名称,检查是否存在大小写差异或额外字符。

上面列出的规则是 Microsoft Purview 当前可识别的唯一重复类型。 如果数据不在这些规则范围内,更新任何引入点(例如 ADF 管道),使限定名称匹配。

如果资产符合规则但未规范化,联系支持人员

后续步骤

在 Microsoft Purview 数据映射的 Azure Blob 存储帐户中扫描