资产规范化
将资产引入 Microsoft Purview 数据映射时,更新同一数据资产的不同源可能会发送类似但略有不同的限定名称。 虽然这些限定名称代表同一资产,但细微差异(例如额外字符)可能导致这些资产表面上不同,并导致 Microsoft Purview 中出现重复条目。 为了避免在使用数据目录时存储重复的条目并造成混淆,Microsoft Purview 在引入过程中自动应用规范化,以确保同一实体类型的所有完全限定名称采用相同的格式。
例如,假设你在限定名称为 https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/my-file.parquet
的 Azure Blob 中进行扫描。 此 Blob 也由某个 Azure 数据工厂管道使用,而后者随后将在资产中添加世系信息。 ADF(Azure 数据工厂)管道可配置为将文件作为 https://myAccount.file.core.chinacloudapi.cn//myshare/folderA/folderB/my-file.parquet
读取。 虽然限定名称不同,但此 ADF 管道使用的是同一个数据片段。 规范化可确保 Azure Blob 存储和 Azure 数据工厂中的所有元数据均在单个资产 https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/my-file.parquet
上可见。
重要
下面列出的规则是 Microsoft Purview 当前可识别的唯一潜在重复类型。 如果遇到意外资产重复,请比较资产的完全限定名称,检查是否存在大小写差异或额外字符。 更新任何引入点(例如 ADF 管道),使限定名称匹配。
规范化规则
这些是 Microsoft Purview 自动应用的规范化规则。
对大括号进行编码
适用于:所有资产
之前: https://myaccount.file.core.chinacloudapi.cn/myshare/{folderA}/folder{B/
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/%7BfolderA%7D/folder%7BB/
剪裁节中的空格
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享
之前: https://myaccount.file.core.chinacloudapi.cn/myshare/ folder A/folderB /
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folder A/folderB/
删除主机名中的空格
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享、Amazon S3
之前: https://myaccount .file. core.win dows. net/myshare/folderA/folderB/
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/
删除方括号
适用于:Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池
之前: mssql://foo.database.chinacloudapi.cn/[bar]/dbo/[foo bar]
之后: mssql://foo.database.chinacloudapi.cn/bar/dbo/foo%20bar
注意
将对两个方括号之间的空格进行编码
小写方案
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3
之前: HTTPS://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/
小写主机名
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Amazon S3
之前: https://myAccount.file.Core.Windows.net/myshare/folderA/folderB/
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/
小写文件扩展名
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Amazon S3
之前: https://myAccount.file.core.chinacloudapi.cn/myshare/folderA/data.TXT
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/data.txt
删除重复的斜杠
适用于:Azure Blob、Azure 文件存储、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure 数据工厂、Azure SQL 数据库、Azure SQL 托管实例、Azure SQL 池、Azure Cosmos DB、Azure 认知搜索、Azure 数据资源管理器、Azure 数据共享、Amazon S3
之前: https://myAccount.file.core.chinacloudapi.cn//myshare/folderA////folderB/
之后: https://myaccount.file.core.chinacloudapi.cn/myshare/folderA/folderB/
转换为 ADL 方案
适用于:Azure Data Lake Storage Gen1
之前: https://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
之后: adl://mystore.azuredatalakestore.net/folderA/folderB/abc.csv
删除尾随斜杠
从 Azure Blob、ADLS Gen1 和 ADLS Gen2 的更高级别资产中删除尾随斜杠。
适用于:Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2
资产类型:“azure_blob_container”、“azure_blob_service”、“azure_storage_account”、“azure_datalake_gen2_service”、“azure_datalake_gen2_filesystem”、“azure_datalake_gen1_account”。
之前: https://myaccount.core.chinacloudapi.cn/
之后: https://myaccount.core.chinacloudapi.cn
疑难解答
如果数据未规范化,并且你遇到意外资产重复,请比较资产的完全限定名称,检查是否存在大小写差异或额外字符。
上面列出的规则是 Microsoft Purview 当前可识别的唯一重复类型。 如果数据不在这些规则范围内,更新任何引入点(例如 ADF 管道),使限定名称匹配。
如果资产符合规则但未规范化,联系支持人员。