支持的数据源和文件类型

本文目前讨论 Microsoft Purview 数据映射中支持的数据源、文件类型和扫描概念。

Microsoft Purview 数据映射的可用数据源

下表显示了 Microsoft Purview 中提供技术元数据的所有源。 选择数据源类型以了解更多信息。 该表还列出了每个数据源支持的其他功能,你可以选择相应功能以获取更多信息。

类别 支持的数据存储 分类 实时视图 沿袭 标记 策略 数据共享
Azure 多个源 受限 源依赖
Azure Blob 存储 受限制* 是(预览版)
Azure Cosmos DB (API for NoSQL) 否* No
Azure 数据资源管理器 否* No
Azure 数据工厂 No No
Azure Data Lake Storage Gen1 受限制* No
Azure Data Lake Storage Gen2 受限制* 是(预览版)
Azure Database for MySQL 否* No
Azure Database for PostgreSQL 否* No
Azure Databricks Hive 元存储 No No
Azure Databricks Unity Catalog No No No
Azure 专用 SQL 池(以前称为 SQL DW) 否* No
Azure 文件 受限制* No
Azure 机器学习 No No
Azure SQL 数据库 是(预览版)
Azure SQL 托管实例 否*
Azure Synapse Analytics(工作区) 是 - Synapse 管道 No
服务和应用 Airflow No No
Fabric No
Power BI 是** No

* 除了数据源内资产上的世系外,如果数据集用作数据工厂Synapse 管道中的源/接收器,则也支持世系。

* Fabric 租户中的 Power BI 项可使用实时视图访问。

注意

目前,Microsoft Purview 数据映射无法扫描名称中包含 /\# 的资产。 若要确定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用注册和扫描 Azure SQL 数据库中的示例。

重要

如果打算使用自承载集成运行时,扫描某些数据源需要在自承载集成运行时计算机上进行其他设置。 例如,JDK、Visual C++ Redistributable 或特定驱动程序。 对于源,请参阅每篇源文章来了解先决条件详细信息。任何要求将在“先决条件”部分列出。

扫描区域

下面是运行 Microsoft Purview 数据映射扫描程序的所有 Azure 数据源(数据中心)区域的列表。 如果 Azure 数据源位于此列表之外的区域,扫描程序将在 Microsoft Purview 实例的区域中运行。

Microsoft Purview 数据映射扫描程序区域

  • 中国北部 3

支持扫描的文件类型

以下文件类型支持扫描,以便进行架构提取和分类(如果适用):

  • 扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级别分类:AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
  • 扩展支持的文档文件格式包括扫描和资产级别分类:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPS、PPSX、PPT、PPTM、PPTX、XLC、XLS、XLSB、XLSM、XLSX、XLT
  • Microsoft Purview 数据映射还支持自定义文件扩展名和自定义分析程序

注意

已知限制:

  • Azure Pureview 数据映射扫描程序仅支持对上面列出的结构化文件类型进行架构提取。
  • 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持对包含复杂数据类型(例如 MAP、LIST、STRUCT)的文件进行架构提取。
  • 扫描程序支持扫描对齐压缩的 PARQUET 文件类型,以进行架构提取和分类。
  • 对于 GZIP 文件类型,GZIP 必须映射到其中的单个 csv 文件。 Gzip 文件受系统和自定义分类规则的限制。 我们目前不支持扫描映射到其中的多个文件的 gzip 文件,或者除 csv 以外的任何文件类型。
  • 带分隔符的文件类型(CSV、PSV、SSV、TSV、TXT):
    • 我们不支持数据类型检测。 对于所有列,数据类型将列为“字符串”。
    • 我们仅支持使用逗号(“,”)、分号(“;”)、竖线(“|”)和制表符(“\t”)作为分隔符。
    • 如果使用自定义分隔符,则少于三行的带分隔符文件不能确定为 CSV 文件。 例如:无法将具有 ~ 分隔符且行数少于三行的文件确定为 CSV 文件。
    • 如果字段中包含双引号,则双引号只能出现在字段的开头和结尾,并且必须匹配。 出现在字段中间的双引号或出现在开头和结尾但不匹配的双引号会被视为错误数据,系统不会解析文件中的任何架构。 列数与标题行的列数不同的行会被判断为错误行。 (错误行数/采样行数)必须小于 0.1。
  • 对于 Parquet 文件,如果你使用自承载集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11(Java 运行时环境)或 OpenJDK。 请查看页面底部的 Java Runtime Environment 部分,以获取安装指南。

架构提取

对于在扫描期间支持架构提取的数据源,资产架构不会被列数直接截断。

嵌套数据

目前仅支持 JSON 内容的嵌套数据。

对于所有系统支持的文件类型,如果列中有嵌套的 JSON 内容,则扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的“架构”选项卡中。

SQL 不支持嵌套数据或嵌套架构分析。 将按原样对包含嵌套数据的列进行报告和分类,且不会对子数据进行分析。

采样数据以进行分类

在 Microsoft Purview 数据映射术语中:

  • L1 扫描:提取基本信息和元数据,例如文件名、大小和完全限定的名称
  • L2 扫描:提取结构化文件类型和数据库表的架构
  • L3 扫描:在适用情况下提取架构,并使采样的文件遵循系统和自定义分类规则

自定义扫描级别了解详情。

对于所有结构化文件格式,Microsoft Purview 数据映射扫描程序按以下方式对文件进行采样:

  • 对于结构化文件类型,它抽取每个列中前 128 行的内容或前 1 MB 的内容作为样本(以较低者为准)。
  • 对于文档文件格式,它抽取每个文件前 20 MB 的内容作为样本。
    • 如果文档文件大于 20 MB,则不受深度扫描的限制(受分类限制)。 在这种情况下,Microsoft Purview 仅捕获基本元数据,例如文件名和完全限定的名称。
  • 对于表格数据源 (SQL),它抽取前 128 行的内容作为样本。
  • 对于 Azure Cosmos DB for NoSQL,将为架构收集容器中前 10 个文档的最多 300 个不同的属性,并且对于每个属性,将抽取最多 128 个文档或前 1 MB 中的值作为样本。

资源集文件采样

如果分区文件的文件夹或组与系统资源集策略或客户定义的资源集策略相匹配,则该文件夹或组会在 Microsoft Purview 数据映射中被检测为资源集。 如果检测到资源集,扫描程序将对该资源集包含的每个文件夹进行采样。 在此处了解有关资源集的更多信息。

按文件类型对资源集进行文件采样:

  • 分隔文件(CSV、PSV、SSV、TSV)- 在被视为“资源集”的分区文件的文件夹或组中,对 100 个文件中的 1 个文件进行采样(L3 扫描)
  • Data Lake 文件类型(Parquet、Avro、Orc)- 在被视为“资源集”的分区文件的文件夹或组中,对 18446744073709551615(最大值)个文件中的 1 个文件进行采样(L3 扫描)
  • 其他结构化文件类型(JSON、XML、TXT)- 在被视为“资源集”的分区文件的文件夹或组中,对 100 个文件中的 1 个文件进行采样(L3 扫描)
  • SQL 对象和 Azure Cosmos DB 实体 - 每个文件都经过 L3 扫描。
  • 文档文件类型 - 每个文件都经过 L3 扫描。 资源集模式不适用于这些文件类型。

后续步骤