Compartilhar via

连接到数据映射的数据源

本文列出了Microsoft Purview数据映射中支持的数据源、文件类型和扫描概念。

按类型列出的数据源列表

下表显示了具有Microsoft Purview数据映射中可用的技术元数据以及其他受支持的功能的所有数据源。 有关将数据源连接到数据映射的说明,请在“ 数据源 ”列中选择数据源名称。

Azure

Azure资源仅在Microsoft Purview帐户所在的同一租户中可用,除非在每个数据源的页面上另有说明。

数据源 可以自动应用分类 可以应用策略 数据世系 可在实时视图中访问
多个来源 Yes Yes 受限制
Azure Blob Storage Yes 是的 受限制* 是的
Azure Cosmos DB for SQL API Yes 不*
Azure Data Explorer Yes 不*
Azure Data Lake Storage Gen2 是的 (预览) 受限制* 是的
Azure Database for MySQL Yes 不*
Azure Database for PostgreSQL Yes 不*
Azure Databricks Hive 元数据存储 Yes
Azure Databricks Unity 目录 Yes
Azure专用 SQL 池(前 SQL DW) Yes 不*
Azure Files Yes 受限制*
Azure Machine Learning Yes
Azure SQL Database Yes Yes Yes (预览版) 是的
Azure SQL Managed Instance Yes Yes 不*

** Fabric 租户中的 Power BI 项可以使用实时查看。

注释

目前,Microsoft Purview数据映射无法扫描名称中包含 /\#的资产。 若要限定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用 Register 中的示例并扫描 Azure SQL Database

重要

如果您计划使用自承载集成运行时,扫描某些数据源时需要在自承载集成运行时计算机上进行额外的设置。 例如,JDK、Microsoft Visual C++可再发行组件或特定驱动程序。 对于您的参考来源,请查阅每篇源文章以了解先决条件的详细信息。任何要求都列在先决条件部分。

数据地图扫描器地区

以下列表显示了数据映射扫描程序运行Azure数据源(数据中心)区域。 如果Azure数据源位于此列表外部的区域,扫描程序将在Microsoft Purview实例的区域中运行。

  • 中国北部 3

支持扫描的文件类型

以下部分中列出的文件类型支持扫描、架构提取和分类(如果适用)。 此外,数据映射支持 自定义文件扩展名和自定义分析程序

扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级分类:

  • AVRO
  • CSV
  • GZIP
  • JSON
  • ORC(光学字符识别)
  • Parquet*
  • PSV
  • SSV
  • TSV
  • TXT 格式
  • XML

*对于非压缩的 PARQUET 文件,支持所有 Parquet 格式。 对于压缩的 PARQUET 文件,仅支持 snappy Parquet 格式。

扩展支持的文档文件格式包括扫描和资产级别分类:

  • 文档
  • DOCM
  • DOCX
  • Dot语言
  • ODP
  • ODS
  • ODT
  • PDF
  • 电位器
  • PPS
  • PPSX
  • PPT(幻灯片)
  • PPTM
  • PPTX
  • XLC
  • XLS
  • XLSB
  • XLSM
  • XLSX
  • XLT

注释

已知限制:

  • Microsoft Purview数据映射扫描程序仅支持对上一节中列出的结构化文件类型进行架构提取。
  • 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持包含复杂数据类型的文件的架构提取 (例如 MAP、LIST、STRUCT) 。
  • 对于非压缩的 PARQUET 文件,支持所有 Parquet 格式。 对于压缩的 PARQUET 文件,架构提取和分类仅支持 snappy Parquet 格式。
  • 对于 GZIP 文件类型,GZIP 内容必须映射到一个单独的 CSV 文件中。 GZIP 文件受系统和自定义分类规则的约束。 扫描程序当前不支持扫描映射到多个文件中的 GZIP 文件或 CSV 以外的任何文件类型。
  • 对于 Parquet 文件,如果使用自托管集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11(Java 运行时环境)或 OpenJDK。 请参阅 Java 运行时安装指南
  • 不支持 Delta 格式。 如果要直接从存储数据源(如 Azure Data Lake Storage Gen2)扫描 Delta 格式,则从 Delta 格式中解析 Parquet 文件集,并将其作为资源集进行处理,如 理解资源集中所述。 不会将用于分区的列识别为资源集架构的一部分。

对于带分隔符的文件类型 (CSV、PSV、SSV、TSV、TXT) :

  • 仅包含一列的分隔文件不能确定为 CSV 文件,并且没有架构。
  • 不支持数据类型检测。 所有列的数据类型都列为“字符串”。
  • 唯一受支持的分隔符是逗号 ('、') 、分号 (';') ,垂直条 ('|') 和选项卡 (\t') 。
  • 如果使用自定义分隔符,则不能将行少于三行的分隔文件确定为 CSV 文件。 例如,不能将具有 ~ 分隔符且行少于三行的文件确定为 CSV 文件。
  • 如果字段包含双引号,则双引号只能出现在字段的开头和末尾,并且必须匹配。 出现在字段中间或出现在开头和结尾但不匹配的双引号被识别为错误数据,并且不会从文件中分析任何架构。 列数与标题行不同的行被判断为错误行。 错误行数除以采样的行数必须小于 0.1。

模式提取

对于在扫描期间支持架构提取的数据源,列数不会直接截断资产架构。

嵌套数据

仅 JSON 内容支持嵌套数据。 对于所有 系统支持的文件类型,如果列中存在嵌套的 JSON 内容,扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的架构选项卡中。

SQL 不支持嵌套数据或嵌套架构分析。 具有嵌套数据的列将被报告并按原样分类,并且不会分析子数据。

用于分类的采样数据

在数据映射术语中,

  • L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称。
  • L2 扫描:提取结构化文件类型和数据库表的架构。
  • L3 扫描:在适用的情况下提取架构,并根据系统和自定义分类规则处理采样文件。

详细了解如何 自定义扫描级别

对于所有结构化文件格式,Microsoft Purview数据映射扫描程序按以下方式对文件采样:

  • 对于结构化文件类型,它会对每列中的前 128 行或前 1 MB 行进行采样,以较低者为准。
  • 对于文档文件格式,它会对每个文件的前 20 MB 采样。
  • 如果文档文件大于 20 MB,则扫描程序不会执行深度扫描,具体取决于分类标准。 在这种情况下,Microsoft Purview仅捕获基本元数据,如文件名和完全限定的名称。
  • 对于 表格数据源 (SQL) ,它将对前 128 行进行采样。
  • 对于 Azure Cosmos DB for NoSQL,将从容器中前 10 个文档中收集最多 300 个不同的属性,用于构建架构。 对于每个属性,扫描程序对最多 128 个文档或前 1 MB 中的值进行采样。
  • 对于非结构化数据格式(如 DOCX 文件),无需满足八个不同值的条件。 存在单个相关关键字 (keyword) 足以进行分类。

资源集文件采样

如果某个文件夹或分区文件组与系统资源集策略或客户定义的资源集策略匹配,则数据映射会将其检测为 资源集。 如果扫描程序检测到资源集,它会对它包含的每个文件夹采样。 有关资源集的详细信息,请参阅 Microsoft Purview 数据映射中的资源集

按文件类型对资源集进行文件采样:

  • 分隔文件 (CSV、PSV、SSV、TSV):扫描程序在文件夹或分区文件组中被视为资源集的情况下,执行 L3 扫描,并对每 100 个文件进行 1 次采样。
  • Data Lake 文件类型 (Parquet、Avro、Orc):扫描程序在被视为资源集的文件夹或分区文件组中,对每 18,446,744,073,709,551,615 个文件中抽样 1 个 (长整数最大值)(L3 扫描)。
  • 其他结构化文件类型 (JSON、XML、TXT):扫描程序对每 100 个文件采样 1 个文件 (L3 扫描),这些文件位于被视为资源集的文件夹或分区文件组中。
  • SQL 对象和 Azure Cosmos DB 实体:扫描程序 L3 扫描每个文件。
  • 文档文件类型:扫描程序 L3 扫描每个文件。 资源集模式不适用于这些文件类型。

后续步骤