连接到数据映射的数据源

本文列出了 Microsoft Purview 数据映射 中支持的数据源、文件类型和扫描概念。

按类型列出的数据源列表

下表显示了Microsoft Purview 数据映射中提供技术元数据的所有数据源,以及其他支持的功能。 有关将数据源连接到数据映射的说明,请在“ 数据源 ”列中选择数据源名称。

蔚蓝

Azure 资源仅在与 Microsoft Purview 帐户相同的租户中可用,除非每个数据源的页面上另有说明。

数据源 可以自动应用分类 可以应用策略 数据世系 可在实时视图中访问
多个源 是的 是的 受限制
Azure Blob 存储服务 是的 是的 受限制* 是的
适用于 SQL API 的 Azure Cosmos DB 是的 不*
Azure 数据资源管理器 是的 不*
Azure Data Lake Storage Gen2 是的 (预览) 受限制* 是的
Azure Database for MySQL 是的 不*
Azure Database for PostgreSQL 是的 不*
Azure Databricks Hive 元存储 是的
Azure Databricks Unity 目录 是的
Azure 专用 SQL 池(以前称为 SQL DW) 是的 不*
Azure 文件 是的 受限制*
Azure 机器学习 是的
Azure SQL 数据库 是的 是的 是 (预览版) 是的
Azure SQL 托管实例 是的 是的 不*

** Fabric 租户中的 Power BI 项可以使用实时视图。

注释

目前,Microsoft Purview 数据映射无法扫描名称中包含 、 /\ 的资产#。 若要限定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用注册并扫描 Azure SQL 数据库中的示例。

重要

如果计划使用自承载集成运行时,扫描某些数据源需要在自承载集成运行时计算机上进行额外设置。 例如,JDK、Visual C++ 可再发行程序包或特定驱动程序。 对于源,请参阅每个源文章,了解先决条件详细信息。先决条件部分列出了任何要求。

数据映射扫描程序区域

下面是运行 Microsoft Purview 数据映射 扫描程序的所有 Azure 数据源 (数据中心) 区域的列表。 如果 Azure 数据源位于此列表之外的某个区域,扫描程序将在 Microsoft Purview 实例的区域中运行。

  • 中国北部 3

支持扫描的文件类型

下面列出的文件类型支持扫描、架构提取和分类(如果适用)。 此外,数据映射支持 自定义文件扩展名和自定义分析程序

扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级分类:

  • AVRO
  • CSV
  • GZIP
  • JSON
  • ORC(光学字符识别)
  • 木条镶花之地板*
  • PSV
  • SSV
  • TSV
  • TXT 格式
  • XML

*对于非压缩的 PARQUET 文件,支持所有 parquet 格式;对于压缩的 PARQUET 文件,仅支持 snappy parquet 格式。

扩展支持的文档文件格式包括扫描和资产级别分类:

  • 医生
  • DOCM
  • DOCX
  • ODP
  • ODS
  • ODT
  • PDF
  • PPS
  • PPSX
  • PPT(幻灯片)
  • PPTM
  • PPTX
  • XLC
  • XLS
  • XLSB
  • XLSM
  • XLSX
  • XLT

注释

已知限制:

  • Microsoft Purview 数据映射扫描程序仅支持对上面列出的结构化文件类型进行架构提取。
  • 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持包含复杂数据类型的文件的架构提取 (例如 MAP、LIST、STRUCT) 。
  • 对于非压缩的 PARQUET 文件,支持所有 parquet 格式;对于压缩的 PARQUET 文件,架构提取和分类仅支持 snappy parquet 格式。
  • 对于 GZIP 文件类型,GZIP 必须映射到内部的单个 csv 文件。 GZIP 文件受系统和自定义分类规则的约束。 我们目前不支持扫描映射到多个文件的 GZIP 文件,也不支持扫描 CSV 以外的任何文件类型。
  • 对于 Parquet 文件,如果使用自承载集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11 (Java 运行时环境) 或 OpenJDK 。 请参阅 Java 运行时安装指南
  • 不支持增量格式。 如果要直接从存储数据源(如 Azure Data Lake Storage (ADLS Gen2) )扫描增量格式,则增量格式中的 parquet 文件集将被分析和处理为资源集,如了解资源集中所述。 不会将用于分区的列识别为资源集架构的一部分。

对于带分隔符的文件类型 (CSV、PSV、SSV、TSV、TXT)

  • 仅包含 1 列的分隔文件不能确定为 CSV 文件,并且没有架构。
  • 不支持数据类型检测。 数据类型将列为所有列的“字符串”。
  • 唯一受支持的分隔符是逗号 ('、') 、分号 (';') ,垂直条 ('|') 和选项卡 (\t') 。
  • 如果使用自定义分隔符,则不能将行少于三行的分隔文件确定为 CSV 文件。 例如:具有 ~ 分隔符且行数少于三行的文件将无法确定为 CSV 文件。
  • 如果字段包含双引号,则双引号只能出现在字段的开头和末尾,并且必须匹配。 出现在字段中间或出现在开头和结尾但不匹配的双引号将被识别为错误数据,并且不会从文件中分析架构。 列数与标题行不同的行将判断为错误行。 (错误行数/) 采样的行数必须小于 0.1。

架构提取

对于在扫描期间支持架构提取的数据源,资产架构不会直接被列数截断。

嵌套数据

仅 JSON 内容支持嵌套数据。 对于所有 系统支持的文件类型,如果列中存在嵌套的 JSON 内容,扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的架构选项卡中。

SQL 不支持嵌套数据或嵌套架构分析。 具有嵌套数据的列将被报告并按原样分类,并且不会分析子数据。

用于分类的采样数据

在数据映射术语中,

  • L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称
  • L2 扫描:提取结构化文件类型和数据库表的架构
  • L3 扫描:提取架构(如果适用),并将采样文件设置为系统和自定义分类规则

详细了解如何 自定义扫描级别

对于所有结构化文件格式,Microsoft Purview 数据映射扫描程序按以下方式对文件进行采样:

  • 对于结构化文件类型,它会对每列中的前 128 行或前 1 MB 行进行采样,以较低者为准。
  • 对于文档文件格式,它会对每个文件的前 20 MB 采样。
    • 如果文档文件大于 20 MB,则它不受深度扫描 (受分类) 的约束。 在这种情况下,Microsoft Purview 仅捕获基本元数据,例如文件名和完全限定的名称。
  • 对于 表格数据源 (SQL) ,它将对前 128 行进行采样。
  • 对于 Azure Cosmos DB for NoSQL,将为架构收集容器中前 10 个文档中最多 300 个不同的属性,对于每个属性,将采样来自最多 128 个文档或前 1 MB 的值。

资源集文件采样

如果文件夹或分区文件组与系统资源集策略或客户定义的资源集策略匹配,则会在Microsoft Purview 数据映射中检测为资源集。 如果检测到资源集,扫描程序将采样它包含的每个文件夹。 在此处详细了解资源集。

按文件类型对资源集进行文件采样:

  • 分隔文件 (CSV、PSV、SSV、TSV) - (L3 扫描) 被视为“资源集”的文件夹或分区文件组内的 1 个文件采样 100 个文件中的 1 个
  • Data Lake 文件类型 (Parquet、Avro、Orc) - 1 in 18446744073709551615 (long max) 文件 (L3 扫描) 在被视为“资源集”的文件夹或分区文件组内采样
  • JSON、XML、TXT) (其他结构化文件类型 - 在被视为“资源集”的文件夹或分区文件组 (L3 扫描) 对 100 个文件中的 1 个文件采样
  • SQL 对象和 Azure Cosmos DB 实体 - 每个文件都经过 L3 扫描。
  • 文档文件类型 - 对每个文件进行 L3 扫描。 资源集模式不适用于这些文件类型。

后续步骤