连接到数据映射的数据源

本文列出了 Microsoft Purview 数据映射 中支持的数据源、文件类型和扫描概念。

按类型列出的数据源列表

下表显示了Microsoft Purview 数据映射中提供技术元数据的所有数据源,以及其他支持的功能。 有关将数据源连接到数据映射的说明,请在“ 数据源 ”列中选择数据源名称。

蔚蓝

Azure 资源仅在与 Microsoft Purview 帐户相同的租户中可用,除非每个数据源的页面上另有说明。

数据源 可以自动应用分类 可以应用策略 数据世系 可在实时视图中访问
多个源 是的 是的 受限制
Azure Blob 存储服务 是的 是的 受限制* 是的
适用于 SQL API 的 Azure Cosmos DB 是的 不*
Azure 数据资源管理器 是的 不*
Azure Data Lake Storage Gen2 是的 (预览) 受限制* 是的
Azure Database for MySQL 是的 不*
Azure Database for PostgreSQL 是的 不*
Azure Databricks Hive 元存储 是的
Azure Databricks Unity 目录 是的
Azure 专用 SQL 池(以前称为 SQL DW) 是的 不*
Azure 文件 是的 受限制*
Azure 机器学习 是的
Azure SQL 数据库 是的 是的 是 (预览版) 是的
Azure SQL 托管实例 是的 是的 不*

** Fabric 租户中的 Power BI 项可以使用实时视图。

注释

目前,Microsoft Purview 数据映射无法扫描名称中包含 、 /\ 的资产#。 若要限定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用注册并扫描 Azure SQL 数据库中的示例。

重要

如果计划使用自承载集成运行时,扫描某些数据源需要在自承载集成运行时计算机上进行额外设置。 例如,JDK、Microsoft Visual C++可再发行组件或特定驱动程序。 对于源,请参阅每个源文章,了解先决条件详细信息。先决条件部分列出了任何要求。

数据映射扫描程序区域

以下列表显示了所有Azure数据源 (数据中心) 运行数据映射扫描程序的区域。 如果Azure数据源位于此列表之外的某个区域,扫描程序将在 Microsoft Purview 实例的区域中运行。

  • 中国北部 3

支持扫描的文件类型

以下部分中列出的文件类型支持扫描、架构提取和分类(如果适用)。 此外,数据映射支持 自定义文件扩展名和自定义分析程序

扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级分类:

  • AVRO
  • CSV
  • GZIP
  • JSON
  • ORC(光学字符识别)
  • 木条镶花之地板*
  • PSV
  • SSV
  • TSV
  • TXT 格式
  • XML

*对于非压缩的 PARQUET 文件,支持所有 Parquet 格式。 对于压缩的 PARQUET 文件,仅支持 snappy Parquet 格式。

扩展支持的文档文件格式包括扫描和资产级别分类:

  • 医生
  • DOCM
  • DOCX
  • ODP
  • ODS
  • ODT
  • PDF
  • PPS
  • PPSX
  • PPT(幻灯片)
  • PPTM
  • PPTX
  • XLC
  • XLS
  • XLSB
  • XLSM
  • XLSX
  • XLT

注释

已知限制:

  • Microsoft Purview 数据映射扫描程序仅支持上一节中列出的结构化文件类型的架构提取。
  • 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持包含复杂数据类型的文件的架构提取 (例如 MAP、LIST、STRUCT) 。
  • 对于非压缩的 PARQUET 文件,支持所有 Parquet 格式。 对于压缩的 PARQUET 文件,架构提取和分类仅支持 snappy Parquet 格式。
  • 对于 GZIP 文件类型,GZIP 必须映射到内的单个 CSV 文件。 GZIP 文件受系统和自定义分类规则的约束。 扫描程序当前不支持扫描映射到多个文件中的 GZIP 文件或 CSV 以外的任何文件类型。
  • 对于 Parquet 文件,如果使用自承载集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11 (Java 运行时环境) 或 OpenJDK 。 请参阅 Java 运行时安装指南
  • 不支持 Delta 格式。 如果您是直接从存储数据源(如 Azure Data Lake Storage Gen2)扫描 Delta 格式,则会将来自 Delta 格式的 Parquet 文件集解析并处理为资源集,如 “了解资源集”中所述。 不会将用于分区的列识别为资源集架构的一部分。

对于带分隔符的文件类型 (CSV、PSV、SSV、TSV、TXT) :

  • 仅包含一列的分隔文件不能确定为 CSV 文件,并且没有架构。
  • 不支持数据类型检测。 所有列的数据类型都列为“字符串”。
  • 唯一受支持的分隔符是逗号 ('、') 、分号 (';') ,垂直条 ('|') 和选项卡 (\t') 。
  • 如果使用自定义分隔符,则不能将行少于三行的分隔文件确定为 CSV 文件。 例如,不能将具有 ~ 分隔符且行少于三行的文件确定为 CSV 文件。
  • 如果字段包含双引号,则双引号只能出现在字段的开头和末尾,并且必须匹配。 出现在字段中间或出现在开头和结尾但不匹配的双引号被识别为错误数据,并且不会从文件中分析任何架构。 列数与标题行不同的行被判断为错误行。 错误行数除以采样的行数必须小于 0.1。

架构提取

对于在扫描期间支持架构提取的数据源,列数不会直接截断资产架构。

嵌套数据

仅 JSON 内容支持嵌套数据。 对于所有 系统支持的文件类型,如果列中存在嵌套的 JSON 内容,扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的架构选项卡中。

SQL 不支持嵌套数据或嵌套架构分析。 具有嵌套数据的列将被报告并按原样分类,并且不会分析子数据。

用于分类的采样数据

在数据映射术语中,

  • L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称。
  • L2 扫描:提取结构化文件类型和数据库表的架构。
  • L3 扫描:提取架构(如果适用),并将采样文件设置为系统和自定义分类规则。

详细了解如何 自定义扫描级别

对于所有结构化文件格式,Microsoft Purview 数据映射扫描程序按以下方式对文件进行采样:

  • 对于结构化文件类型,它会对每列中的前 128 行或前 1 MB 行进行采样,以较低者为准。
  • 对于文档文件格式,它会对每个文件的前 20 MB 采样。 - 如果文档文件大于 20 MB,扫描程序不会执行深度扫描 (受分类) 约束。 在这种情况下,Microsoft Purview 仅捕获基本元数据,例如文件名和完全限定的名称。
  • 对于 表格数据源 (SQL) ,它将对前 128 行进行采样。
  • 对于 Azure Cosmos DB for NoSQL,将为架构收集容器中前 10 个文档中最多 300 个不同的属性。 对于每个属性,扫描程序对最多 128 个文档或前 1 MB 中的值进行采样。

资源集文件采样

如果某个文件夹或分区文件组与系统资源集策略或客户定义的资源集策略匹配,则数据映射会将其检测为 资源集。 如果扫描程序检测到资源集,它会对它包含的每个文件夹采样。 有关资源集的详细信息,请参阅 Microsoft Purview 数据映射 中的资源集

按文件类型对资源集进行文件采样:

  • 分隔文件 (CSV、PSV、SSV、TSV) :扫描程序对 100 个文件 (L3 扫描) 在被视为资源集的文件夹或分区文件组中的 1 个文件中采样。
  • Data Lake 文件类型 (Parquet、Avro、Orc) :扫描程序在 18,446,744,073,709,551,615 (长最大) 文件 (L3 扫描) 的文件夹或分区文件组中被视为资源集。
  • 其他结构化文件类型 (JSON、XML、TXT) :扫描程序对 100 个文件中的 1 个文件采样, (L3 扫描) 文件夹或分区文件组中被视为资源集的分区文件。
  • SQL 对象和Azure Cosmos DB 实体:扫描程序 L3 扫描每个文件。
  • 文档文件类型:扫描程序 L3 扫描每个文件。 资源集模式不适用于这些文件类型。

后续步骤