如何连接 Azure 数据工厂和 Microsoft Purview
本文档介绍将 Azure 数据工厂帐户与 Microsoft Purview 帐户连接以跟踪数据世系和引入数据源所需的步骤。 本文档还详细介绍了活动覆盖范围和受支持的世系模式。
如果将 Azure 数据工厂连接到 Microsoft Purview,则每当运行受支持的 Azure 数据工厂活动时,有关活动源数据、输出数据和活动本身的元数据将会自动引入到 Microsoft Purview 数据映射中。
如果某个数据源已进行扫描,现在存在于数据映射中,则引入过程会将世系信息从 Azure 数据工厂添加到该现有源。 如果源或输出不存在于数据映射中,但受 Azure 数据工厂世系支持,则 Microsoft Purview 会自动将其元数据从 Azure 数据工厂添加到根集合下的数据映射中。
当用户使用 Azure 数据工厂移动和转换信息时,这可能是一种监视数据资产的绝佳方式。
查看现有的数据工厂连接
多个 Azure 数据工厂可连接到单个 Microsoft Purview 来推送世系信息。 当前限制允许从 Microsoft Purview 管理中心一次最多连接 10 个数据工厂帐户。 若要显示已连接到 Microsoft Purview 帐户的数据工厂帐户列表,请执行以下操作:
在左侧导航窗格中选择“管理”。
在“世系连接”下,选择“数据工厂” 。
随即会显示数据工厂连接列表。
请注意各种连接状态值:
- 已连接:数据工厂已连接到 Microsoft Purview 帐户。
- 已断开连接:数据工厂有权访问该目录,但它已连接到其他目录。 因此,不会自动将数据世系报告给该目录。
- 未知:当前用户无法访问数据工厂,因此连接状态未知。
注意
若要查看数据工厂连接,你需要具备以下角色。 不支持从管理组继承角色。 根集合的“集合管理员”角色。
创建新的数据工厂连接
注意
若要添加或删除数据工厂连接,你需要具备以下角色。 不支持从管理组继承角色。 根集合的“集合管理员”角色。
此外,用户还需要是数据工厂的“所有者”或“参与者”。
数据工厂需要启用系统分配的托管标识。
按照以下步骤将现有数据工厂连接到 Microsoft Purview 帐户。
在左侧导航窗格中选择“管理”。
在“世系连接”下,选择“数据工厂” 。
在“数据工厂连接”页上,选择“新建” 。
从列表中选择数据工厂帐户,然后选择“确定”。 此外,还可以按订阅名称进行筛选,以限制列表。
如果数据工厂已连接到当前的 Microsoft Purview 帐户,或者数据工厂没有托管标识,则可能会禁用某些数据工厂实例。
如果任何选定的数据工厂已连接到其他 Microsoft Purview 帐户,则将显示一条警告消息。 选择“确定”后,将断开与其他 Microsoft Purview 帐户的数据工厂连接。 不需要其他确认。
注意
我们支持一次添加最多 10 个 Azure 数据工厂帐户。 如果希望添加 10 个以上的数据工厂帐户,请分批次执行。
身份验证的工作原理
数据工厂的托管标识用于对从数据工厂到 Microsoft Purview 的世系数据推送操作进行身份验证。 在将数据工厂连接到 UI 上的 Microsoft Purview 时,会自动添加角色分配。
向数据工厂的托管标识授予 Microsoft Purview 根集合的“数据策展人”角色。 详细了解 Microsoft Purview 中的访问控制和添加角色并限制通过集合的访问。
删除数据工厂连接
若要删除数据工厂连接,请执行以下操作:
监视数据工厂链接
在 Microsoft Purview 治理门户中,可以监视数据工厂链接。
支持的 Azure 数据工厂活动
Microsoft Purview 从以下 Azure 数据工厂活动捕获运行时世系:
重要
如果源或目标使用不受支持的数据存储系统,则 Microsoft Purview 将删除世系。
如以下各节部分所述,数据工厂与 Microsoft Purview 之间的集成仅支持数据工厂支持的部分数据系统。
复制活动支持
数据存储 | 支持 |
---|---|
Azure Blob 存储 | 是 |
Azure 认知搜索 | 是 |
Azure Cosmos DB for NoSQL * | 是 |
Azure Cosmos DB for MongoDB * | 是 |
Azure 数据资源管理器 * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
Azure Database for MariaDB * | 是 |
Azure Database for MySQL * | 是 |
Azure Database for PostgreSQL * | 是 |
Azure 文件 | 是 |
Azure SQL 数据库 * | 是 |
Azure SQL 托管实例 * | 是 |
Azure Synapse Analytics * | 是 |
Azure 专用 SQL 池(以前称为“SQL DW”)* | 是 |
Azure 表存储 | 是 |
Hive * | 是 |
SQL Server * | 是 |
* Microsoft Purview 当前不支持针对世系或扫描的查询或存储过程。 世系仅限于表和视图源。
如果使用自承载集成运行时,请注意具有以下世系支持的最小版本:
- 任何用例:版本 5.9.7885.3 或更高版本
- 通过 COPY 命令或 PolyBase 将数据复制到 Azure Synapse Analytics:版本 5.10 或更高版本
复制活动世系的限制
当前,如果使用以下复制活动功能,则尚不支持世系:
- 采用二进制格式将数据复制到 Azure Data Lake Storage Gen1 中。
- 二进制、带分隔符的文本、Excel、JSON 和 XML 文件的压缩设置。
- 针对 Azure SQL 数据库、Azure SQL 托管实例、Azure Synapse Analytics、SQL Server 和 SAP 表的源分区选项。
- 将数据复制到基于文件的接收器,该接收器具有每个文件的最大行数设置。
- 目前,当源/接收器是资源集时,复制活动不支持列级世系。
除世系外,还会报告以下连接器的数据资产架构(“资产”->“架构”选项卡中会显示):
- Azure Blob、Azure 文件存储、ADLS Gen1 和 ADLS Gen2 上的 CSV 和 Parquet 文件
- Azure 数据资源管理器、Azure SQL 数据库、Azure SQL 托管实例、Azure Synapse Analytics、SQL Server
数据流支持
数据存储 | 支持 |
---|---|
Azure Blob 存储 | 是 |
Azure Cosmos DB for NoSQL * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
Azure Database for MySQL * | 是 |
Azure Database for PostgreSQL * | 是 |
Azure SQL 数据库 * | 是 |
Azure SQL 托管实例 * | 是 |
Azure Synapse Analytics * | 是 |
Azure 专用 SQL 池(以前称为“SQL DW”)* | 是 |
* Microsoft Purview 当前不支持针对世系或扫描的查询或存储过程。 世系仅限于表和视图源。
数据流世系的限制
- 数据流世系可以生成文件夹级别的资源集,而无需显示所涉及的文件。
- 目前,当源/接收器为资源集时,不支持列级世系。
- 对于数据流活动的世系,Microsoft Purview 仅支持显示涉及的源和接收器。 尚不支持数据流转换的详细世系。
- 当 flowlet 是数据流的一部分时,不支持沿袭。
- 目前 Purview 不支持 Synapse 表的世系报告(LakeHouse DB/Workspace DB)
执行 SSIS 包支持
请参阅支持的数据存储。
支持的世系模式
Microsoft Purview 支持多种世系模式。 生成的世系数据基于数据工厂活动中使用的源和接收器的类型。 虽然数据工厂支持 80 多种源和接收器,但其中仅部分受 Microsoft Purview 支持,如支持的 Azure 数据工厂活动中所列。
若要配置数据工厂以发送世系信息,请参阅世系入门。
在世系视图中查找信息的其他一些方法包括:
- 在“世系”选项卡中,将鼠标悬停在各个形状上,可在工具提示中预览有关资产的其他信息。
- 选择节点或边以查看其所属的资产类型或切换资产。
- 数据集的列显示在“世系”选项卡的左侧。有关列级世系的详细信息,请参阅数据集列世系。
1:1 操作的数据世系
捕获数据世系最常见的模式是将数据从单个输入数据集移动到单个输出数据集,两者之间包含一个进程。
下面是此模式的一个示例:
- 1 个源/输入:客户(SQL 表)
- 1 个接收器/输出:Customer1.csv (Azure Blob)
- 1 个进程:CopyCustomerInfo1#Customer1.csv(数据工厂复制活动)
1:1 世系的数据移动(支持通配符)
捕获世系的另一个常见方案是使用通配符将文件从单个输入数据集复制到单个输出数据集。 借助通配符,复制活动可以使用文件名的共同部分匹配多个文件以进行复制。 Microsoft Purview 会捕获通过相应的复制活动复制的每个单独文件的文件级世系。
下面是此模式的一个示例:
- 源/输入:CustomerCall*.csv(ADLS Gen2 路径)
- 接收器/输出:CustomerCall*.csv(Azure blob 文件)
- 1 个进程:CopyGen2ToBlob#CustomerCall.csv(数据工厂复制活动)
n:1 世系的数据移动
你可以使用数据流活动来执行合并、联接等数据操作。 可以使用多个源数据集来生成目标数据集。 在此示例中,Microsoft Purview 会将单个输入文件的文件级世系捕获到作为数据流活动一部分的 SQL 表中。
下面是此模式的一个示例:
- 2 个源/输入:Customer.csv、Sales.parquet(ADLS Gen2 路径)
- 1 个接收器/输出:公司数据(Azure SQL 表)
- 1 个进程:DataFlowBlobsToSQL(数据工厂数据流活动)
资源集的世系
资源集是目录中的逻辑对象,代表基础存储中的许多分区文件。 有关详细信息,请参阅了解资源集。 当 Microsoft Purview 从 Azure 数据工厂捕获世系时,它将应用规则来规范化各个分区文件并创建单个逻辑对象。
在以下示例中,Azure Data Lake Gen2 资源集是从 Azure Blob 生成的:
- 1 个源/输入:Employee_management.csv (Azure Blob)
- 1 个接收器/输出:Employee_management.csv (Azure Data Lake Gen 2)
- 1 个进程:CopyBlobToAdlsGen2_RS(数据工厂复制活动)