在 Microsoft Purview 中连接到 Azure Data Lake Storage

本文概述了在 Microsoft Purview 中注册和治理 Azure Data Lake Storage (ADLS Gen2) 数据源的过程,包括对 ADLS Gen2 源进行身份验证以及与其交互的说明。

支持的功能

元数据提取 完全扫描 增量扫描 限定范围扫描 分类 标记 访问策略 沿袭 数据共享 实时视图
是(预览版) 受限制*

* 如果数据集用作数据工厂Synapse 管道中的源/接收器,则支持世系。

扫描 Azure Data Lake Storage Gen2 源时,Microsoft Purview 支持提取技术元数据,其中包括:

  • 存储帐户
  • Data Lake Storage Gen2 服务
  • 文件系统(容器)
  • 文件夹
  • 文件
  • 资源集

设置扫描时,可以选择扫描整个 ADLS Gen2 或选择性文件夹。 若要了解支持的文件格式,请参阅此处

先决条件

注册

本部分介绍如何注册 ADLS Gen2 数据源以在 Purview 中进行扫描和数据共享。

注册的先决条件

  • 需要数据源管理员和其他 Purview 角色之一(例如,数据读者或数据共享参与者)才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅“Microsoft Purview 权限”页

注册步骤

在为数据源设置扫描之前,务必在 Microsoft Purview 中注册数据源。

  1. 通过以下方式转到 Microsoft Purview 治理门户:

  2. 导航到“数据映射”-->“源”

    显示打开 Microsoft Purview 治理门户链接的屏幕截图

    导航到数据映射中的源链接的屏幕截图

  3. 使用“集合”菜单创建集合层次结构,并根据需要为各个子集合分配权限

    显示用于创建集合层次结构的“集合”菜单的屏幕截图

  4. 导航到“源”菜单下的相应集合,然后选择“注册”图标以注册新的 ADLS Gen2 数据源

    显示用于注册数据源的集合的屏幕截图

  5. 选择“Azure Data Lake Storage Gen2”数据源,然后选择“继续”

    允许选择数据源的屏幕截图

  6. 为数据源提供合适的名称,选择相关的 Azure 订阅、现有的 Data Lake Store 帐户名称和集合,然后选择“应用”。 将“数据策略强制实施”开关保留在“已禁用”位置。

    显示为了注册数据源而要输入的详细信息的屏幕截图

  7. ADLS Gen2 存储帐户将显示在所选集合下

    显示映射到集合以启动扫描的数据源的屏幕截图

扫描

提示

若要排查与扫描有关的任何问题,请执行以下操作:

  1. 确认已正确设置用于扫描的身份验证
  2. 查看扫描故障排除文档

针对扫描的身份验证

Azure 网络可能允许在 Azure 资源之间进行通信,但如果你在 Azure 中设置了防火墙、专用终结点或虚拟网络,则需遵循下面的这些配置之一。

网络约束 集成运行时类型 可用凭据类型
没有专用终结点或防火墙 Azure IR 托管标识(推荐)、服务主体或帐户密钥
已启用防火墙,但没有专用终结点 Azure IR 托管标识
已启用专用终结点 *自承载 IR 服务主体、帐户密钥

重要

  1. *若要使用自承载集成运行时,首先需要选择适合你场景的选项,创建一个,并确认 Microsoft Purview 的网络设置
  2. 如果使用自承载集成运行时来扫描 parquet 文件,则需要在 IR 计算机上安装 64 位 JRE 8 (Java Runtime Environment) 或 OpenJDK。 可查看我们的 Java Runtime Environment 安装指南

使用系统或用户分配的托管标识进行扫描

可以使用两种类型的托管标识:

  • 系统分配的托管标识(推荐)- 创建 Microsoft Purview 帐户后,将在 Microsoft Entra 租户中自动创建系统分配的托管标识 (SAMI)。 根据资源类型,Microsoft Purview 系统分配的托管标识 (SAMI) 需有特定的 RBAC 角色分配才能执行扫描。

  • 用户分配的托管标识(预览版)- 与系统托管的标识类似,用户分配的托管标识 (UAMI) 是一种凭据资源,Microsoft Purview 可使用它根据 Microsoft Entra ID 进行身份验证。 有关详细信息,可以参阅用户分配的托管标识指南

请务必向 Microsoft Purview 帐户或用户分配的托管标识 (UAMI) 授予扫描 ADLS Gen2 数据源的权限。 你可以在订阅、资源组或资源级别添加 Microsoft Purview 帐户的系统分配托管标识(与 Microsoft Purview 帐户同名)或 UAMI,具体取决于所需的扫描权限级别。

注意

你必须是订阅的所有者才能在 Azure 资源上添加托管标识。

  1. Azure 门户中,查找希望允许目录扫描的订阅、资源组或资源(例如 Azure Data Lake Storage Gen2 存储帐户)。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制(IAM)”,然后选择“+ 添加”--“添加角色分配”

    显示存储帐户的访问控制的屏幕截图

  3. 将“角色”设置为“存储 Blob 数据读者”,并在“选择”输入框中输入 Microsoft Purview 帐户名称或用户分配的托管标识。 然后,选择“保存”,将此角色分配给 Microsoft Purview 帐户。

    显示为 Microsoft Purview 帐户分配权限的详细信息的屏幕截图

    注意

    有关更多详情,请参阅使用 Microsoft Entra ID 授予对 Blob 和队列的访问权限中的步骤

    注意

    如果为存储帐户启用了防火墙,则必须在创建扫描时使用“托管标识”身份验证方法。

  4. Azure 门户中,转到 ASLS Gen2 存储帐户

  5. 导航到“安全性 + 网络”“网络”

    显示提供防火墙访问的详细信息的屏幕截图

  6. 在“允许的访问来源”下,选中“选定网络”

    显示允许访问所选网络的详细信息的屏幕截图

  7. 在“异常”部分中,选中“允许受信任的 Microsoft 服务访问此存储帐户”,然后单击“保存”

    显示“允许受信任的 Microsoft 服务访问此存储帐户”例外的屏幕截图

创建扫描

  1. 打开你的 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户”

  2. 导航到“数据映射”--“源”,查看集合层次结构

  3. 选择前面注册的“ADLS Gen2 数据源”下的“新建扫描”图标

    显示用于创建新扫描的屏幕的屏幕截图

  4. 如果源是公开访问的,请选择 Azure 集成运行时,如果源位于专用虚拟网络中,则选择自承载集成运行时。 有关要使用哪种集成运行时的详细信息,请参阅 选择正确的集成运行时配置一文。

如果使用系统或用户分配的托管标识

  1. 为扫描提供一个名称,在“凭据”下选择系统分配或用户分配的托管标识,为扫描选择适当的集合,然后选择“测试连接”。 连接成功后,选择“继续”。

    显示用于运行扫描的托管标识选项的屏幕截图

限定扫描范围并运行扫描

  1. 可以选择列表中适当的项,以便将扫描范围限定在特定的文件夹和子文件夹。

    限定扫描范围

  2. 然后选择扫描规则集。 可以在系统默认项和现有的自定义规则集之间选择,或者可以以内联方式创建新规则集。

    扫描规则集

  3. 如果创建新的扫描规则集,请选择要包含在扫描规则中的文件类型。

    扫描规则集文件类型

  4. 可以选择要包含在扫描规则中的分类规则

    扫描规则集分类规则

    扫描规则集选项

  5. 选择扫描触发器。 可以设置一个计划或运行一次扫描。

    扫描触发器

  6. 查看扫描并选择“保存并运行”。

    检查扫描

查看扫描和扫描运行情况

若要查看现有扫描,请执行以下操作:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。
  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。
  3. 选择要查看结果的扫描。 窗格会显示先前的所有扫描运行,以及每次扫描运行的状态和指标。
  4. 选择运行 ID 以检查扫描运行详细信息

管理扫描

若要编辑、取消或删除扫描:

  1. 转到 Microsoft Purview 门户。 在左窗格中,选择“数据映射”。

  2. 选择数据源。 可以在“最近使用的扫描”下查看该数据源上的现有扫描列表,或者可以在“扫描”选项卡上查看所有扫描。

  3. 选择要管理的扫描。 然后,可以:

    • 通过选择“编辑扫描”来编辑扫描。
    • 通过选择“取消扫描运行”来取消正在进行的扫描。
    • 通过选择“删除扫描”来删除扫描。

注意

  • 删除扫描不会删除以前扫描中创建的类别资产。

Azure 存储帐户上的访问策略先决条件

区域支持

如果需要,可以按照此指南创建新的存储帐户。

为 Microsoft Purview 中的策略配置 Azure 存储帐户所在的订阅

仅在某些区域需要此步骤 (请参阅上一部分) 。 为了支持 Microsoft Purview 管理一个或多个 Azure 存储帐户的策略,请在要部署 Azure 存储帐户的订阅中执行以下 PowerShell 命令。 使用这些 PowerShell 命令,可以支持 Microsoft Purview 管理该订阅中所有 Azure 存储帐户的策略。

如果你是在本地执行这些命令,请确保以管理员身份运行 PowerShell。

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Environment AzureChinaCloud -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

如果最后一个命令的输出将“RegistrationState”显示为“Registered”,表明订阅已启用访问策略。 如果输出为“正在注册”,请等待至少 10 分钟,然后重试命令。 除非 RegistrationState 显示为“已注册”,否则不要继续。

为策略配置 Microsoft Purview 帐户

在 Microsoft Purview 中注册数据源

你必须先在 Microsoft Purview Studio 中注册一个数据资源,然后才能在 Microsoft Purview 中为该数据资源创建策略。 本指南稍后将会提供与注册数据资源相关的说明。

注意

Azure Purview 策略依赖于数据资源 ARM 路径。 如果数据资源移动到新的资源组或订阅,则需要先将它取消注册,然后在 Microsoft Purview 中重新注册它。

配置权限以启用数据源上的数据策略实施

注册资源后,必须在 Microsoft Purview 中为该资源创建策略之前配置权限。 需要具有一组权限才能启用“数据策略实施”。 这适用于数据源、资源组或订阅。 若要启用“数据策略实施”,则必须同时拥有对资源的特定标识和访问管理 (IAM) 特权以及特定的 Microsoft Purview 特权:

  • 你必须在资源的 Azure 资源管理器路径或其任何父路径上拥有以下任一 IAM 角色组合(即使用 IAM 权限继承):

    • IAM“所有者”
    • IAM“参与者”和 IAM“用户访问管理员”

    若要配置 Azure 基于角色的访问控制 (RBAC) 权限,请按照指南进行操作。 以下屏幕截图显示了如何访问 Azure 门户中的访问控制部分,以便为数据资源添加角色分配。

    显示Azure门户中用于添加角色分配的部分的截图。

    注意

    可以从父资源组、订阅或订阅管理组继承数据源的 IAM 所有者角色。 检查哪些 Microsoft Entra 用户、组和服务主体保留或正在继承资源的“IAM 所有者”角色。

  • 你还需要有集合或父集合(如果启用了继承)的 Microsoft Purview 数据源管理员角色。 有关详细信息,请参阅有关管理 Microsoft Purview 角色分配的指南。

    以下屏幕截图显示了如何在根集合级别分配数据源管理员角色。

    显示在根集合级别分配数据源管理员角色的选项的屏幕截图。

配置 Microsoft Purview 权限以创建、更新或删除访问策略

若要创建、更新或删除策略,你需要在 Microsoft Purview 中的根集合级别获取“策略创建者”角色:

  • “策略创建者”角色可以创建、更新以及删除 DevOps 和数据所有者策略。
  • 策略创建者角色可以删除自助服务访问策略。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

必须在根集合级别配置“策略创建者”角色。

此外,为了在创建或更新策略主题时能够轻松搜索 Microsoft Entra 用户或组,在 Microsoft Entra ID 中获取目录读取者权限可为你提供极大的帮助。 这是 Azure 租户中用户的常见权限。 如果没有目录读取者权限,策略创建者必须键入数据策略主题中包含的所有主体的完整用户名或电子邮件地址。

将访问预配责任委托给 Microsoft Purview 中的角色

在为某个资源启用“数据策略实施”后,任何在根集合级别具有“策略创建者”角色的 Microsoft Purview 用户都可以从 Microsoft Purview 预配对该数据源的访问权限。

注意

任何 Microsoft Purview 根集合管理员都可以将新用户分配到根“策略创建者”角色。 任何集合管理员都可以将新用户分配到该集合下的“数据源管理员”角色。 最大程度地减少具有 Microsoft Purview 集合管理员、数据源管理员或策略创建者角色的用户并对其仔细审查。

如果带有已发布策略的 Microsoft Purview 帐户被删除,则此类策略将在一段时间内停止强制执行,具体取决于特定数据源。 此更改可能对安全性和数据访问可用性都有影响。 IAM 中的参与者角色和所有者角色可以删除 Microsoft Purview 帐户。 可以通过转到 Microsoft Purview 帐户的访问控制 (IAM) 部分并选择“角色分配”来检查这些权限。 还可以使用锁以防止 Microsoft Purview 帐户通过 Azure 资源管理器锁被删除。

在 Microsoft Purview 中注册数据源以便使用“数据策略强制实施”

必须先向 Microsoft Purview 注册 Azure 存储资源,然后才能创建访问策略。 若要注册你的资源,请遵循本指南的“先决条件”和“注册”部分:

注册数据资源后,需要启用“数据策略强制实施”。 这是先决条件,满足以后才能在数据源上创建策略。 “数据策略强制实施”可能会影响数据的安全性,因为它会委托某些 Microsoft Purview 角色管理对数据源的访问权限。 本指南详细介绍了与数据策略强制实施相关的安全做法如何启用数据策略强制实施

将数据源的“数据策略强制实施”选项设置为“已启用”后,数据源的情况如以下屏幕截图所示屏幕截图显示了如何注册策略的数据源,以及设置为“启用”的“数据策略强制实施”选项

创建策略

若要创建涵盖资源组或 Azure 订阅中所有数据源的策略,可以参阅此部分

后续步骤

按照以下指南来详细了解 Microsoft Purview 和你的数据。