连接到 Microsoft Purview 中的 Azure Blob 存储

本文概述了在 Microsoft Purview 中注册和治理 Azure Blob 存储帐户的过程,包括对 Azure Blob 存储源进行身份验证以及与其交互的说明

支持的功能

元数据提取 完全扫描 增量扫描 限定范围扫描 分类 标记 访问策略 沿袭 数据共享 实时视图
是(预览版) 受限制**

** 如果数据集用作 Azure 数据工厂复制和数据流活动和 [Azure Synapse Pipelines - 复制和数据流活动] (how-to-lineage-azure-synapse-analytics.md) 中的源/接收器,则支持世系

对于 csv、tsv、psv、ssv 等文件类型,当满足以下逻辑时,系统将提取架构:

  • 第一行值非空
  • 第一行值是唯一的
  • 第一行值不是日期或数字

先决条件

** 如果数据集用作数据工厂复制活动中的源/接收器,则支持世系

注册

在此部分介绍如何注册 Azure Blob 存储帐户,以便在 Purview 中进行扫描和数据共享。

注册的先决条件

  • 需要数据源管理员和其他 Purview 角色之一(例如,数据读者或数据共享参与者)才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅“Microsoft Purview 权限”页

注册步骤

在为数据源设置扫描之前,务必在 Microsoft Purview 中注册数据源。

  1. 通过以下方式转到 Microsoft Purview 治理门户:

  2. 导航到“数据映射”-->“源”

    显示打开 Microsoft Purview 治理门户链接的屏幕截图

    导航到数据映射中的源链接的屏幕截图

  3. 使用“集合”菜单创建集合层次结构,并根据需要为各个子集合分配权限

    显示用于创建集合层次结构的“集合”菜单的屏幕截图

  4. 导航到“源”菜单下的相应集合,然后选择“注册”图标以注册新的 Azure Blob 数据源

    显示用于注册数据源的集合的屏幕截图

  5. 选择“Azure Blob 存储”数据源,然后选择“继续”

    允许选择数据源的屏幕截图

  6. 为数据源提供合适的名称,选择相关的 Azure 订阅、现有的 Azure Blob 存储帐户名称和集合,然后选择“应用”。 将“数据策略强制实施”开关保留在“已禁用”位置。

    显示为了注册数据源而要输入的详细信息的屏幕截图

  7. Azure Blob 存储帐户将显示在所选集合下

    显示映射到集合以启动扫描的数据源的屏幕截图

扫描

对于 csv、tsv、psv、ssv 等文件类型,当满足以下逻辑时,系统将提取架构:

  • 第一行值非空
  • 第一行值是唯一的
  • 第一行值不是日期或数字

针对扫描的身份验证

Azure 网络可能允许在 Azure 资源之间进行通信,但如果你在 Azure 中设置了防火墙、专用终结点或虚拟网络,则需遵循下面的这些配置之一。

网络约束 集成运行时类型 可用凭据类型
没有专用终结点或防火墙 Azure IR 托管标识(推荐)、服务主体或帐户密钥
已启用防火墙,但没有专用终结点 Azure IR 托管标识
已启用专用终结点 *自承载 IR 服务主体、帐户密钥

*若要使用自承载集成运行时,首先需要创建一个,并确认 Microsoft Purview 的网络设置

使用系统或用户分配的托管标识进行扫描

可以使用两种类型的托管标识:

  • 系统分配的托管标识(推荐)- 创建 Microsoft Purview 帐户后,将在 Microsoft Entra 租户中自动创建系统分配的托管标识 (SAMI)。 根据资源类型,Microsoft Purview 系统分配的托管标识 (SAMI) 需有特定的 RBAC 角色分配才能执行扫描。

  • 用户分配的托管标识(预览版)- 与系统托管的标识类似,用户分配的托管标识 (UAMI) 是一种凭据资源,Microsoft Purview 可使用它根据 Microsoft Entra ID 进行身份验证。 有关详细信息,可以参阅用户分配的托管标识指南。 为 Microsoft Purview 帐户授予扫描 Azure Blob 数据源的权限非常重要。 你可以在订阅、资源组或资源级别添加 SAMI 或 UAMI 的访问权限,具体取决于所需的级别扫描权限。

注意

如果为存储帐户启用了防火墙,则必须在创建扫描时使用“托管标识”身份验证方法。

注意

你必须是订阅的所有者才能在 Azure 资源上添加托管标识。

  1. Azure 门户中,找到你希望允许目录扫描的订阅、资源组或资源(例如 Azure Blob 存储帐户)。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制(IAM)”,然后选择“+ 添加”--“添加角色分配”

    显示存储帐户的访问控制的屏幕截图

  3. 将“角色”设置为“存储 Blob 数据读者”,并在“选择”输入框中输入 Microsoft Purview 帐户名称或用户分配的托管标识。 然后,选择“保存”,将此角色分配给 Microsoft Purview 帐户。

    显示为 Microsoft Purview 帐户分配权限的详细信息的屏幕截图

  4. Azure 门户中转到你的 Azure Blob 存储帐户

  5. 导航到“安全性 + 网络”“网络”

  6. 在“允许的访问来源”下,选中“选定网络”

  7. 在“异常”部分中,选中“允许受信任的 Microsoft 服务访问此存储帐户”,然后单击“保存”

    显示“允许受信任的 Microsoft 服务访问此存储帐户”例外的屏幕截图

注意

有关更多详情,请参阅使用 Microsoft Entra ID 授予对 Blob 和队列的访问权限中的步骤

使用帐户密钥进行扫描

如果选择的身份验证方法是“帐户密钥”,则需要获取访问密钥,并将其存储在密钥保管库中:

  1. 导航到你的 Azure Blob 存储帐户

  2. 选择“安全性 + 网络”“访问密钥”

    显示存储帐户中的访问密钥的屏幕截图

  3. 复制你的密钥,并将其单独保存以便在后续步骤中使用

    显示要复制的访问密钥的屏幕截图

  4. 导航到你的密钥保管库

    显示密钥保管库的屏幕截图

  5. 选择“设置”>“机密”,然后选择“+ 生成/导入”

    显示用于生成机密的密钥保管库选项的屏幕截图

  6. 输入与存储帐户中的密钥相同的名称和值

    显示用于输入机密值的密钥保管库选项的屏幕截图

  7. 选择“创建”以完成

  8. 如果密钥保管库尚未连接到 Microsoft Purview,你将需要创建新的密钥保管库连接

  9. 最后,使用密钥新建凭据来设置扫描

使用服务主体进行扫描

创建新的服务主体

如果需要创建新的服务主体,则需要在 Microsoft Entra 租户中注册应用程序,并提供对数据源中的服务主体的访问权限。 Microsoft Entra 全局管理员或应用程序管理员等其他角色可以执行此操作。

获取服务主体的应用程序 ID
  1. 复制已创建的服务主体的“概述”中显示的“应用程序(客户端) ID”

    显示服务主体的“应用程序(客户端) ID”的屏幕截图

向服务主体授予对 Azure Blob 帐户的访问权限

为服务主体授予扫描 Azure Blob 数据源的权限非常重要。 你可以在订阅、资源组或资源级别添加服务主体的访问权限,具体取决于所需的级别扫描访问权限。

注意

必须是订阅的所有者才能在 Azure 资源上添加服务主体。

  1. Azure 门户中,找到你希望允许目录扫描的订阅、资源组或资源(例如 Azure Blob 存储帐户)。

    显示存储帐户的屏幕截图

  2. 在左侧导航栏中选择“访问控制(IAM)”,然后选择“+ 添加”--“添加角色分配”

    显示存储帐户的访问控制的屏幕截图

  3. 将“角色”设置为“存储 Blob 数据读取者”,然后在“选择”输入框下输入你的服务主体 。 然后,选择“保存”,将此角色分配给 Microsoft Purview 帐户。

    显示用于向服务主体提供存储帐户权限的详细信息的屏幕截图

创建扫描

  1. 打开你的 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户”

  2. 导航到“数据映射”--“源”,查看集合层次结构

  3. 选择前面注册的“Azure Blob 数据源”下的“新建扫描”图标

    显示用于创建新扫描的屏幕的屏幕截图

  4. 如果源是公开访问的,请选择 Azure 集成运行时,如果源位于专用虚拟网络中,则选择自承载集成运行时。 有关要使用哪种集成运行时的详细信息,请参阅 选择正确的集成运行时配置一文。

如果使用系统或用户分配的托管标识

为扫描提供一个名称,在“凭据”下选择 Microsoft Purview 帐户 SAMI 或 UAMI,为扫描选择适当的集合,然后选择“测试连接”。 连接成功后,选择“继续”

显示用于运行扫描的托管标识选项的屏幕截图

如果使用帐户密钥

为扫描提供一个“名称”,根据配置选择 Azure IR 或你的自承载 IR,为扫描选择适当的集合,选择“帐户密钥”作为“身份验证方法”,然后选择“创建”

显示用于扫描的帐户密钥选项的屏幕截图

如果使用服务主体

  1. 为扫描提供一个“名称”,根据配置选择 Azure IR 或你的自承载 IR,为扫描选择适当的集合,然后在“凭据”下选择“+ 新建”

    显示用于启用扫描的服务主体选项的屏幕截图

  2. 选择创建服务主体时使用的相应密钥保管库连接和机密名称 。 “服务主体 ID”是前面复制的“应用程序(客户端) ID”

    显示服务主体选项的屏幕截图

  3. 选择“测试连接”。 连接成功后,选择“继续”

限定扫描范围并运行扫描

  1. 可以选择列表中适当的项,以便将扫描范围限定在特定的文件夹和子文件夹。

    限定扫描范围

  2. 然后选择扫描规则集。 可以在系统默认项和现有的自定义规则集之间选择,或者可以以内联方式创建新规则集。

    扫描规则集

  3. 如果创建新的扫描规则集,请选择要包含在扫描规则中的文件类型。

    扫描规则集文件类型

  4. 可以选择要包含在扫描规则中的分类规则

    扫描规则集分类规则

    扫描规则集选项

  5. 选择扫描触发器。 可以设置一个计划或运行一次扫描。

    扫描触发器

  6. 查看扫描并选择“保存并运行”。

    检查扫描

查看扫描

  1. 导航到“集合”中的“数据源”,然后选择“查看详细信息”以检查扫描状态

    查看扫描

  2. 扫描详细信息在“上次运行状态”中指示扫描进度,并会指示已扫描和已分类的资产数量

    查看扫描详细信息

  3. 整个扫描成功运行后,“上次运行状态”将更新为“正在进行”,然后更新为“已完成”

    查看正在进行的扫描

    查看已完成的扫描

管理扫描

可以管理扫描,或者在完成时再次运行扫描

  1. 选择“扫描名称”即可管理扫描

    管理扫描

  2. 可以再次运行扫描、编辑扫描或删除扫描

    管理扫描选项

  3. 可以再次运行增量扫描或完整扫描 。

    完整或增量扫描

Azure 存储帐户上的访问策略先决条件

区域支持

如果需要,可以按照此指南创建新的存储帐户。

为 Microsoft Purview 中的策略配置 Azure 存储帐户所在的订阅

仅在某些区域需要此步骤 (请参阅上一部分) 。 为了支持 Microsoft Purview 管理一个或多个 Azure 存储帐户的策略,请在要部署 Azure 存储帐户的订阅中执行以下 PowerShell 命令。 使用这些 PowerShell 命令,可以支持 Microsoft Purview 管理该订阅中所有 Azure 存储帐户的策略。

如果你是在本地执行这些命令,请确保以管理员身份运行 PowerShell。

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Environment AzureChinaCloud -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

如果最后一个命令的输出将“RegistrationState”显示为“Registered”,表明订阅已启用访问策略。 如果输出为“正在注册”,请等待至少 10 分钟,然后重试命令。 除非 RegistrationState 显示为“已注册”,否则不要继续。

为策略配置 Microsoft Purview 帐户

在 Microsoft Purview 中注册数据源

你必须先在 Microsoft Purview Studio 中注册一个数据资源,然后才能在 Microsoft Purview 中为该数据资源创建策略。 本指南稍后将会提供与注册数据资源相关的说明。

注意

Azure Purview 策略依赖于数据资源 ARM 路径。 如果数据资源移动到新的资源组或订阅,则需要先将它取消注册,然后在 Microsoft Purview 中重新注册它。

配置权限以启用数据源上的数据策略实施

注册资源后,必须在 Microsoft Purview 中为该资源创建策略之前配置权限。 需要具有一组权限才能启用“数据策略实施”。 这适用于数据源、资源组或订阅。 若要启用“数据策略实施”,则必须同时拥有对资源的特定标识和访问管理 (IAM) 特权以及特定的 Microsoft Purview 特权:

  • 你必须在资源的 Azure 资源管理器路径或其任何父路径上拥有以下任一 IAM 角色组合(即使用 IAM 权限继承):

    • IAM“所有者”
    • IAM“参与者”和 IAM“用户访问管理员”

    若要配置 Azure 基于角色的访问控制 (RBAC) 权限,请按照指南进行操作。 以下屏幕截图显示了如何访问 Azure 门户中的访问控制部分,以便为数据资源添加角色分配。

    显示Azure门户中用于添加角色分配的部分的截图。

    注意

    可以从父资源组、订阅或订阅管理组继承数据源的 IAM 所有者角色。 检查哪些 Microsoft Entra 用户、组和服务主体保留或正在继承资源的“IAM 所有者”角色。

  • 你还需要有集合或父集合(如果启用了继承)的 Microsoft Purview 数据源管理员角色。 有关详细信息,请参阅有关管理 Microsoft Purview 角色分配的指南。

    以下屏幕截图显示了如何在根集合级别分配数据源管理员角色。

    显示在根集合级别分配数据源管理员角色的选项的屏幕截图。

配置 Microsoft Purview 权限以创建、更新或删除访问策略

若要创建、更新或删除策略,你需要在 Microsoft Purview 中的根集合级别获取“策略创建者”角色:

  • “策略创建者”角色可以创建、更新以及删除 DevOps 和数据所有者策略。
  • 策略创建者角色可以删除自助服务访问策略。

有关管理 Microsoft Purview 角色分配的详细信息,请参阅在Microsoft Purview 数据映射中创建和管理集合

注意

必须在根集合级别配置“策略创建者”角色。

此外,为了在创建或更新策略主题时能够轻松搜索 Microsoft Entra 用户或组,在 Microsoft Entra ID 中获取目录读取者权限可为你提供极大的帮助。 这是 Azure 租户中用户的常见权限。 如果没有目录读取者权限,策略创建者必须键入数据策略主题中包含的所有主体的完整用户名或电子邮件地址。

将访问预配责任委托给 Microsoft Purview 中的角色

在为某个资源启用“数据策略实施”后,任何在根集合级别具有“策略创建者”角色的 Microsoft Purview 用户都可以从 Microsoft Purview 预配对该数据源的访问权限。

注意

任何 Microsoft Purview 根集合管理员都可以将新用户分配到根“策略创建者”角色。 任何集合管理员都可以将新用户分配到该集合下的“数据源管理员”角色。 最大程度地减少具有 Microsoft Purview 集合管理员、数据源管理员或策略创建者角色的用户并对其仔细审查。

如果带有已发布策略的 Microsoft Purview 帐户被删除,则此类策略将在一段时间内停止强制执行,具体取决于特定数据源。 此更改可能对安全性和数据访问可用性都有影响。 IAM 中的参与者角色和所有者角色可以删除 Microsoft Purview 帐户。 可以通过转到 Microsoft Purview 帐户的访问控制 (IAM) 部分并选择“角色分配”来检查这些权限。 还可以使用锁以防止 Microsoft Purview 帐户通过 Azure 资源管理器锁被删除。

在 Microsoft Purview 中注册数据源以便使用“数据策略强制实施”

必须先向 Microsoft Purview 注册 Azure 存储资源,然后才能创建访问策略。 若要注册你的资源,请遵循本指南的“先决条件”和“注册”部分:

注册数据资源后,需要启用“数据策略强制实施”。 这是先决条件,满足以后才能在数据源上创建策略。 “数据策略强制实施”可能会影响数据的安全性,因为它会委托某些 Microsoft Purview 角色管理对数据源的访问权限。 本指南详细介绍了与数据策略强制实施相关的安全做法如何启用数据策略强制实施

将数据源的“数据策略强制实施”选项设置为“已启用”后,数据源的情况如以下屏幕截图所示屏幕截图显示了如何注册策略的数据源,以及设置为“启用”的“数据策略强制实施”选项

创建策略

若要创建涵盖资源组或 Azure 订阅中所有数据源的策略,可以参阅此部分

后续步骤

按照以下指南来详细了解 Microsoft Purview 和你的数据。