在 Microsoft Purview 中连接到 Azure Data Lake Gen1
本文概述了在 Microsoft Purview 中注册 Azure Data Lake Storage Gen1 数据源的过程,包括对 Azure Data Lake Storage Gen1 源进行身份验证以及与其交互的说明。
注意
Azure Data Lake Storage Gen1 将于 2024 年 2 月 29 日停用。 有关详细信息,请查看官方公告。 在此日期之后,将不再支持扫描 Azure Data Lake Storage Gen1 帐户。 如果已将 Data Lake 从 Azure Data Lake Storage Gen1 迁移到 Azure Data Lake Storage Gen2,请按照指南 连接到 Microsoft Purview 中的 Azure Data Lake Storage 注册 Azure Data Lake Storage Gen2 数据源并运行扫描。 现有的 Azure Data Lake Storage Gen1 数据资产将保留在 Microsoft Purview 中,如果不再需要,需要手动删除它们。
支持的功能
元数据提取 | 完全扫描 | 增量扫描 | 限定范围扫描 | 分类 | 标记 | 访问策略 | 沿袭 | 数据共享 | 实时视图 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 否 | 否 | 受限制** | 否 | 否 |
** 如果数据集用作数据工厂复制活动中的源/接收器,则支持世系
先决条件
具有活动订阅的 Azure 帐户。 创建帐户。
活动的 Microsoft Purview 帐户。
需是数据源管理员和数据读取者才能在 Microsoft Purview 治理门户中注册和管理源。 有关详细信息,请参阅“Microsoft Purview 权限”页。
注册
本部分介绍如何注册 ADLS Gen1 数据源,并设置适当的身份验证机制以确保成功扫描数据源。
注册步骤
在为数据源设置扫描之前,务必在 Microsoft Purview 中注册数据源。
使用以下方法打开 Microsoft Purview 治理门户:
- 直接浏览到 https://web.purview.azure.cn 并选择你的 Microsoft Purview 帐户。
- 打开 Azure 门户,搜索并选择 Microsoft Purview 帐户。 选择 Microsoft Purview 治理门户按钮。
导航到“数据映射”-->“源”
使用“集合”菜单创建集合层次结构,并根据需要为各个子集合分配权限
导航到“源”菜单下的相应集合,然后选择“注册”图标以注册新的 ADLS Gen1 数据源
选择“Azure Data Lake Storage Gen1”数据源,然后选择“继续”
为数据源提供合适的名称,选择相关的 Azure 订阅、现有的 Data Lake Store 帐户名称和集合,然后选择“应用”
ADLS Gen1 存储帐户将显示在所选集合下
扫描
扫描的先决条件
为了获取扫描数据源所需的访问权限,需要在 ADLS Gen1 Storage 帐户中配置身份验证方法。 可以使用以下选项:
注意
如果为存储帐户启用了防火墙,则必须在创建扫描时使用“托管标识”身份验证方法。
系统分配的托管标识(推荐)- 创建 Microsoft Purview 帐户后,将在 Microsoft Entra 租户中自动创建系统的托管标识。 根据资源类型,Microsoft Purview SAMI 需有特定的 RBAC 角色分配才能执行扫描。
用户分配的托管标识(预览版)- 与系统托管标识类似,用户分配的托管标识是一种凭据资源,可用于支持 Microsoft Purview 针对 Microsoft Entra ID 进行身份验证。 有关详细信息,可以参阅用户分配的托管标识指南。
服务主体 - 在此方法中,可以在 Microsoft Entra 租户中创建新的或使用现有的服务主体。
针对扫描的身份验证
使用系统或用户分配的托管标识进行扫描
为 Microsoft Purview 帐户授予扫描 ADLS Gen1 数据源的权限非常重要。 可在订阅、资源组或资源级别添加系统托管标识或用户分配的托管标识,具体取决于你希望它对哪些内容具有扫描权限。
注意
你必须是订阅的所有者才能在 Azure 资源上添加托管标识。
从 Azure 门户中,查找希望允许目录扫描的订阅、资源组或资源(例如 Azure Data Lake Storage Gen1 存储帐户)。
选择“概述”,然后选择“数据资源管理器”
选择顶部导航栏中的“访问”
选择“选择”,然后在“选择用户或组”菜单中,添加已在 Microsoft Purview 中注册的 Microsoft Purview 名称(系统托管标识)或用户分配的托管标识(预览版)。
选择“读取”和“执行”权限 。 确保选择“此文件夹和所有子文件夹”和“添加”选项中的“访问权限项和默认权限项”,如下面的屏幕截图所示 。 选择“确定”
提示
“访问权限项”是针对当前文件和文件夹的权限项。 “默认权限项”是由新文件和文件夹继承的权限项。 若要仅授予当前现有文件的权限,请选择“访问权限项”。 若要授予扫描将来要添加的文件和文件夹的权限,则包含“默认权限项”。
使用服务主体进行扫描
创建新的服务主体
如果需要创建新的服务主体,则需要在 Microsoft Entra 租户中注册应用程序,并提供对数据源中的服务主体的访问权限。 Microsoft Entra 应用程序管理员可以执行此操作。
获取服务主体的应用程序 ID
复制已创建的服务主体的“概述”中显示的“应用程序(客户端) ID”
向服务主体授予对 ADLS Gen1 帐户的访问权限
为服务主体授予扫描 ADLS Gen2 数据源的权限非常重要。 可在订阅、资源组或资源级别添加服务主体的访问权限,具体取决于所需的权限。
注意
必须是订阅的所有者才能在 Azure 资源上添加服务主体。
打开存储帐户,并选择“概述”-->“数据资源管理器”,为服务主体提供对存储帐户的访问权限
选择顶部导航栏中的“访问”
选择“选择”,然后在“选择用户或组”选项中添加“服务主体”。
选择“读取”和“执行”权限 。 确保选择“此文件夹和所有子文件夹”和“添加”选项中的“访问权限项和默认权限项” 。 选择“确定”
创建扫描
打开你的 Microsoft Purview 帐户并选择“打开 Microsoft Purview 治理门户”
导航到“数据映射”--“源”,查看集合层次结构
选择前面注册的“ADLS Gen1 数据源”下的“新建扫描”图标
如果源是公开访问的,请选择 Azure 集成运行时,如果源位于专用虚拟网络中,则选择自承载集成运行时。 有关要使用的集成运行时的详细信息,请参阅选择正确的集成运行时配置文章。
如果使用系统或用户分配的托管标识
为扫描提供一个名称,在“凭据”下选择系统或用户分配的托管标识,为扫描选择适当的集合,然后选择“测试连接”。 连接成功后,选择“继续”。
如果使用服务主体
为扫描提供一个名称,为扫描选择适当的集合,然后选择“凭据”下的“+ 新建”
选择创建“服务主体”时使用的相应“密钥保管库连接”和“机密名称” 。 “服务主体 ID”是如前所示复制的“应用程序(客户端) ID”
选择“测试连接”。 连接成功后,选择“继续”
限定扫描范围并运行扫描
可以选择列表中适当的项,以便将扫描范围限定在特定的文件夹和子文件夹。
然后选择扫描规则集。 可以在系统默认项和现有的自定义规则集之间选择,或者可以以内联方式创建新规则集。
如果创建新的扫描规则集,请选择要包含在扫描规则中的文件类型。
可以选择要包含在扫描规则中的分类规则
选择扫描触发器。 可以设置一个计划或运行一次扫描。
查看扫描并选择“保存并运行”。
查看扫描
导航到“集合”中的“数据源”,然后选择“查看详细信息”以检查扫描状态
扫描详细信息在“上次运行状态”中指示扫描进度,并会指示已扫描和已分类的资产数量
整个扫描成功运行后,“上次运行状态”将更新为“正在进行”,然后更新为“已完成”
管理扫描
可以管理扫描,或者在完成时再次运行扫描。
选择“扫描名称”即可管理扫描
可以再次运行扫描、编辑扫描或删除扫描
注意
- 删除扫描不会删除以前扫描中创建的类别资产。
- 如果在 Microsoft Purview 的“架构”选项卡中编辑描述后,更改了源表并重新扫描源表,则不会再用架构更改来更新该资产。
可以再次运行增量扫描或完整扫描 。
后续步骤
现在,你已经注册了源,接下来请按照以下指南来详细了解 Microsoft Purview 和你的数据。