扫描 Microsoft Purview 中的数据源
在 Microsoft Purview 中,注册数据源后,可以扫描该源以捕获技术元数据、提取架构并对数据应用分类。
本文介绍扫描任何数据源的基本步骤。
提示
每个源都有自身的扫描说明和先决条件。 若要获取最完整的扫描说明,请从支持的源列表中选择你的源,然后查看其扫描说明。
先决条件
此处提供了当前可在 Microsoft Purview 中注册和扫描的所有源的列表。
在扫描数据源之前,必须先完成以下步骤:
- 注册数据源 - 这实际上是为 Microsoft Purview 提供数据源的地址,并将其映射到 Microsoft Purview 数据映射中的集合或域。
- 请仔细考虑你的网络,并为你的方案选择正确的集成运行时配置。
- 考虑使用哪些凭据连接到源。 所有源页都包含一个“扫描”部分,其中提供了有关可用身份验证类型的详细信息。
创建扫描
在以下步骤中,我们将使用 Azure Blob 存储作为示例,并使用 Microsoft Purview 托管标识进行身份验证。
重要
下面是创建扫描的一般步骤,但你应该参考源页来了解特定于源的先决条件和扫描说明。
打开 Microsoft Purview 门户,导航到“数据映射”->“数据源”,以在映射或表视图中查看已注册的源。
提示
如果数据映射具有大量已注册的源,表视图的性能可能更高。
找到你的源并选择“新建扫描”图标。
为扫描提供名称。
选择身份验证方法。 此处我们选择了 Purview MSI(托管标识)。
选择当前域、集合或子集合用于扫描。 所选的集合或域用于存放扫描期间发现的元数据。
注意
扫描将始终与已注册的源位于同一域中,但你可以选择子集合。
选择“测试连接”。 如果连接失败,请参阅“故障排除”部分。 连接成功后,选择“继续”。
可以根据源将扫描范围限定为特定的数据子集。 对于 Azure Blob 存储,可以通过在列表中选择相应的项来选择文件夹和子文件夹。
选择扫描规则集。 扫描规则集包含扫描将检查的数据分类。 可以选择系统默认设置(将包含可用于源的所有分类)或组织中其他人创建的现有自定义规则集,也可以创建新的内联规则集。
注意
只能选择与用于注册源的域关联的凭据和扫描规则集。
选择扫描触发器。 可以设置一个计划或运行一次扫描。 详细了解支持的计划选项。
查看扫描并选择“保存并运行”。
计划扫描
设置扫描时,可以选择运行一次/按需或定期计划。 可以配置以下计划选项:
- 时区:选择与扫描计划保持一致的时区。 如果选择的时区遵循夏令时,触发器将根据时差自动调整。
- 定期:可以选择每日、每周或每月定期扫描。
- 每日定期:将重复周期设置为每 X 天,并指定当天扫描开始的时间。
- 每周定期:将重复周期设置为每 X 周,选择一周中的一天或多天,并指定当天扫描开始的时间。
- 每月定期:将重复周期设置为每 X 个月,按月天数或工作日选择,选择月份的一个或多个日/工作日,并指定当天扫描开始的时间。
- 开始定期:设置扫描计划开始的时间。
- 指定定期结束日期(可选):如果要在一定时间后停止扫描,可以通过选中复选框并提供结束日期来启用此选项。
查看扫描
根据数据源中的数据量,扫描可能需要一段时间才能完成运行。可以通过以下方式检查进度并在扫描完成后查看结果。
可以从集合、域或源本身查看扫描。
若要从集合或域查看扫描,请在数据映射中导航到你的集合或域,然后选择“扫描”按钮。
选择你的扫描名称以查看详细信息。
或者,可以直接导航到其“集合”或“域”中的数据源,然后选择“查看详细信息”以检查扫描状态。
扫描详细信息在“上次运行状态”中指示扫描进度,并会指示已扫描和已分类的资产数量。
整个扫描成功运行后,“上次运行状态”将更新为“正在进行”,然后更新为“已完成”
管理扫描
扫描完成后,可对其进行管理或再次运行该扫描。
在集合列表或源页中选择“扫描名称”以管理扫描。
可以再次运行扫描、编辑扫描或删除扫描
可以运行完整扫描,这会扫描范围内的所有内容;但对于某些源,也可以使用增量扫描。 增量扫描只会扫描那些自上次扫描以来已更新的资源。 检查源页中的“支持的功能”表,以查看在完成首次扫描后,是否可对你的源使用增量扫描。
故障排除
为扫描设置连接可能比较复杂,因为这是一项涉及到网络和凭据的自定义设置。
如果无法连接到源,请执行以下步骤: