扫描 Microsoft Purview 中的数据源

在 Microsoft Purview 中,注册数据源后,可以扫描该源以捕获技术元数据、提取架构并对数据应用分类。

本文介绍扫描任何数据源的基本步骤。

提示

每个源都有自身的扫描说明和先决条件。 若要获取最完整的扫描说明,请从支持的源列表中选择你的源,然后查看其扫描说明。

先决条件

此处提供了当前可在 Microsoft Purview 中注册和扫描的所有源的列表。

在扫描数据源之前,必须先完成以下步骤:

  1. 注册数据源 - 这实际上是为 Microsoft Purview 提供数据源的地址,并将其映射到 Microsoft Purview 数据映射中的集合或域
  2. 请仔细考虑你的网络,并为你的方案选择正确的集成运行时配置
  3. 考虑使用哪些凭据连接到源。 所有源页都包含一个“扫描”部分,其中提供了有关可用身份验证类型的详细信息。

创建扫描

在以下步骤中,我们将使用 Azure Blob 存储作为示例,并使用 Microsoft Purview 托管标识进行身份验证。

重要

下面是创建扫描的一般步骤,但你应该参考源页来了解特定于源的先决条件和扫描说明。

  1. 打开 Microsoft Purview 门户,导航到“数据映射”->“数据源”,以在映射或表视图中查看已注册的源

    提示

    如果数据映射具有大量已注册的源,表视图的性能可能更高。

  2. 找到你的源并选择“新建扫描”图标。

    已注册的源和新建扫描窗口的屏幕截图,其中突出显示了新建扫描按钮。

  3. 为扫描提供名称。

  4. 选择身份验证方法。 此处我们选择了 Purview MSI(托管标识)。

    显示用于运行扫描的托管标识选项的屏幕截图。

  5. 选择当前域、集合或子集合用于扫描。 所选的集合或域用于存放扫描期间发现的元数据。

    注意

    扫描将始终与已注册的源位于同一域中,但你可以选择子集合。

  6. 选择“测试连接”。 如果连接失败,请参阅“故障排除”部分。 连接成功后,选择“继续”。

  7. 可以根据源将扫描范围限定为特定的数据子集。 对于 Azure Blob 存储,可以通过在列表中选择相应的项来选择文件夹和子文件夹。

    显示限定扫描范围窗口以及选择的文件和文件夹的屏幕截图。

  8. 选择扫描规则集。 扫描规则集包含扫描将检查的数据分类。 可以选择系统默认设置(将包含可用于源的所有分类)或组织中其他人创建的现有自定义规则集,也可以创建新的内联规则集

    注意

    只能选择与用于注册源的域关联的凭据和扫描规则集。

    选择扫描规则集页的屏幕截图,其中选择了默认集。

  9. 选择扫描触发器。 可以设置一个计划或运行一次扫描。 详细了解支持的计划选项

    设置扫描触发器页的屏幕截图,其中显示了重复性的每月计划。

  10. 查看扫描并选择“保存并运行”。

    查看扫描页的屏幕截图,其中突出显示了保存并运行按钮。

计划扫描

设置扫描时,可以选择运行一次/按需或定期计划。 可以配置以下计划选项:

  • 时区:选择与扫描计划保持一致的时区。 如果选择的时区遵循夏令时,触发器将根据时差自动调整。
  • 定期:可以选择每日、每周或每月定期扫描。
    • 每日定期:将重复周期设置为每 X 天,并指定当天扫描开始的时间。
    • 每周定期:将重复周期设置为每 X 周,选择一周中的一天或多天,并指定当天扫描开始的时间。
    • 每月定期:将重复周期设置为每 X 个月,按月天数或工作日选择,选择月份的一个或多个日/工作日,并指定当天扫描开始的时间。
  • 开始定期:设置扫描计划开始的时间。
  • 指定定期结束日期(可选):如果要在一定时间后停止扫描,可以通过选中复选框并提供结束日期来启用此选项。

设置扫描触发器页的屏幕截图。

查看扫描

根据数据源中的数据量,扫描可能需要一段时间才能完成运行。可以通过以下方式检查进度并在扫描完成后查看结果。

  1. 可以从集合、域或源本身查看扫描。

  2. 若要从集合或域查看扫描,请在数据映射中导航到你的集合或域,然后选择“扫描”按钮

    集合页的屏幕截图,其中突出显示了扫描按钮。

  3. 选择你的扫描名称以查看详细信息。

    集合列表中的扫描的屏幕截图,其中突出显示了最近的扫描名称。

  4. 或者,可以直接导航到其“集合”或“域”中的数据源,然后选择“查看详细信息”以检查扫描状态

    数据映射的屏幕截图,其中突出显示了源的查看详细信息按钮。

  5. 扫描详细信息在“上次运行状态”中指示扫描进度,并会指示已扫描和已分类的资产数量。

    源详细信息页的屏幕截图,其中突出显示了资产和扫描。

  6. 整个扫描成功运行后,“上次运行状态”将更新为“正在进行”,然后更新为“已完成”

    源详细信息页的屏幕截图,其中显示了某个扫描处于正在进行状态。

    源详细信息页的屏幕截图,其中显示了某个扫描处于已完成状态。

管理扫描

扫描完成后,可对其进行管理或再次运行该扫描。

  1. 在集合列表或源页中选择“扫描名称”以管理扫描。

    源详细信息页的屏幕截图,其中突出显示了扫描名称链接。

  2. 可以再次运行扫描、编辑扫描或删除扫描

    管理扫描页的屏幕截图,其中突出显示了运行、编辑和删除按钮。

  3. 可以运行完整扫描,这会扫描范围内的所有内容;但对于某些源,也可以使用增量扫描。 增量扫描只会扫描那些自上次扫描以来已更新的资源。 检查源页中的“支持的功能”表,以查看在完成首次扫描后,是否可对你的源使用增量扫描。

    立即运行扫描按钮的屏幕截图,其中显示了完整和增量扫描选项。

故障排除

为扫描设置连接可能比较复杂,因为这是一项涉及到网络和凭据的自定义设置。

如果无法连接到源,请执行以下步骤:

  1. 查看源页先决条件,确保没有遗漏任何设置。
  2. 查看源页“扫描”部分中的身份验证选项,确认已正确设置身份验证方法。
  3. 查看排查连接问题页
  4. 创建支持请求,让我们的支持团队帮助你排查具体的环境问题。

后续步骤