集成运行时 (IR) 是 Microsoft Purview 用于在不同网络环境中支持数据扫描的计算基础设施。 本文介绍Microsoft Purview中提供的不同类型的integration runtime,并提供有关如何为方案选择合适的integration runtime配置的指导。
集成运行时的类型
Purview 提供以下类型的集成运行时:
- Azure integration runtime:Azure integration runtime是完全托管的弹性计算,可用于扫描Azure或非Azure数据源。 Azure IR 支持使用可公开访问的终结点连接到数据存储和计算服务。 这是无需创建任何东西即可开始的默认集成运行时。
- 自承载集成运行时:自承载集成运行时可用于扫描本地网络或虚拟网络中的数据源。 可以在本地计算机或专用网络内的虚拟机上安装它。 有关详细信息,请参阅 创建和管理自承载集成运行时。
- Kubernetes 支持的自承载集成运行时:此集成运行时托管在 Kubernetes 集群上,可用于扫描本地网络或虚拟网络中的数据源。 Kubernetes 支持可提高整体性能,并允许集成运行时随作业一起扩展。 有关详细信息,请参阅 创建和管理 Kubernetes 支持的自承载集成运行时。
选择正确的集成运行时
根据需要选择适当的集成运行时。 考虑现有的体系结构和数据集成要求。 还要考虑如何满足不断增长的业务需求和将来增加的工作负载。
以下注意事项可帮助你做出决策:
要扫描哪些数据源类型?
查看 支持的数据源 部分,了解要扫描的数据源支持的 IR 类型。
在数据源上的网络访问控制是什么?
不同的数据源具有不同的网络防火墙设置,以防止它们通过 Internet 进行随机访问。 这些设置适用于本地、云和 SaaS 数据存储。 下表列出了一些常见的防火墙选项。 根据方案选择支持的 IR 类型。
数据源防火墙 Azure IR SHIR Kubernetes 支持的 SHIR 允许公共访问 ✓ ✓ ✓ 允许 Azure 服务 或 可信服务 ✓ ✓ ✓ 允许从特定的Azure虚拟网络进行访问 ✓ ✓ 允许特定 IP/IP 范围 ✓ ✓ 其他本地或专用网络访问 ✓ ✓ 你的 Microsoft Purview 的防火墙设置是什么?
Purview 提供了不同的网络防火墙选项。 从 配置防火墙 Microsoft Purview了解详细信息。 根据方案选择支持的 IR 类型。
Purview 防火墙 Azure IR SHIR Kubernetes 支持的 SHIR 从所有网络启用 ✓ ✓ ✓ 从所有网络禁用 • (需要从网络) 创建专用终结点 • (需要从网络) 创建专用终结点 在数据传输过程中需要什么安全级别?
integration runtime 位置定义其后端计算的位置以及执行扫描作业的位置。 对于数据驻留的考量:
使用 Azure IR 时,Purview 会自动检测数据源的位置,并使用该区域中的 IR。 如果 Purview 无法检测到该区域,它将使用 Purview 帐户的区域。
使用托管虚拟网络 IR 时,它会在您为托管虚拟网络配置的区域中运行。
使用 SHIR 时,您可以完全决定本地或 Azure 虚拟机中的位置。
例如,为了防止数据传输过程中的中间人攻击,请使用专用终结点和专用链接来确保数据安全。
使用托管虚拟网络 IR 时,您可以为数据存储创建托管专用终结点。 Purview 服务维护托管虚拟网络中的专用终结点。
您还可以在虚拟网络中创建专用终结点,SHIR 可以使用它们来访问数据存储。
你可以提供什么级别的维护?
维护基础结构、服务器和设备是企业 IT 部门的重要任务之一。 它通常需要大量的时间和精力。
- 使用 Azure IR 和托管虚拟网络 IR 时,无需担心更新、修补程序和版本等维护问题。 Purview 服务负责所有维护工作。
- 由于 SHIR 安装在计算机上,并且 Kubernetes 支持的 SHIR 位于 Kubernetes 群集上,因此需要管理维护。
- SHIR 支持自动更新,以便每当有更新时自动获取最新版本。 从 自托管集成运行时的自动更新和过期查看更多信息。
- 目前,Kubernetes 支持自托管集成运行时仅支持手动更新。
性能和可伸缩性
在适用情况下,请使用完全托管且可自动缩放的 Azure IR、托管虚拟网络 IR 或受 Kubernetes 支持的自承载集成运行时。 通过使用弹性,它们可以为你提供更好的性能和可伸缩性,尤其是在扫描大规模数据系统时。
托管虚拟网络集成运行时的休眠
如果集成运行时处于非活动状态(该集成运行时已超过 90 天没有执行任何扫描),则托管虚拟网络集成运行时会自动进入休眠状态。 选择集成运行时时,其状态显示为 “休眠 ”。
此更改对你意味着什么
在休眠的集成运行时上运行测试连接时,测试连接会失败。 15 分钟后,你将看到一条消息,用于尝试测试连接。 此时,托管虚拟网络将恢复正常状态。 在此之后,可以正常运行测试连接和扫描。
如果在处于休眠状态的 Integration Runtime 上未先运行“测试连接”,就使用 “立即运行扫描” 或 “编辑扫描” 选项直接运行扫描,或者通过 API 运行扫描,则会看到一条消息,提示此次扫描最多可能会额外花费 15 分钟。 此额外时间用于让处于休眠状态的 Integration Runtime 唤醒,并使扫描过程开始。 您看到的扫描状态为 “Queued_Waking Up IR”,而不是正常扫描时看到的 “Queued” 状态。 首次扫描后,您就可以正常进行之后的所有扫描。
支持的数据源
下表显示了 Purview 扫描支持的所有数据源,以及支持的集成运行时类型。
| 类别 | 支持的数据存储 | Azure IR/AWS IR | SHIR | Kubernetes SHIR |
|---|---|---|---|---|
| Azure | 多个来源 | ✓ | ||
| Azure Blob 存储 | ✓ | ✓ | ✓ | |
| Azure Cosmos DB (API for NoSQL) | ✓ | ✓ | ✓ | |
| Azure 数据资源管理器 | ✓ | ✓ | ✓ | |
| Azure Data Lake Storage Gen1 | ✓ | ✓ | ✓ | |
| Azure Data Lake Storage Gen2 | ✓ | ✓ | ✓ | |
| Azure Database for MySQL | ✓ | ✓ | ✓ | |
| Azure Database for PostgreSQL | ✓ | ✓ | ✓ | |
| Azure Databricks Hive 元数据存储 | ✓ | ✓ | ||
| Azure Databricks Unity 目录 | ✓ | ✓ | ||
| Azure专用 SQL 池(前 SQL DW) | ✓ | ✓ | ✓ | |
| Azure 文件存储 | ✓ | ✓ | ✓ | |
| Azure SQL 数据库 | ✓ | ✓ | ✓ | |
| Azure SQL 托管实例 | ✓ | ✓ | ✓ | |
| Azure Synapse Analytics (Workspace) | ✓ | ✓ | ✓ | |
| 织物 | ✓ | ✓ | ✓ | |
| Power BI | ✓ | ✓ | ✓ |