注意
本文是《Azure Synapse 实施成功设计》系列文章的一部分。 关于系列概述,请参阅《由设计实现成功的 Azure Synapse》。
Azure Synapse Analytics包含与 Azure Data Factory(ADF)相同的数据集成引擎和体验,因此无需离开Azure Synapse Analytics即可创建丰富的大规模 ETL 管道。
本文介绍如何评估项目的数据集成组件的设计。 具体而言,它有助于确定Azure Synapse管道是否最适合数据集成要求。 在开发解决方案之前对设计进行评估所投入的时间有助于消除可能影响项目时间表或成本的意外设计更改。
适配差距分析
应对数据集成策略执行全面的适配差距分析。 如果选择Azure Synapse管道作为数据集成工具,请查看以下几点,确保它们最适合数据集成要求和业务流程。 即使选择不同的数据集成工具,仍应查看以下要点,以验证所有关键设计点是否都已考虑到,并且所选工具是否支持你的解决方案需求。 应在此方法的前期评估过程中捕获此信息。
- 查看数据源和目标:
- 查看数据集成的触发点及其频率。
- Azure Synapse管道支持计划、翻滚窗口和存储事件触发器。
- 根据要求验证最小重复间隔和支持的存储事件。
- 查看所需的数据集成模式:
- 可以在 Azure Synapse 管道中有效地设计计划、触发和定期的批处理。
- 要实现变更数据捕获 (CDC) 功能,请使用第三方产品或创建自定义解决方案。
- 若要支持实时流式处理,请使用 Azure Event Hubs、Apache Kafka 的 Azure Event Hubs 或 Azure IoT Hub。
- 若要运行 Microsoft SQL Server Integration Services (SSIS) 包,可以将 SSIS 工作负荷转移到云。
- 查看计算设计:
- 管道所需的计算资源需要是无服务器的还是预配置的?
- Azure Synapse管道支持集成运行时(IR):无服务器模式或本地自托管在Windows操作系统上。
- 使用自承载 IR(预配)时,验证
端口、 防火墙 和代理设置 。
- 查看环境的安全要求、网络和防火墙配置,并将其与安全性、网络和防火墙配置设计进行比较:
- 评审数据源的保护方式和网络连接方式。
- 评审目标数据存储的保护方式和网络连接方式。 Azure Synapse管道具有不同的 data 访问策略,可提供通过专用终结点或虚拟网络连接数据存储的安全方法。
- 使用 Azure Key Vault 存储凭据(如果适用)。
- 使用 ADF 对凭据进行客户管理密钥 (CMK) 加密,并将其存储在自托管 IR 中。
- 评审对所有数据集成组件的持续监视的设计。
体系结构注意事项
在评审数据集成设计时,请考虑以下建议和准则,以确保解决方案的数据集成组件将提供持续的卓越运营、性能效率、可靠性和安全性。
卓越运营
为实现卓越运营,请评估以下要点。
- 环境:规划环境时,请将开发/测试环境、用户验收测试 (UAT) 环境和生产环境分离开来。 使用文件夹组织选项按业务/ETL 作业来组织管道和数据集,以实现更好的可维护性。
- 监视和警报:Synapse 工作区包含监视中心,其中提供所有管道运行的丰富监视信息。 它还与 Log Analytics 集成,以便进一步进行日志分析和警报。 应实现这些功能以提供主动错误通知。 此外,使用“失败时”路径实现自定义错误处理。
- 自动化部署和测试: Azure Synapse 管道与 Synapse 工作区集成,从而能够更好地利用工作区的自动化和部署能力。 使用 ARM 模板最大限度地减少创建 Synapse 工作区时的手动活动。
性能效率
为提高性能效率,请评估以下要点。
- 使用复制活动时,请按照性能指南和优化功能的说明进行操作。
- 为数据传输选择优化的连接器,而不是泛型连接器。 例如,将数据从 Azure Data Lake Storage Gen2 (ALDS Gen2) 移动到专用 SQL 池时,请使用 PolyBase 而不是批量插入。
- 创建新的 Azure IR 时,请将区域位置设置为 auto-resolve 或选择与数据存储相同的区域。
- 对于自承载 IR,请根据集成要求选择 Azure 虚拟机(VM)大小。
- 选择稳定的网络连接,例如 Azure ExpressRoute,以便快速且一致的带宽。
可靠性
在使用 Azure IR 执行管道时,由于它采用无服务器架构,因此可以开箱即用地提供弹性。 客户几乎没有什么需要管理的。 但是,当管道在自承载 IR 中运行时,我们建议在 Azure VM 中使用 高可用性配置运行它。 此配置可确保即使 VM 脱机,集成管道也不会中断。 此外,建议在本地和Azure之间使用Azure ExpressRoute实现快速可靠的网络连接。
安全性
安全的数据平台是每个组织的关键要求之一。 你应全面规划整个平台的安全性,而不是单个组件的安全性。 下面是Azure Synapse管道解决方案的一些安全准则。
- 使用 Azure Synapse 专用终结点保护数据移动到云。
- 使用 Microsoft Entra 托管标识进行身份验证。
- 使用Azure基于角色的访问控制(RBAC)和Synapse RBAC进行授权。
- 将凭据、机密和密钥存储在Azure Key Vault而不是管道中。 有关详细信息,请参阅 在管道活动中使用Azure Key Vault机密。
- 通过专用终结点通过Azure ExpressRoute或 VPN 连接到本地资源。
- 当参数存储机密或密码时,在管道活动中启用“安全输出”和“安全输入”选项。
后续步骤
在下一个文章中的Azure Synapse 设计成功系列中,了解如何评估您专用的 SQL 池设计,识别问题并验证其是否符合指南和要求。