使用 Azure 数据工厂或 Synapse 管道将数据加载到 Azure Synapse Analytics 中
适用于:Azure 数据工厂 Azure Synapse Analytics
Azure Synapse Analytics 是一种基于云的向外扩展数据库,可以处理大量数据(关系数据和非关系数据)。 Azure Synapse Analytics 在大规模并行处理 (MPP) 体系结构的基础上构建,已针对企业数据仓库工作负荷进行优化。 它通过灵活地缩放存储以及独立计算提供云灵活性。
Azure Synapse Analytics 入门现在变得前所未有的简单。 Azure 数据工厂及其在 Azure Synapse 中的等效管道功能提供了完全托管且基于云的数据集成服务。 该服务可用于使用现有系统中的数据填充 Azure Synapse Analytics,在生成分析解决方案时节省时间。
以下是使用 Azure 数据工厂和 Synapse 管道将数据加载到 Azure Synapse Analytics 的优点:
- 轻松设置:无需脚本的直观 5 步向导。
- 丰富的数据存储支持:对一组丰富的本地和基于云的数据存储的内置支持。 有关详细列表,请参阅表支持的数据存储。
- 安全且合规:通过 HTTPS 或 ExpressRoute 传输数据。 存在全局服务可确保数据永远不会离开地理边界。
- 通过使用 PolyBase 提供无与伦比的性能:使用 Polybase 是将数据移到 Azure Synapse Analytics 的最高效方法。 使用暂存 blob 功能,可以从所有类型的数据存储(包括 Azure Blob 存储)实现高加载速度。 (默认情况下,Polybase 支持 Azure Blob 存储。)有关详细信息,请参阅复制活动性能。
本文介绍如何使用复制数据工具将数据从 Azure SQL 数据库加载到 Azure Synapse Analytics。 可以遵循类似步骤,从其他类型的数据存储中复制数据。
注意
有关详细信息,请参阅向/从 Azure Synapse Analytics 复制数据。
先决条件
- Azure 订阅:如果没有 Azure 订阅,可在开始前创建一个试用帐户。
- Azure Synapse Analytics:此数据仓库保存从 SQL 数据库复制的数据。 如果没有 Azure Synapse Analytics,请参阅创建 Azure Synapse Analytics 中的说明。
- Azure SQL 数据库:本教程从 Azure SQL 数据库中的 Adventure Works LT 示例数据集中复制数据。 可以按照在 Azure SQL 数据库中创建示例数据库中的说明在 SQL 数据库中创建此示例数据库。
- Azure 存储帐户:Azure 存储用作大容量复制操作中的暂存 blob。 如果没有 Azure 存储帐户,请参阅创建存储帐户中的说明。
创建数据工厂
如果尚未创建数据工厂,请按照快速入门:使用 Azure 门户和 Azure 数据工厂工作室创建数据工厂中的步骤进行创建。 创建后,浏览到 Azure 门户中的数据工厂。
在“打开 Azure 数据工厂工作室”磁贴上选择“打开”,以便在单独选项卡中启动“数据集成应用程序”。
将数据加载到 Azure Synapse Analytics 中
在 Azure 数据工厂或 Azure Synapse 工作区的主页中,选择“引入”磁贴以启动复制数据工具。 然后选择“内置复制任务”。
在“属性”页上,选择“任务类型”下的“内置复制任务”,然后选择“下一步”。
在“源数据存储”页上,完成以下步骤:
提示
本教程使用“SQL 身份验证”作为源数据存储的身份验证类型,但你可以根据需要选择其他受支持的身份验证方法:“服务主体”和“托管标识”。 有关详细信息,请参阅此文中的相应部分。 为了安全地存储数据存储的机密,我们还建议使用 Azure Key Vault。 有关详细说明,请参阅此文。
选择“+ 新建连接”。
从库中选择“Azure SQL 数据库”,然后选择“继续” 。 可以在搜索框中键入“SQL”以筛选连接器。
在“新建连接(Azure SQL 数据库)”页上,从下拉列表中选择服务器名称和 DB 名称,指定用户名和密码。 选择“测试连接”以验证设置,然后选择“创建” 。
在“源数据存储”页上的“连接”部分中,选择新创建的连接作为源 。
在“源表”部分中,输入 SalesLT 以筛选表。 选中“(全选)”复选框以便对副本使用所有表,然后选择“下一步”。
在“应用筛选器”页中,指定你的设置或选择“下一步”。 选择此页上的“预览数据”按钮即可预览数据并查看输入数据的架构。
在“目标数据存储”页上,完成以下步骤:
提示
本教程使用“SQL 身份验证”作为目标数据存储的身份验证类型,但你可以根据需要选择其他受支持的身份验证方法:“服务主体”和“托管标识”。 有关详细信息,请参阅此文中的相应部分。 为了安全地存储数据存储的机密,我们还建议使用 Azure Key Vault。 有关详细说明,请参阅此文。
选择“+ 新建连接”添加一个连接。
从库中选择“Azure Synapse Analytics”,然后选择“继续” 。
在“新建连接 (Azure Synapse Analytics)”页上,从下拉列表中选择服务器名称和 DB 名称,指定用户名和密码。 选择“测试连接”以验证设置,然后选择“创建” 。
在“目标数据存储”上的“连接”部分中选择新创建的连接作为接收器 。
在“表映射”选项中查看内容并选择“下一步”。 此时会显示智能表映射。 源表已根据表名映射到目标表。 如果目标中不存在表,则默认情况下,服务将创建一个具有相同名称的目标表。 还可以将源表映射到现有目标表。
在“列映射”页中,查看内容并选择“下一步”。 智能表映射基于列名。 如果自动创建的表的服务、源和目标存储之间存在不兼容时,可能发生数据类型转换。 如果在源列与目标列之间进行不受支持的数据类型转换,会显示错误消息以及相应的表。
在“设置”页上,完成以下步骤:
为“任务名称”字段指定 CopyFromSQLToSQLDW。
在“暂存设置”部分,选择“+ 新建”,新建临时存储 。 该存储用于在通过 PolyBase 将数据加载至 Azure Synapse Analytics 前暂存数据。 复制完成后,会自动清除 Azure Blob 存储中的临时数据。
在“新建链接服务”页中,选择你的存储帐户,然后选择“创建”以部署链接服务。
取消选择“使用类型默认值”选项,然后选择“下一步” 。
在“摘要”页中检查设置,然后选择“下一步”。
在“部署”页中,选择“监视”可以监视管道(任务) 。
请注意,界面中已自动选择左侧的“监视”选项卡。 管道运行成功完成后,在“管道名称”列下选择“CopyFromSQLToSQLDW”链接即可查看活动运行详细信息或重新运行该管道。
若要切换回到管道运行视图,请选择顶部的“所有管道运行”链接。 选择“刷新”可刷新列表。
若要监视每个复制活动的执行详情,请在活动运行视图中选择“活动名称”下的“详细信息”链接(眼镜图标)。 可以监视详细信息,例如,从源复制到接收器的数据量、吞吐量、执行步骤以及相应的持续时间和使用的配置。
相关内容
请转至下列文章,了解 Azure Synapse Analytics 支持: