Compartilhar via

使用 Azure 数据工厂 或 Synapse 管道将数据加载到Azure Synapse Analytics

适用于: Azure 数据工厂 Azure Synapse Analytics

Azure Synapse Analytics是一种基于云的横向扩展数据库,能够处理大量数据(关系和非关系)。 Azure Synapse Analytics基于大规模并行处理(MPP)体系结构构建,该体系结构针对企业数据仓库工作负荷进行了优化。 它提供云弹性性能,能够灵活地独立缩放存储和计算资源。

Azure Synapse Analytics入门现在比以往更容易。 Azure 数据工厂及其等效管道功能在Azure Synapse本身提供完全托管的基于云的数据集成服务。 可以使用该服务使用现有系统中的数据填充Azure Synapse Analytics,并在生成分析解决方案时节省时间。

Azure 数据工厂 和 Synapse 管道为将数据加载到 Azure Synapse Analytics 提供以下优势:

  • 轻松设置:无需脚本的直观 5 步向导。
  • 丰富的数据存储支持:对一组丰富的本地和基于云的数据存储的内置支持。 详细列表请参阅表支持的数据存储库
  • 安全且合规:通过 HTTPS 或 ExpressRoute 传输数据。 存在全局服务可确保数据永远不会离开地理边界。
  • 通过 PolyBase 实现无与伦比的性能:PolyBase 是将数据移入 Azure Synapse Analytics 的最高效方法。 使用 staging blob 功能以实现从所有类型的数据存储(包括 Azure Blob 存储)高速加载。 (Polybase 默认支持Azure Blob 存储。有关详细信息,请参阅 复制活动 性能

本文介绍如何使用复制数据工具将数据从 Azure SQL 数据库 加载到 Azure Synapse Analytics。 可以遵循类似步骤,从其他类型的数据存储中复制数据。

注意

有关详细信息,请参阅 Copy 数据到或从 Azure Synapse Analytics

先决条件

  • Azure订阅:如果没有Azure订阅,请在开始前创建试用帐户
  • Azure Synapse Analytics:数据仓库保存从 SQL 数据库复制的数据。 如果没有Azure Synapse Analytics,请参阅 创建 Azure Synapse Analytics
  • Azure SQL 数据库:本教程从 Azure SQL 数据库 中的 Adventure Works LT 示例数据集复制数据。 可以按照 Azure SQL 数据库0 中创建示例数据库的说明在 SQL 数据库中创建此示例数据库。
  • Azure 存储帐户:Azure 存储 用作批量复制操作中的 staging blob。 如果没有Azure存储帐户,请参阅 创建存储帐户中的说明。

创建数据工厂

  1. 如果尚未创建数据工厂,请按照 Quickstart:使用 Azure 门户和 Azure 数据工厂 Studio 创建数据工厂创建一个数据工厂。 创建后,导航到 Azure 门户中的数据工厂。

    Azure 数据工厂主页,其中包含打开 Azure 数据工厂工作室的图块。

  2. Open Azure 数据工厂 Studio 磁贴上选择 Open,以在单独的选项卡中启动数据集成应用程序。

将数据加载到Azure Synapse Analytics

  1. 在Azure 数据工厂或Azure Synapse工作区的主页中,选择引入磁贴以启动复制数据工具。 然后选择内置的复制任务。

  2. 在“属性”页上,选择“任务类型”下的“内置复制任务”,然后选择“下一步”。

    “属性”页

  3. 在“源数据存储”页上,完成以下步骤:

    提示

    本教程使用“SQL 身份验证”作为源数据存储的身份验证类型,但你可以根据需要选择其他受支持的身份验证方法:“服务主体”和“托管标识”。 有关详细信息,请参阅此文中的相应部分。 若要安全地存储数据存储的机密,还建议使用Azure 密钥保管库。 有关详细说明,请参阅此文

    1. 选择“+ 新建连接”。

    2. 从库中选择 Azure SQL 数据库,然后选择“继续”。 可以在搜索框中键入“SQL”以筛选连接器。

      select Azure SQL DB

    3. 新连接(Azure SQL 数据库)页中,从下拉列表中选择服务器名称和数据库名称,并指定用户名和密码。 选择“测试连接”以验证设置,然后选择“创建” 。

      configure Azure SQL DB

    4. 在“源数据存储”页上的“连接”部分中,选择新创建的连接作为源 。

    5. 在“源表”部分中,输入 SalesLT 以筛选表。 选择“全选”框以使用所有表格进行复制,然后选择“下一步”。

    显示“源数据存储”页配置的屏幕截图。

  4. 在“应用筛选器”页中,指定你的设置或选择“下一步”。 选择此页上的“预览数据”按钮即可预览数据并查看输入数据的架构。

    显示“应用筛选器”页的屏幕截图。

  5. 在“目标数据存储”页上,完成以下步骤:

    提示

    本教程使用“SQL 身份验证”作为目标数据存储的身份验证类型,但你可以根据需要选择其他受支持的身份验证方法:“服务主体”和“托管标识”。 有关详细信息,请参阅此文中的相应部分。 若要安全地存储数据存储的机密,还建议使用Azure 密钥保管库。 有关详细说明,请参阅此文

    1. 选择“+ 新建连接”添加一个连接。

    2. 从画廊中选择Azure Synapse Analytics,然后选择继续

      Select Azure Synapse Analytics

    3. 新连接(Azure Synapse Analytics)页中,从下拉列表中选择服务器名称和数据库名称,并指定用户名和密码。 选择“测试连接”以验证设置,然后选择“创建” 。

      Configure Azure Synapse Analytics

    4. 在“目标数据存储”页面的“连接”部分中,选择新创建的连接作为汇聚器。

  6. 在“表映射”选项中查看内容并选择“下一步”。 此时会显示智能表映射。 源表已根据表名映射到目标表。 如果目标中不存在表,则默认情况下,服务将创建一个具有相同名称的目标表。 还可以将源表映射到现有目标表。

    显示“目标数据存储”页配置的屏幕截图。

  7. 在“列映射”页中,查看内容并选择“下一步”。 智能表映射基于列名。 如果您让服务自动创建表,当源和目标存储之间存在不兼容时,可能会发生数据类型转换。 如果在源列与目标列之间进行不受支持的数据类型转换,错误消息将显示在相应表格旁边。

    “列映射”页

  8. 在“设置”页上,完成以下步骤:

    1. 为“任务名称”字段指定 CopyFromSQLToSQLDW。

    2. 在“暂存设置”部分,选择“+ 新建”,新建临时存储 。 存储用于暂存数据以备通过 PolyBase 加载到 Azure Synapse Analytics。 复制完成后,会自动清理Azure Blob 存储中的临时数据。

    3. 在“新建链接服务”页中,选择你的存储帐户,然后选择“创建”以部署链接服务。

    4. 取消选择“使用类型默认值”选项,然后选择“下一步” 。

    配置 PolyBase

  9. 在“摘要”页中检查设置,然后选择“下一步”。

  10. 在“部署”页中,选择“监视”来监视管道(任务)。

    显示“Deployment”页面的屏幕截图。

  11. 请注意,左侧的“监控”选项卡已自动选中。 管道运行成功完成后,在“管道名称”列下选择“CopyFromSQLToSQLDW”链接即可查看活动运行详细信息或重新运行该管道。


  1. 若要切换回到管道运行视图,请选择顶部的“所有管道运行”链接。 选择“刷新”可刷新列表。

    监控活动运行

  2. 若要监视每个复制活动的执行详情,请在活动运行视图中选择“活动名称”下的“详细信息”链接(眼镜图标)。 可以监视详细信息,例如,从源复制到接收器的数据量、吞吐量、执行步骤以及相应的持续时间和使用的配置。

    首先监视活动运行详细信息

    监视活动运行详情秒数

请继续学习以下文章,了解Azure Synapse Analytics支持: