快速入门:使用“复制数据”工具复制数据

适用于: Azure 数据工厂 Azure Synapse Analytics

在本快速入门中,我们将使用 Azure 门户创建一个数据工厂。 然后,使用“复制数据”工具创建一个管道,用于将数据从 Azure Blob 存储中的某个文件夹复制到另一个文件夹。

备注

如果你对 Azure 数据工厂不太熟悉,请在学习本快速入门之前参阅 Azure 数据工厂简介

先决条件

Azure 订阅

如果没有 Azure 订阅,请在开始前创建一个试用订阅

Azure 角色

若要创建数据工厂实例,用于登录到 Azure 的用户帐户必须属于参与者或所有者角色,或者是 Azure 订阅的管理员。 若要查看你在订阅中拥有的权限,请转到 Azure 门户,在右上角选择你的用户名,然后选择“...” 图标以显示更多选项,然后选择“我的权限” 。 如果可以访问多个订阅,请选择相应的订阅。

若要为数据工厂创建和管理子资源(包括数据集、链接服务、管道、触发器和集成运行时),以下要求适用:

  • 若要在 Azure 门户中创建和管理子资源,你必须属于资源组级别或更高级别的 数据工厂参与者 角色。
  • 若要使用 PowerShell 或 SDK 创建和管理子资源,资源级别或更高级别的 参与者 角色已足够。

有关如何将用户添加到角色的示例说明,请参阅添加角色一文。

有关详细信息,请参阅以下文章:

Azure 存储帐户

在本快速入门中,使用常规用途的 Azure 存储帐户(具体的说就是 Blob 存储)作为源 和目标 数据存储。 如果没有常规用途的 Azure 存储帐户,请参阅创建存储帐户创建一个。

获取存储帐户名称

在本快速入门中,将需要 Azure 存储帐户的名称。 以下过程提供的步骤用于获取存储帐户的名称:

  1. 在 Web 浏览器中,转到 Azure 门户并使用你的 Azure 用户名和密码登录。
  2. 从 Azure 门户菜单中,选择“所有服务”,然后选择“存储” > “存储帐户” 。 此外,也可以在任何页面中搜索和选择“存储帐户” 。
  3. 在“存储帐户”页中,筛选你的存储帐户(如果需要),然后选择它 。

此外,也可以在任何页面中搜索和选择“存储帐户” 。

创建 Blob 容器

本部分介绍如何在 Azure Blob 存储中创建名为 adftutorial 的 Blob 容器。

  1. 在“存储帐户”页上,选择“概述” > “容器”。

  2. 在 <Account name> - “容器”页的工具栏中,选择“容器” 。

  3. 在“新建容器” 对话框中,输入 adftutorial 作为名称,然后选择“确定” 。 <Account name> - “容器”页已更新为在容器列表中包含“adftutorial” 。

    容器列表

为 Blob 容器添加输入文件夹和文件

在此部分中,在创建的容器中创建名为“input”的文件夹,再将示例文件上传到 input 文件夹。 在开始之前,打开文本编辑器(如记事本),并创建包含以下内容的名为“emp.txt”的文件 :

John, Doe
Jane, Doe

将此文件保存在 C:\ADFv2QuickStartPSH 文件夹中 。 (如果此文件夹不存在,则创建它。)然后返回到 Azure 门户并执行以下步骤:

  1. 在上次离开的 <Account name> - “容器”页中,选择已更新的容器列表中的“adftutorial” 。

    1. 如果关闭了窗口或转到其他页,请再次登录到 Azure 门户
    2. 从 Azure 门户菜单中,选择“所有服务”,然后选择“存储” > “存储帐户” 。 此外,也可以在任何页面中搜索和选择“存储帐户” 。
    3. 选择存储帐户,然后选择“容器” > “adftutorial” 。
  2. 在“adftutorial”容器页面的工具栏上,选择“上传” 。

  3. 在“上传 Blob”页中,选择“文件”框,然后浏览到 emp.txt 文件并进行选择 。

  4. 展开“高级”标题 。 此页现在显示如下内容:

    选择“高级...”链接

  5. 在“上传到文件夹”框中,输入“输入” 。

  6. 选择“上传”按钮。 应该会在列表中看到 emp.txt 文件和上传状态。

  7. 选择“关闭”图标 (X) 以关闭“上传 Blob”页面 。

让“adftutorial”容器页面保持打开状态 。 在本快速入门结束时可以使用它来验证输出。

创建数据工厂

  1. 启动 Microsoft EdgeGoogle Chrome Web 浏览器。 目前,仅 Microsoft Edge 和 Google Chrome Web 浏览器支持数据工厂 UI。

  2. 转到 Azure 门户

  3. 在 Azure 门户菜单中,选择“创建资源” > “分析” > “数据工厂”:

    新建数据工厂

  4. 在“新建数据工厂”页中,输入 ADFTutorialDataFactory 作为 名称

    Azure 数据工厂的名称必须全局唯一。 如果出现以下错误,请更改数据工厂的名称(例如改为 <yourname>ADFTutorialDataFactory),并重新尝试创建。 有关数据工厂项目的命名规则,请参阅数据工厂 - 命名规则一文。

    名称不可用时出错

  5. 对于“订阅”,请选择要在其中创建数据工厂的 Azure 订阅。

  6. 对于“资源组”,请使用以下步骤之一:

    • 选择“使用现有”,并从列表中选择现有的资源组。
    • 选择“新建”,并输入资源组的名称。

    若要了解有关资源组的详细信息,请参阅 使用资源组管理 Azure 资源

  7. 对于“位置”,请选择数据工厂所在的位置。

    该列表仅显示数据工厂支持的位置,以及 Azure 数据工厂元数据要存储到的位置。 数据工厂使用的关联数据存储(如 Azure 存储和 Azure SQL 数据库)和计算(如 Azure HDInsight)可以在其他区域中运行。

  8. 选择“创建”。

  9. 创建完成后,会显示“数据工厂”页。 选择“创作和监视”磁贴,在单独的选项卡中启动 Azure 数据工厂用户界面 (UI) 应用程序。

    Azure 数据工厂的主页,其中包含“创作和监视”磁贴。

启动“复制数据”工具

  1. 在“开始”页中,选择“复制数据”磁贴启动“复制数据”工具。

    “复制数据”磁贴

  2. 在“复制数据”工具的“属性”页上,可以指定管道的名称及其说明,然后选择“下一步”。

    “属性”页

  3. 在“源数据存储” 页上,完成以下步骤:

    1. 单击“+ 创建新连接”,添加一个连接。

    2. 选择要创建的用于源连接的链接服务类型。 在本教程中,我们使用“Azure Blob 存储”。 从库中选择它,然后选择“继续”。

      选择 Blob

    3. 在“新建连接(Azure Blob 存储)”页上,指定连接的名称。 从“Azure 订阅”列表中选择你的 Azure 订阅,从“存储帐户名称”列表中选择你的存储帐户,测试连接,然后选择“创建” 。

      配置 Azure Blob 存储帐户

    4. 在“连接”块中选择新建的连接。

    5. 在“文件或文件夹”部分,选择“浏览”导航到“adftutorial/input”文件夹,选择“emp.txt”文件,然后单击“确定” 。

    6. 选中“二进制复制”复选框以便按原样复制文件,然后选择“下一步”。

      显示“源数据存储”页的屏幕截图。

  4. 在“目标数据存储”页上,完成以下步骤:

    1. 选择在“连接”块中创建的“AzureBlobStorage”连接 。

    2. 在“文件夹路径”部分,输入“adftutorial/output”作为文件夹路径 。

      显示“目标数据存储”页的屏幕截图。

    3. 将其他设置保留默认值,然后选择“下一步”。

  5. 在“设置”页上,指定管道的名称及其说明,然后选择“下一步”以使用其他默认配置 。

    显示“设置”页的屏幕截图。

  6. 在“摘要”页中查看所有设置,然后选择“下一步”。

  7. 在“部署已完成”页中,选择“监视”可监视创建的管道。

    “部署已完成”页

  8. 应用程序将切换到“监视”选项卡。可在此选项卡中查看管道的状态。选择“刷新”可刷新列表。 单击“管道名称”下的链接,查看活动运行详细信息或重新运行管道。

    刷新管道

  9. 在“活动运行”页上,选择“活动名称”列下的“详细信息”链接(眼镜图标),以获取有关复制操作的更多详细信息 。 有关属性的详细信息,请参阅复制活动概述

  10. 若要返回到“管道运行”视图,请选择痕迹导航菜单中的“所有管道运行”链接。 若要刷新视图,请选择“刷新”。

  11. 验证 adftutorial 容器的 output 文件夹中是否创建了 emp.txt 文件。 如果 output 文件夹不存在,数据工厂服务会自动创建它。

  12. 切换到左面板的“监视”选项卡上的“创作”选项卡,以便编辑链接服务、数据集和管道。 若要了解如何在数据工厂 UI 中编辑这些实体,请参阅使用 Azure 门户创建数据工厂

    选择“创作”选项卡

后续步骤

此示例中的管道将数据从 Azure Blob 存储中的一个位置复制到另一个位置。 若要了解如何在更多方案中使用数据工厂,请完成相关教程