教程:使用数据复制服务将数据复制到 Azure Data Box

本教程介绍如何在不使用中间主机的情况下,使用数据复制服务引入数据。 数据复制服务在 Azure Data Box 上本地运行,通过服务器消息块 (SMB) 协议连接到网络连接存储 (NAS) 设备,并将数据复制到 Data Box。

数据复制服务:

  • 可在中间主机不可用的 NAS 环境中使用。
  • 可用于复制需要花费数周时间来引入和上传其中数据的小型文件。 数据复制服务能够大幅缩减小型文件的引入和上传时间。

注意

不支持与非 Windows NAS 设备的复制服务兼容性。

本教程介绍如何执行下列操作:

  • 将数据复制到 Data Box

先决条件

在开始学习本教程之前:

  1. 完成“设置 Azure Data Box”教程。
  2. 确保 Data Box 设备已送达,并且门户中的订单状态为“已送达”。
  3. 确保你具有包含源数据的 NAS 设备的凭据。
  4. 确保你已连接到高速网络。 我们强烈建议你至少建立一个 10-Gb 以太网 (GbE) 连接。 如果 10-GbE 连接不可用,但复制速度受到影响,则可以使用 1-GbE 数据链接。

将数据复制到 Data Box

连接到 NAS 设备之后,下一步是复制数据。

重要

若要避免数据损坏或丢失的可能性,请确保遵循建议的最佳做法:

  • 在启动数据复制操作之前,请确保数据大小符合 Azure 存储和 Data Box 限制文章中所述的大小限制。
  • 确保数据不会由 Data Box 以外的其他应用程序上传到 Data Box。 同时执行数据复制操作可能会导致上传作业失败和数据损坏。
  • 确保源数据在被数据复制服务读取时不会被修改。 在复制操作期间修改数据可能会导致失败或数据损坏。
  • 确保维护源数据的副本,直到 Data Box 传输过程完成,并且数据在 Azure 存储中可访问。

若要使用数据复制服务复制数据,需要创建一个作业:

  1. 在 Data Box 设备的本地 Web UI 中,选择“管理”>“复制数据”。

  2. 在“复制数据”页上,选择“创建”。

    “复制数据”页的屏幕截图,其中突出显示了“创建”按钮的位置。

  3. 在“配置作业并启动”对话框中填写以下字段:

    字段
    作业名称 作业的唯一名称,少于 230 个字符。 作业名称中不允许以下字符:<、>、|、?、*、\、:、/ 和 \。
    源位置 使用 \\<ServerIPAddress>\<ShareName>\\<ServerName>\<ShareName> 格式提供数据源的 SMB 路径。
    用户名 用于访问数据源的用户名,采用 \\<DomainName><UserName> 格式。 本地管理员需要显式安全权限。 右键单击文件夹,选择“属性”,然后选择“安全性”以在“安全性”选项卡中添加本地管理员。
    密码 用于访问数据源的密码。
    目标存储帐户 从列表中选择要将数据上传到的目标存储帐户。
    目标类型 从列表中选择目标存储类型:“块 Blob”、“页 Blob”、“Azure 文件存储”或“块 Blob (存档)”。
    目标容器/共享 输入目标存储帐户中要将数据上传到的容器或共享的名称。 该名称可以是共享名称或容器名称。 例如,使用 mysharemycontainer。 也可以输入 sharename\directory_namecontainername\virtual_directory_name 格式的名称。
    复制文件匹配模式 可按以下两种方式输入文件名匹配模式:
    • 使用通配符表达式: 通配符表达式中仅支持 *?。 例如,表达式 *.vhd 匹配扩展名为 .vhd 的所有文件。 类似地,*.dl? 匹配扩展名为 .dl 或以 .dl 开头的所有文件,例如 .dll。 同理,*foo 匹配名称以 foo 结尾的所有文件。
      可以直接在该字段中输入通配符表达式。 默认情况下,在该字段中输入的值被视为通配符表达式。
    • 使用正则表达式: 支持基于 POSIX 的正则表达式。 例如,正则表达式 .*\.vhd 匹配扩展名为 .vhd 的所有文件。 对于正则表达式,请直接提供 <pattern> 作为 regex(<pattern>)。 有关正则表达式的详细信息,请转到正则表达式语言 - 快速参考
      文件优化 启用此功能后,引入期间会打包小于 1 MB 的文件。 打包可以加快小型文件的数据复制速度。 如果文件数远远超出目录数,则打包还可以显著节省时间。
      如果使用文件优化:
      • 运行“准备交付”后,可以下载物料清单 (BOM) 文件(它列出了原始文件名),以帮助确保已复制所有正确的文件。
      • 请勿删除文件名以 ADB_PACK_ 开头的打包文件。 如果删除已打包的文件,则在将来复制数据时不会上传原始文件。
      • 请勿通过 SMB、NFS 或 REST API 等其他协议复制通过复制服务复制的相同文件。 使用不同的协议可能会导致在数据上传过程中发生冲突和失败。
      • Azure 文件存储不支持文件优化。 若要查看为非优化数据复制作业复制哪些时间戳、文件属性和访问控制列表 (ACL),请参阅传输的元数据文章。
    • 选择“开始”。 随后会验证输入,如果验证成功,则启动某个作业。 启动该作业可能需要花费几分钟时间。

      显示“配置作业和启动”对话框中“开始”按钮的位置的屏幕截图。

    • 将创建一个使用指定设置的作业。 可以暂停、恢复、取消或重启作业, 选中作业名称旁边的复选框,然后选择相应的按钮即可。

      “复制数据”页的屏幕截图,其中突出显示了用于选择复制作业的复选框的位置。

      • 如果某个作业在高峰期会影响 NAS 设备的资源,可将其暂停:

        “复制数据”页的屏幕截图,其中突出显示了“暂停”按钮的位置。

        在非高峰期,可以恢复作业:

        “复制数据”页的屏幕截图,其中突出显示了“恢复”按钮的位置。

      • 随时可以取消作业:

        “复制数据”页的屏幕截图,其中突出显示了“取消”按钮的位置。在“复制数据”页上取消作业

        取消作业时需要确认:

        “确认取消”对话框消息的屏幕截图。

        取消复制作业不会删除作业期间已复制到设备的任何数据。 若要删除已复制到 Data Box 设备的数据,请重置设备。

        “重置设备”页的屏幕截图,该页用于从设备中删除所有数据。

        注意

        如果取消或暂停作业,大型文件可能只复制了一部分。 这些部分复制的文件将以相同的状态上传到 Azure。 取消或暂停作业时,请确保文件已正常复制。 若要验证这些文件,请查看 SMB 共享或下载 BOM 文件。

      • 可以重启因暂时性错误(例如网络故障)导致的失败作业。 但是,作业到达终端状态后无法重启,例如“已成功”或“已完成并出现错误”。 记录文件命名或文件大小问题导致的错误,但在作业完成后无法重启。

        “复制数据”页的屏幕截图,其中突出显示了“重启”按钮的位置。

        如果遇到故障且无法重启作业,请下载错误日志并找到底层故障。 更正问题后,创建新的作业以复制文件。 或者,还可以通过 SMB 复制文件

      • 当前版本不支持删除作业。

      • 可以创建无限个作业,但在任意给定时间,最多只能同时运行 10 个作业。

      • 如果“文件优化”处于打开阶段,则小文件会在上传过程中打包并解压缩,以提高复制性能。 这些打包的文件是使用 GUID 命名的。 请勿删除打包的文件。

    • 作业正在进行时,“复制数据”页上会显示以下数据:

      • “状态”列显示复制作业的状态。 有效状态包括:
        • 正在运行
        • 失败
        • 成功
        • 正在暂停
        • 已暂停
        • 正在取消
        • 已取消
        • 已完成但出错
      • “文件”列显示正在复制的文件的数目和总大小。
      • “已处理”列显示已处理的文件的数目和总大小。
      • “作业详细信息”列提供用于查看作业详细信息的链接。
      • “# 错误”列显示复制过程中遇到的错误数。 若要下载错误日志进行故障排除,请选择相应的“错误日志”列中的链接。

    等待复制作业完成。 由于某些错误仅记录在“连接和复制”页中,因此请确保复制作业已完成且没有报告任何错误,然后再前进到下一步。

    “连接和复制”页的屏幕截图,其中指示不存在任何错误。

    为确保数据完整性,复制数据时将以内联方式计算校验和。 复制完成后,选择“查看仪表板”以检查设备上的已用空间和可用空间。

    “仪表板”页的屏幕截图,其中显示了可用和已用空间量。

    复制作业完成后,可以选择“准备交付”。

    注意

    复制作业正在进行时,无法运行“准备交付”。

    后续步骤

    请继续学习下一篇教程,了解如何将 Data Box 设备寄回 Azure。