教程:使用数据复制服务将数据复制到 Azure Data Box
本教程介绍如何在不使用中间主机的情况下,使用数据复制服务引入数据。 数据复制服务在 Azure Data Box 上本地运行,通过服务器消息块 (SMB) 协议连接到网络连接存储 (NAS) 设备,并将数据复制到 Data Box。
数据复制服务:
- 可在中间主机不可用的 NAS 环境中使用。
- 可用于复制需要花费数周时间来引入和上传其中数据的小型文件。 数据复制服务能够大幅缩减小型文件的引入和上传时间。
注意
不支持与非 Windows NAS 设备的复制服务兼容性。
本教程介绍如何执行下列操作:
- 将数据复制到 Data Box
先决条件
在开始学习本教程之前:
- 完成“设置 Azure Data Box”教程。
- 确保 Data Box 设备已送达,并且门户中的订单状态为“已送达”。
- 确保你具有包含源数据的 NAS 设备的凭据。
- 确保你已连接到高速网络。 我们强烈建议你至少建立一个 10-Gb 以太网 (GbE) 连接。 如果 10-GbE 连接不可用,但复制速度受到影响,则可以使用 1-GbE 数据链接。
将数据复制到 Data Box
连接到 NAS 设备之后,下一步是复制数据。
重要
若要避免数据损坏或丢失的可能性,请确保遵循建议的最佳做法:
- 在启动数据复制操作之前,请确保数据大小符合 Azure 存储和 Data Box 限制文章中所述的大小限制。
- 确保数据不会由 Data Box 以外的其他应用程序上传到 Data Box。 同时执行数据复制操作可能会导致上传作业失败和数据损坏。
- 确保源数据在被数据复制服务读取时不会被修改。 在复制操作期间修改数据可能会导致失败或数据损坏。
- 确保维护源数据的副本,直到 Data Box 传输过程完成,并且数据在 Azure 存储中可访问。
若要使用数据复制服务复制数据,需要创建一个作业:
在 Data Box 设备的本地 Web UI 中,选择“管理”>“复制数据”。
在“复制数据”页上,选择“创建”。
在“配置作业并启动”对话框中填写以下字段:
字段 值 作业名称 作业的唯一名称,少于 230 个字符。 作业名称中不允许以下字符:<、>、|、?、*、\、:、/ 和 \。 源位置 使用 \\<ServerIPAddress>\<ShareName>
或\\<ServerName>\<ShareName>
格式提供数据源的 SMB 路径。用户名 用于访问数据源的用户名,采用 \\<DomainName><UserName>
格式。 本地管理员需要显式安全权限。 右键单击文件夹,选择“属性”,然后选择“安全性”以在“安全性”选项卡中添加本地管理员。密码 用于访问数据源的密码。 目标存储帐户 从列表中选择要将数据上传到的目标存储帐户。 目标类型 从列表中选择目标存储类型:“块 Blob”、“页 Blob”、“Azure 文件存储”或“块 Blob (存档)”。 目标容器/共享 输入目标存储帐户中要将数据上传到的容器或共享的名称。 该名称可以是共享名称或容器名称。 例如,使用 myshare
或mycontainer
。 也可以输入sharename\directory_name
或containername\virtual_directory_name
格式的名称。复制文件匹配模式 可按以下两种方式输入文件名匹配模式: - 使用通配符表达式: 通配符表达式中仅支持
*
和?
。 例如,表达式*.vhd
匹配扩展名为.vhd
的所有文件。 类似地,*.dl?
匹配扩展名为.dl
或以.dl
开头的所有文件,例如.dll
。 同理,*foo
匹配名称以foo
结尾的所有文件。
可以直接在该字段中输入通配符表达式。 默认情况下,在该字段中输入的值被视为通配符表达式。 - 使用正则表达式: 支持基于 POSIX 的正则表达式。 例如,正则表达式
.*\.vhd
匹配扩展名为.vhd
的所有文件。 对于正则表达式,请直接提供<pattern>
作为regex(<pattern>)
。 有关正则表达式的详细信息,请转到正则表达式语言 - 快速参考。
文件优化 启用此功能后,引入期间会打包小于 1 MB 的文件。 打包可以加快小型文件的数据复制速度。 如果文件数远远超出目录数,则打包还可以显著节省时间。
如果使用文件优化:- 运行“准备交付”后,可以下载物料清单 (BOM) 文件(它列出了原始文件名),以帮助确保已复制所有正确的文件。
- 请勿删除文件名以
ADB_PACK_
开头的打包文件。 如果删除已打包的文件,则在将来复制数据时不会上传原始文件。 - 请勿通过 SMB、NFS 或 REST API 等其他协议复制通过复制服务复制的相同文件。 使用不同的协议可能会导致在数据上传过程中发生冲突和失败。
- Azure 文件存储不支持文件优化。 若要查看为非优化数据复制作业复制哪些时间戳、文件属性和访问控制列表 (ACL),请参阅传输的元数据文章。
- 使用通配符表达式: 通配符表达式中仅支持
选择“开始”。 随后会验证输入,如果验证成功,则启动某个作业。 启动该作业可能需要花费几分钟时间。
将创建一个使用指定设置的作业。 可以暂停、恢复、取消或重启作业, 选中作业名称旁边的复选框,然后选择相应的按钮即可。
如果某个作业在高峰期会影响 NAS 设备的资源,可将其暂停:
在非高峰期,可以恢复作业:
随时可以取消作业:
取消作业时需要确认:
取消复制作业不会删除作业期间已复制到设备的任何数据。 若要删除已复制到 Data Box 设备的数据,请重置设备。
注意
如果取消或暂停作业,大型文件可能只复制了一部分。 这些部分复制的文件将以相同的状态上传到 Azure。 取消或暂停作业时,请确保文件已正常复制。 若要验证这些文件,请查看 SMB 共享或下载 BOM 文件。
可以重启因暂时性错误(例如网络故障)导致的失败作业。 但是,作业到达终端状态后无法重启,例如“已成功”或“已完成并出现错误”。 记录文件命名或文件大小问题导致的错误,但在作业完成后无法重启。
如果遇到故障且无法重启作业,请下载错误日志并找到底层故障。 更正问题后,创建新的作业以复制文件。 或者,还可以通过 SMB 复制文件。
当前版本不支持删除作业。
可以创建无限个作业,但在任意给定时间,最多只能同时运行 10 个作业。
如果“文件优化”处于打开阶段,则小文件会在上传过程中打包并解压缩,以提高复制性能。 这些打包的文件是使用 GUID 命名的。 请勿删除打包的文件。
作业正在进行时,“复制数据”页上会显示以下数据:
- “状态”列显示复制作业的状态。 有效状态包括:
- 正在运行
- 失败
- 成功
- 正在暂停
- 已暂停
- 正在取消
- 已取消
- 已完成但出错
- “文件”列显示正在复制的文件的数目和总大小。
- “已处理”列显示已处理的文件的数目和总大小。
- “作业详细信息”列提供用于查看作业详细信息的链接。
- “# 错误”列显示复制过程中遇到的错误数。 若要下载错误日志进行故障排除,请选择相应的“错误日志”列中的链接。
- “状态”列显示复制作业的状态。 有效状态包括:
等待复制作业完成。 由于某些错误仅记录在“连接和复制”页中,因此请确保复制作业已完成且没有报告任何错误,然后再前进到下一步。
为确保数据完整性,复制数据时将以内联方式计算校验和。 复制完成后,选择“查看仪表板”以检查设备上的已用空间和可用空间。
复制作业完成后,可以选择“准备交付”。
注意
复制作业正在进行时,无法运行“准备交付”。
后续步骤
请继续学习下一篇教程,了解如何将 Data Box 设备寄回 Azure。