sync 命令组

注意

此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览版阶段。

Databricks CLI 的使用须遵守 Databricks 许可Databricks 隐私声明,包括任何数据使用规定。

使用 Databricks CLI 中的 sync 命令组,可以将本地文件系统目录中的文件更改单向同步到远程 Azure Databricks 工作区中的目录。

注意

  • sync 命令无法将远程 Azure Databricks 工作区内的目录中的文件更改同步回到本地文件系统中的目录。
  • sync 命令只能将文件更改从本地开发计算机同步到 Azure Databricks 工作区中的工作区用户 (/Users) 文件。 它无法同步到 DBFS (dbfs:/)文件。 若要将文件更改从本地开发计算机同步到 Azure Databricks 工作区中的 DBFS (dbfs:/),请使用 dbx sync 实用工具。

可以通过将 sync 命令追加到 databricks sync 中来运行这些命令。 若要显示 sync 命令的帮助,请运行 databricks sync -h

以增量方式将本地文件更改同步到远程目录

若要以增量方式一次性将本地文件系统目录中的文件更改单向同步到远程 Azure Databricks 工作区中的目录,请如下所示运行 sync 命令:

databricks sync <local-directory-path> <remote-directory-path>

例如,若要以增量方式一次性将本地当前工作目录内名为 my-folder 的文件夹中的所有文件更改单向同步到远程工作区中的特定路径,请运行以下命令:

databricks sync ./my-folder/ /Users/someone@example.com/

在此示例中,只有自上次运行 sync 命令以来发生的文件更改才会同步到 /Users/someone@example.com/。 默认情况下,将使用调用方的 DEFAULT 配置文件中的工作区 URL 来确定要同步到的远程工作区。

将本地文件更改完全同步到远程目录

若要一次性将本地文件系统目录中的文件更改完全单向同步到远程 Azure Databricks 工作区中的目录,而不管 sync 命令上次何时运行,请使用 --full 选项,例如:

databricks sync ./my-folder/ /Users/someone@example.com/ --full

将本地文件更改连续同步到远程目录

若要启用将本地文件系统目录中的文件更改连续单向同步到远程 Azure Databricks 工作区中的目录的功能,请使用 --watch 选项,例如:

databricks sync ./my-folder/ /Users/someone@example.com/ --watch

单向同步将持续到从终端停止该命令为止(通常是通过按 Ctrl + cCtrl + z 来停止)。

默认情况下,将每秒轮询可能的同步事件一次。 若要更改此间隔,请使用 --interval 选项以及轮询秒数,后接字符 s。例如,若要指定 5 秒间隔,请运行:

databricks sync ./my-folder/ /Users/someone@example.com/ --watch --interval 5s

更改同步进度输出格式

默认情况下,同步进度信息以文本格式输出到终端。 若要指定同步进度输出格式,请使用 --output 选项,并指定 text(默认值,如果未另行指定 --output)或 json,例如:

databricks sync ./my-folder/ /Users/someone@example.com/ --output json