注意
此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 目前处于公共预览版阶段。
Databricks CLI 的使用须遵守 Databricks 许可和 Databricks 隐私声明,包括任何数据使用规定。
使用 sync
中的 命令组,可以将本地文件系统目录中的文件更改单向同步到远程 Azure Databricks 工作区中的目录。
注意
-
sync
命令无法将远程 Azure Databricks 工作区内的目录中的文件更改同步回到本地文件系统中的目录。 -
sync
命令只能将文件更改从本地开发计算机同步到 Azure Databricks 工作区中的工作区用户 (/Users
) 文件。 它无法同步到 DBFS (dbfs:/
)文件。 若要将文件更改从本地开发计算机同步到 Azure Databricks 工作区中的 DBFS (dbfs:/
),请使用 dbx sync 实用工具。
可以通过将 sync
命令追加到 databricks sync
中来运行这些命令。 若要显示 sync
命令的帮助,请运行 databricks sync -h
。
若要以增量方式一次性将本地文件系统目录中的文件更改单向同步到远程 Azure Databricks 工作区中的目录,请如下所示运行 sync
命令:
databricks sync <local-directory-path> <remote-directory-path>
例如,要将本地当前工作目录中命名为 my-local-folder
的文件夹内所有文件更改一次性单向增量同步到远程工作区内的 my-workspace-folder
文件夹,请运行以下命令:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder
在此示例中,只有自上次运行 sync
命令以来发生的文件更改才会同步到 /Users/someone@example.com/my-workspace-folder
。 默认情况下,将使用调用方的 DEFAULT
配置文件中的工作区 URL 来确定要同步到的远程工作区。
若要一次性将本地文件系统目录中的文件更改完全单向同步到远程 Azure Databricks 工作区中的目录,而不管 sync
命令上次何时运行,请使用 --full
选项,例如:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --full
若要启用将本地文件系统目录中的文件更改连续单向同步到远程 Azure Databricks 工作区中的目录的功能,请使用 --watch
选项,例如:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --watch
单向同步将持续到从终端停止该命令为止(通常是通过按 Ctrl + c
或 Ctrl + z
来停止)。
默认情况下,将每秒轮询可能的同步事件一次。 若要更改此间隔,请使用 --interval
选项以及轮询秒数,后接字符 s
。例如,若要指定 5 秒间隔,请运行:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --watch --interval 5s
默认情况下,同步进度信息以文本格式输出到终端。 若要指定同步进度输出格式,请使用 --output
选项,并指定 text
(默认值,如果未另行指定 --output
)或 json
,例如:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --output json
若要预览同步而不实际执行文件同步作,请使用 --dry-run
选项,例如:
databricks sync ./my-local-folder /Users/someone@example.com/my-workspace-folder --dry-run
Warn: Running in dry-run mode. No actual changes will be made.
Action: PUT: test.txt
Uploaded test.txt
Initial Sync Complete