为适用于 Visual Studio Code 的 Databricks 扩展选择工作区目录

本文介绍如何选择 Azure Databricks 工作区目录以供适用于 Visual Studio Code 的 Databricks 扩展使用。 请参阅什么是适用于 Visual Studio Code 的 Databricks 扩展?

以下信息假定已设置适用于 Visual Studio Code 的 Databricks 扩展,以便通过 Azure Databricks 工作区进行身份验证。 请参阅适用于 Visual Studio Code 的 Databricks 扩展的身份验证设置

注意

如果已完成 Databricks 的 VSCode 扩展教程:在群集上以作业形式运行 Python,且想继续使用该教程中的工作区目录,请直接跳到 Visual Studio Code 的 Databricks 扩展开发任务

注意

Visual Studio Code 的 Databricks 扩展仅适用于它创建的工作区目录。 不能在工作区中使用现有工作区目录,除非它是由扩展创建的。

若要将工作区目录与 Visual Studio Code 的 Databricks 扩展配合使用,必须使用 0.3.5 或更高版本的扩展,并且 Azure Databricks 群集上必须已安装 Databricks Runtime 11.2 或更高版本。

从扩展版本 0.3.15 开始,工作区目录是默认设置。 但是,如果将扩展设置为使用 Databricks 存储库而不是工作区目录,可以将扩展重新设置为使用工作区目录,如下所示:

  1. 打开扩展和代码项目并设置 Azure Databricks 配置文件后,在命令面板(“视图”>“命令面板”)中键入 Preferences: Open User Settings,然后单击“首选项: 打开用户设置”。
  2. 在“用户”选项卡上展开“扩展”,然后单击“Databricks”。
  3. 对于“同步: 目标类型”,请选择“工作区”。
  4. 退出再重启 Visual Studio Code。

请注意,将设置从使用 Databricks 存储库更改为使用工作区目录后,可能需要手动地将代码重新同步到工作区。 为此,请在下一过程中创建新的工作区目录后,单击“同步目标”旁边的带箭头圆圈(“开始同步”)图标。

Start synchronization icon 0

打开扩展和代码项目后,创建新的要使用的 Azure Databricks 工作区目录,或选择之前使用扩展创建的现有工作区目录。

创建新的工作区目录

若要创建新的工作区目录,请执行以下操作:

  1. 在“配置”窗格中的“同步目标”旁边,单击齿轮(“配置同步目标”)图标。

    Configure sync destination icon 1

  2. 在“命令面板”中,单击“创建新的同步目标”。

  3. 键入新工作区目录的名称,然后按 Enter。

    该扩展将在工作区的 /Users/<your-username>/.ide 中使用指定的目录名称创建一个目录,然后将工作区目录的路径添加到代码项目的 .databricks/project.json 文件,例如 "workspacePath": "/Users/<your-username>/.ide/<your-directory-name>"

    注意

    如果远程工作区目录的名称与本地代码项目的名称不匹配,将显示警告图标和以下消息:远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。 如果你不要求名称匹配,则可以忽略此警告。

  4. 设置工作区目录后,通过单击“同步目标”旁边的带箭头圆圈(开始同步)图标开始与工作区目录同步。

    Start synchronization icon 1

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关工作区目录的单向自动文件更改同步。 此远程工作区目录中的文件是临时文件。 不要从远程工作区内部对这些文件启动更改,因为这些更改不会同步回本地项目。

继续处理适用于 Visual Studio Code 的 Databricks 扩展的开发任务

重用现有的工作区目录

如果你先前使用 Visual Studio Code 的 Databricks 扩展创建了一个工作区目录,并且想要在当前 Visual Studio Code 项目中重用该位置,请执行以下操作:

  1. 在“配置”窗格中的“同步目标”旁边,单击齿轮(“配置同步目标”)图标。

    Configure sync destination icon 2

  2. 在“命令面板”中,从列表中选择工作区目录的名称。

该扩展会将工作区目录的路径添加到代码项目的 .databricks/project.json 文件,例如 "workspacePath": "/Users/<your-username>/.ide/<your-directory-name>"

注意

如果远程工作区目录的名称与本地代码项目的名称不匹配,将显示警告图标和以下消息:远程同步目标名称与当前 Visual Studio Code 工作区名称不匹配。 如果你不要求名称匹配,则可以忽略此警告。

设置工作区目录后,通过单击“同步目标”旁边的带箭头圆圈(开始同步)图标开始与工作区目录同步。

Start synchronization icon 2

重要

Visual Studio Code 的 Databricks 扩展仅执行从本地 Visual Studio Code 项目到远程 Azure Databricks 工作区中相关工作区目录的单向自动文件更改同步。 此远程工作区目录中的文件是临时文件。 不要从远程工作区内部对这些文件启动更改,因为这些更改不会同步回本地项目。

继续处理适用于 Visual Studio Code 的 Databricks 扩展的开发任务