使用适用于 Visual Studio Code 的 Databricks 扩展配置 Databricks 项目

重要

本文档适用于 Visual Studio Code 的 Databricks 扩展版本 2(公共预览版)。

适用于 Visual Studio Code 的 Databricks 扩展在扩展面板中提供配置视图,可用于轻松配置和更新 Databricks 项目的设置。 这些功能包括目标工作区部署选择器、轻松配置身份验证和计算、工作区文件夹同步以及激活调试所需 Python 虚拟环境的简单步骤。

创建项目或将项目迁移到 Databricks 项目后,适用于 Visual Studio Code 的 Databricks 扩展中的配置视图可用。 请参阅创建新的 Databricks 项目

注意

适用于 Visual Studio Code 的 Databricks 扩展早期版本在项目 JSON 文件中定义了配置设置,并在终端中设置了环境变量。 在发布版本中,项目和环境配置位于 databricks.ymldatabricks.env 文件中。

如果项目是 Databricks 资产捆绑包,则 Databricks 扩展 UI 提供捆绑包资源浏览器捆绑包变量视图来管理捆绑包资源和变量。 请参阅 Databricks 资产捆绑包扩展功能

更改目标部署工作区

若要选择或切换 Databricks 项目的部署目标(例如,要从 dev 目标切换到 prod 目标):

  1. 在 Databricks 扩展面板的配置视图中,单击与目标关联的齿轮图标(选择 Databricks 资产捆绑包目标)。

    选择 Databricks 资产捆绑包目标

  2. “命令面板”中,选择所需的部署目标。

配置目标后,将显示“主机”和“部署模式”。 有关 Databricks 资产捆绑包部署模式的信息,请参阅 Databricks 资产捆绑包部署模式

可以通过修改与项目关联的 databricks.yml 配置文件中的目标 workspace 设置来更改工作区主机。 请参阅目标

注意

仅当目标部署模式为开发时,适用于 Visual Studio Code 的 Databricks 扩展的以下功能才可用:

  • 将附加的开发群集用于捆绑包作业
  • 同步工作区文件夹文件
  • 选择交互式开发群集

为项目配置 Databricks 配置文件

创建 Databricks 项目或将项目迁移到 Databricks 项目时,可以配置一个配置文件,其中包含用于连接到 Databricks 的身份验证设置。 如果要更改使用的身份验证配置文件,请单击“配置”视图中与 AuthType 关联的齿轮图标。

有关用于 Visual Studio Code 身份验证的 Databricks 扩展的详细信息,请参阅适用于 Visual Studio Code 的 Databricks 扩展的身份验证设置

选择用于运行代码和作业的群集

使用适用于 Visual Studio Code 的 Databricks 扩展,可以选择现有的 Azure Databricks 群集,或创建新的 Azure Databricks 群集,用于运行代码和作业。 连接到计算后,会显示群集的 ID、Databricks Runtime 版本、创建者、状态和访问模式。 还可以启动和停止群集,并直接导航到群集的页面详细信息。

提示

如果不想等待作业群集启动,请在群集选择的正下方选中“替代捆绑包中的作业群集”,以使用所选群集在开发模式下运行捆绑包作业。

使用现有群集

如果有要使用的现有 Azure Databricks 群集:

  1. 在“配置”视图中,单击“群集”旁边的“选择群集”或齿轮(“配置群集”)图标。

    配置群集

  2. 在“命令面板”中,选择要使用的群集。

创建新群集

如果没有现有的 Azure Databricks 群集,或者想要创建一个新群集:

  1. 在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。

  2. 在“命令面板”中,单击“创建新群集”。

  3. 当系统提示打开外部网站(你的 Azure Databricks 工作区)时,请单击“打开”。

  4. 根据提示登录到你的 Azure Databricks 工作区。

  5. 按照说明创建群集

    注意

    Databricks 建议创建个人计算群集。 这样就可以立即开始运行工作负载,并最大程度地减少计算管理开销。

  6. 创建并运行群集后,返回 Visual Studio Code。

  7. 在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。

    “配置群集”图标 3

    在“命令面板”中单击要使用的群集。

将工作区文件夹与 Databricks 同步

通过在 Databricks 扩展面板的“配置”视图中单击与“工作区文件夹”关联的同步图标(“开始同步”),可以同步与 Databricks 项目关联的远程 Databricks 工作区文件夹。

注意

Visual Studio Code 的 Databricks 扩展仅适用于它创建的工作区目录。 您不能在项目中使用现有的工作区目录,除非该目录由扩展创建。

若要导航到 Databricks 中的工作区视图,请单击与“工作区文件夹”关联的外部链接图标(“在外部打开链接”)。

该扩展根据项目关联的 Databricks 资产捆绑包配置的 workspace 映射中的 file_path 设置确定要使用的 Azure Databricks 工作区文件夹。 请参阅工作区

注意

适用于 Visual Studio Code 的 Databricks 扩展仅将文件更改从本地 Visual Studio Code 项目单向自动同步到远程 Azure Databricks 工作区中的相关工作区文件夹。 此远程工作区目录中的文件是临时文件。 不要从远程工作区内部对这些文件启动更改,因为这些更改不会同步回本地项目。

有关适用于 Visual Studio Code 的 Databricks 扩展早期版本的工作区目录同步功能的使用情况详细信息,请参阅为适用于 Visual Studio Code 的 Databricks 扩展选择工作区目录

设置 Python 环境和 Databricks Connect

“配置”视图的“Python 环境”部分可轻松设置 Python 虚拟开发环境和 Databricks Connect 的安装,以便运行和调试代码和笔记本单元格。 Python 虚拟环境确保项目使用兼容版本的 Python 和 Python 包(在本例中为 Databricks Connect 包)。

若要为项目配置 Python 虚拟环境,请在扩展面板的“配置”视图中:

  1. 单击“Python 环境”下的红色“激活虚拟环境”项。
  2. “命令面板”中,选择“Venv”或“Conda”。
  3. 选择要安装的依赖项(如果有)。

若要更改环境,请单击与“活动环境”关联的齿轮图标(“更改虚拟环境”)。

有关安装可以在 Visual Studio Code 中运行和调试代码和笔记本的 Databricks Connect 的信息,请参阅使用适用于 Visual Studio Code 的 Databricks 扩展的 Databricks Connect 调试代码