适用于 Visual Studio Code 的 Databricks 扩展在扩展面板中提供配置视图,可用于轻松配置和更新 Databricks 项目的设置。 这些功能包括目标工作区部署选择器、轻松配置身份验证和计算、工作区文件夹同步以及激活调试所需 Python 虚拟环境的简单步骤。
创建项目或将项目迁移到 Databricks 项目后,适用于 Visual Studio Code 的 Databricks 扩展中的配置视图可用。 请参阅创建新的 Databricks 项目。
备注
适用于 Visual Studio Code 的 Databricks 扩展早期版本在项目 JSON 文件中定义了配置设置,并在终端中设置了环境变量。 在发布版本中,项目和环境配置位于 databricks.yml
和 databricks.env
文件中。
如果项目是 Databricks 资产捆绑包,则 Databricks 扩展 UI 提供捆绑包资源浏览器和捆绑包变量视图来管理捆绑包资源和变量。 请参阅 Databricks 资产捆绑包扩展功能。
若要选择或切换 Databricks 项目的部署目标(例如,要从 dev
目标切换到 prod
目标):
在 Databricks 扩展面板的配置视图中,单击与目标关联的齿轮图标(选择 Databricks 资产捆绑包目标)。
在“命令面板”中,选择所需的部署目标。
配置目标后,将显示“主机”和“部署模式”。 有关 Databricks 资产捆绑包部署模式的信息,请参阅 Databricks 资产捆绑包部署模式。
可以通过修改与项目关联的 databricks.yml
配置文件中的目标 workspace
设置来更改工作区主机。 请参阅目标。
备注
仅当目标部署模式为开发时,适用于 Visual Studio Code 的 Databricks 扩展的以下功能才可用:
- 将附加的开发群集用于捆绑包作业
- 同步工作区文件夹文件
- 选择交互式开发群集
创建 Databricks 项目或将项目迁移到 Databricks 项目时,可以配置一个配置文件,其中包含用于连接到 Databricks 的身份验证设置。 如果要更改使用的身份验证配置文件,请单击“配置”视图中与 AuthType 关联的齿轮图标。
有关用于 Visual Studio Code 身份验证的 Databricks 扩展的详细信息,请参阅适用于 Visual Studio Code 的 Databricks 扩展的身份验证设置。
使用适用于 Visual Studio Code 的 Databricks 扩展,可以选择现有的 Azure Databricks 群集,或创建新的 Azure Databricks 群集,用于运行代码和作业。 连接到计算后,会显示群集的 ID、Databricks Runtime 版本、创建者、状态和访问模式。 还可以启动和停止群集,并直接导航到群集的页面详细信息。
提示
如果不想等待作业群集启动,请在群集选择的正下方选中“替代捆绑包中的作业群集”,以使用所选群集在开发模式下运行捆绑包作业。
如果有要使用的现有 Azure Databricks 群集:
在“配置”视图中,单击“群集”旁边的“选择群集”或齿轮(“配置群集”)图标。
在“命令面板”中,选择要使用的群集。
如果没有现有的 Azure Databricks 群集,或者想要创建一个新群集:
在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。
在“命令面板”中,单击“创建新群集”。
当系统提示打开外部网站(你的 Azure Databricks 工作区)时,请单击“打开”。
根据提示登录到你的 Azure Databricks 工作区。
按照说明创建群集。
备注
Databricks 建议创建个人计算群集。 这样就可以立即开始运行工作负载,并最大程度地减少计算管理开销。
创建并运行群集后,返回 Visual Studio Code。
在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。
在“命令面板”中单击要使用的群集。
通过在 Databricks 扩展面板的“配置”视图中单击与“工作区文件夹”关联的同步图标(“开始同步”),可以同步与 Databricks 项目关联的远程 Databricks 工作区文件夹。
备注
Visual Studio Code 的 Databricks 扩展仅适用于它创建的工作区目录。 您不能在项目中使用现有的工作区目录,除非该目录由扩展创建。
若要导航到 Databricks 中的工作区视图,请单击与“工作区文件夹”关联的外部链接图标(“在外部打开链接”)。
该扩展根据项目关联的 Databricks 资产捆绑包配置的 workspace
映射中的 file_path
设置确定要使用的 Azure Databricks 工作区文件夹。 请参阅工作区。
备注
适用于 Visual Studio Code 的 Databricks 扩展仅将文件更改从本地 Visual Studio Code 项目单向自动同步到远程 Azure Databricks 工作区中的相关工作区文件夹。 此远程工作区目录中的文件是临时文件。 不要从远程工作区内部对这些文件启动更改,因为这些更改不会同步回本地项目。
有关适用于 Visual Studio Code 的 Databricks 扩展早期版本的工作区目录同步功能的使用情况详细信息,请参阅为适用于 Visual Studio Code 的 Databricks 扩展选择工作区目录。
“配置”视图的“Python 环境”部分可轻松设置 Python 虚拟开发环境和 Databricks Connect 的安装,以便运行和调试代码和笔记本单元格。 Python 虚拟环境确保项目使用兼容版本的 Python 和 Python 包(在本例中为 Databricks Connect 包)。
若要为项目配置 Python 虚拟环境,请在扩展面板的“配置”视图中:
- 单击“Python 环境”下的红色“激活虚拟环境”项。
- 在“命令面板”中,选择“Venv”或“Conda”。
- 选择要安装的依赖项(如果有)。
若要更改环境,请单击与“活动环境”关联的齿轮图标(“更改虚拟环境”)。
有关安装可以在 Visual Studio Code 中运行和调试代码和笔记本的 Databricks Connect 的信息,请参阅使用适用于 Visual Studio Code 的 Databricks 扩展的 Databricks Connect 调试代码。