使用适用于 Visual Studio Code 的 Databricks 扩展配置 Databricks 项目
重要
本文档适用于 Visual Studio Code 的 Databricks 扩展版本 2(公共预览版)。
适用于 Visual Studio Code 的 Databricks 扩展在扩展面板中提供配置视图,可用于轻松配置和更新 Databricks 项目的设置。 这些功能包括目标工作区部署选择器、轻松配置身份验证和计算、工作区文件夹同步以及激活调试所需 Python 虚拟环境的简单步骤。
创建项目或将项目迁移到 Databricks 项目后,适用于 Visual Studio Code 的 Databricks 扩展中的配置视图可用。 请参阅创建新的 Databricks 项目。
注意
适用于 Visual Studio Code 的 Databricks 扩展早期版本在项目 JSON 文件中定义了配置设置,并在终端中设置了环境变量。 在发布版本中,项目和环境配置位于 databricks.yml
和 databricks.env
文件中。
如果项目是 Databricks 资产捆绑包,则 Databricks 扩展 UI 提供捆绑包资源浏览器和捆绑包变量视图来管理捆绑包资源和变量。 请参阅 Databricks 资产捆绑包扩展功能。
更改目标部署工作区
若要选择或切换 Databricks 项目的部署目标(例如,要从 dev
目标切换到 prod
目标):
在 Databricks 扩展面板的配置视图中,单击与目标关联的齿轮图标(选择 Databricks 资产捆绑包目标)。
在“命令面板”中,选择所需的部署目标。
配置目标后,将显示“主机”和“部署模式”。 有关 Databricks 资产捆绑包部署模式的信息,请参阅 Databricks 资产捆绑包部署模式。
可以通过修改与项目关联的 databricks.yml
配置文件中的目标 workspace
设置来更改工作区主机。 请参阅目标。
注意
仅当目标部署模式为开发时,适用于 Visual Studio Code 的 Databricks 扩展的以下功能才可用:
- 将附加的开发群集用于捆绑包作业
- 同步工作区文件夹文件
- 选择交互式开发群集
为项目配置 Databricks 配置文件
创建 Databricks 项目或将项目迁移到 Databricks 项目时,可以配置一个配置文件,其中包含用于连接到 Databricks 的身份验证设置。 如果要更改使用的身份验证配置文件,请单击“配置”视图中与 AuthType 关联的齿轮图标。
有关用于 Visual Studio Code 身份验证的 Databricks 扩展的详细信息,请参阅适用于 Visual Studio Code 的 Databricks 扩展的身份验证设置。
选择用于运行代码和作业的群集
使用适用于 Visual Studio Code 的 Databricks 扩展,可以选择现有的 Azure Databricks 群集,或创建新的 Azure Databricks 群集,用于运行代码和作业。 连接到计算后,会显示群集的 ID、Databricks Runtime 版本、创建者、状态和访问模式。 还可以启动和停止群集,并直接导航到群集的页面详细信息。
提示
如果不想等待作业群集启动,请在群集选择的正下方选中“替代捆绑包中的作业群集”,以使用所选群集在开发模式下运行捆绑包作业。
使用现有群集
如果有要使用的现有 Azure Databricks 群集:
在“配置”视图中,单击“群集”旁边的“选择群集”或齿轮(“配置群集”)图标。
在“命令面板”中,选择要使用的群集。
创建新群集
如果没有现有的 Azure Databricks 群集,或者想要创建一个新群集:
在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。
在“命令面板”中,单击“创建新群集”。
当系统提示打开外部网站(你的 Azure Databricks 工作区)时,请单击“打开”。
根据提示登录到你的 Azure Databricks 工作区。
按照说明创建群集。
注意
Databricks 建议创建个人计算群集。 这样就可以立即开始运行工作负载,并最大程度地减少计算管理开销。
创建并运行群集后,返回 Visual Studio Code。
在“配置”视图中,单击“群集”旁边的齿轮(“配置群集”)图标。
在“命令面板”中单击要使用的群集。
将工作区文件夹与 Databricks 同步
通过在 Databricks 扩展面板的“配置”视图中单击与“工作区文件夹”关联的同步图标(“开始同步”),可以同步与 Databricks 项目关联的远程 Databricks 工作区文件夹。
注意
Visual Studio Code 的 Databricks 扩展仅适用于它创建的工作区目录。 您不能在项目中使用现有的工作区目录,除非该目录由扩展创建。
若要导航到 Databricks 中的工作区视图,请单击与“工作区文件夹”关联的外部链接图标(“在外部打开链接”)。
该扩展根据项目关联的 Databricks 资产捆绑包配置的 workspace
映射中的 file_path
设置确定要使用的 Azure Databricks 工作区文件夹。 请参阅工作区。
注意
适用于 Visual Studio Code 的 Databricks 扩展仅将文件更改从本地 Visual Studio Code 项目单向自动同步到远程 Azure Databricks 工作区中的相关工作区文件夹。 此远程工作区目录中的文件是临时文件。 不要从远程工作区内部对这些文件启动更改,因为这些更改不会同步回本地项目。
有关适用于 Visual Studio Code 的 Databricks 扩展早期版本的工作区目录同步功能的使用情况详细信息,请参阅为适用于 Visual Studio Code 的 Databricks 扩展选择工作区目录。
设置 Python 环境和 Databricks Connect
“配置”视图的“Python 环境”部分可轻松设置 Python 虚拟开发环境和 Databricks Connect 的安装,以便运行和调试代码和笔记本单元格。 Python 虚拟环境确保项目使用兼容版本的 Python 和 Python 包(在本例中为 Databricks Connect 包)。
若要为项目配置 Python 虚拟环境,请在扩展面板的“配置”视图中:
- 单击“Python 环境”下的红色“激活虚拟环境”项。
- 在“命令面板”中,选择“Venv”或“Conda”。
- 选择要安装的依赖项(如果有)。
若要更改环境,请单击与“活动环境”关联的齿轮图标(“更改虚拟环境”)。
有关安装可以在 Visual Studio Code 中运行和调试代码和笔记本的 Databricks Connect 的信息,请参阅使用适用于 Visual Studio Code 的 Databricks 扩展的 Databricks Connect 调试代码。