使用 Visual Studio Code 的 Databricks 扩展,可以从本地开发计算机上运行的 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。 然后,可以:
使用 Visual Studio Code UI 定义、部署和运行 Databricks 资产捆绑包,以将 CI/CD 模式和最佳做法应用于 Lakeflow 作业、Lakeflow 声明性管道和 MLOps Stack。 请参阅什么是 Databricks 资产捆绑包?和 Databricks 资产捆绑包扩展功能。
在远程工作区中的 Azure Databricks 群集上从 Visual Studio Code 运行本地 Python 代码文件。 请参阅在群集上运行 Python 文件
在远程工作区中将 Visual Studio Code 中的本地 Python 代码文件(
.py
)和 Python、R、Scala 和 SQL 笔记本(.py
、.ipynb
、.r
、.scala
和.sql
)作为 Lakeflow 作业运行。 请参阅将 Python 文件作为作业运行。使用触发选择对话框的简单清单来设置和配置调试环境和 Databricks Connect。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展调试代码。
使用 Databricks Connect 在 Visual Studio Code 中逐个单元调试笔记本。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展运行和调试笔记本单元。
将你在 Visual Studio Code 中开发的本地代码与远程工作区中的代码同步。 请参阅将工作区文件夹与 Databricks 同步
注意
Visual Studio Code 的 Databricks 扩展支持将 R、Scala 和 SQL 笔记本作为自动化作业运行,但不在 Visual Studio Code 中为这些语言提供任何更深入的支持。
开始
若要开始使用 Visual Studio Code 的 Databricks 扩展,请执行以下操作:
- 安装扩展。
- 创建 新的 Databricks 项目或 转换现有 Visual Studio Code 项目。
- 使用 Databricks 扩展 UI 轻松配置项目。
- 运行扩展教程中的一些 Python 代码。
- 使用 Databricks Connect 集成来调试代码。
- 使用
pytest
来测试代码。 请参阅使用 pytest 为 Visual Studio Code 的 Databricks 扩展运行测试。
创建新的 Databricks 项目
安装扩展后,可以使用适用于 Visual Studio Code 的 Databricks 扩展创建新的 Databricks 项目:
启动 Visual Studio Code。
在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
单击 创建新项目。
在“命令面板”中,为项目选择主机和身份验证方法。 请参阅为适用于 Visual Studio Code 的 Databricks 扩展设置身份验证。
在“提供希望新项目所在的文件夹的路径”中,输入要在其中创建项目的本地开发计算机上的文件夹路径,或单击“打开文件夹选择对话框”并选择项目文件夹的路径。
对于“在 Databricks 项目初始化视图中使用的模板”,请使用向上和向下箭头选择项目模板,然后按 Enter。 有关捆绑包项目模板的信息,请参阅 Databricks 资产捆绑包项目模板。
为项目键入此项目的唯一名称或保留默认项目名称
my_project
,然后按 Enter。选择是向项目添加存根(示例)笔记本、存根(示例)增量实时表管道,还是存根(示例)Python 包,或这些存根(示例)的任意组合。
按任意键关闭 Databricks 项目初始化编辑器选项卡。
对于“选择要打开的项目”,请选择刚刚创建的项目。
打开现有的 Databricks 资产捆绑包项目
Databricks 资产捆绑包项目在项目的根文件夹中有一个 databricks.yml
文件。 请参阅 Databricks 资产捆绑包配置。 如果要将扩展用于现有 Databricks 资产捆绑项目:
启动 Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”并导航到包含捆绑包项目的目录。
单击 Visual Studio Code 边栏中的 Databricks 图标以打开并开始使用扩展的功能。
如果 Visual Studio Code 的 Databricks 扩展在当前文件夹中发现多个 Databricks 资产捆绑包项目,则可以选择打开项目或在根文件夹中创建项目配置文件。
- 如果选择项目,请在 命令面板中选择现有的 Databricks 资产捆绑包项目。
- 如果在根文件夹中创建配置,该文件夹将成为捆绑项目。
为项目选择主机和身份验证方法。 请参阅为适用于 Visual Studio Code 的 Databricks 扩展设置身份验证。
注意
如果打开使用适用于 Visual Studio Code v1 的 Databricks 扩展创建的项目,则会使用项目的现有身份验证和工作区配置自动尝试迁移。 仅当自动迁移失败时,迁移按钮才可用。
在 Databricks 项目之间切换
使用适用于 Visual Studio Code 的 Databricks 扩展,可以在 Visual Studio Code 工作区中使用多个 Databricks 项目,并在这些项目之间轻松切换。 在 Visual Studio Code 工作区中打开多捆绑包项目时:
在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
单击 “本地文件夹” 以选择要使用的扩展的项目。
注意
运行操作只适用于活动捆绑包中的文件。
将项目转换为 Databricks 项目
如果您有一个现有项目想要转换为 Databricks 项目:
启动 Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”,并导航到你的项目以打开该项目。
在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
单击“创建配置”。
在“命令面板”中,为项目选择主机和身份验证方法。 请参阅为适用于 Visual Studio Code 的 Databricks 扩展设置身份验证。