什么是 Visual Studio Code 的 Databricks 扩展?
重要
本文档适用于 Visual Studio Code 版本 2(公共预览版)的 Databricks 扩展。
使用 Visual Studio Code 的 Databricks 扩展,可以从本地开发计算机上运行的 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。 然后,可以:
- 使用 Visual Studio Code UI,定义、部署和运行 Databricks 资产捆绑包,将 CI/CD 模式和最佳做法应用于 Azure Databricks 作业、增量实时表管道和 MLOps Stacks。 请参阅什么是 Databricks 资产捆绑包?和 Databricks 资产捆绑包扩展功能。
- 在远程工作区中的 Azure Databricks 群集上从 Visual Studio Code 运行本地 Python 代码文件。 请参阅在群集上运行 Python 文件
- 从 Visual Studio Code 将本地 Python 代码文件 (
.py
) 及 Python、R、Scala 和 SQL 笔记本(.py
、.ipynb
、.r
、.scala
和.sql
)作为远程工作区中的 Azure Databricks 作业运行。 请参阅将 Python 文件作为作业运行。 - 使用触发选择对话框的简单清单来设置和配置调试环境和 Databricks Connect。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展调试代码。
- 使用 Databricks Connect 在 Visual Studio Code 中逐个单元调试笔记本。 请参阅使用 Databricks Connect 为 Visual Studio Code 的 Databricks 扩展运行和调试笔记本单元。
- 将你在 Visual Studio Code 中开发的本地代码与远程工作区中的代码同步。
注意
Visual Studio Code 的 Databricks 扩展支持将 R、Scala 和 SQL 笔记本作为自动化作业运行,但不在 Visual Studio Code 中为这些语言提供任何更深入的支持。
开始使用
若要开始使用 Visual Studio Code 的 Databricks 扩展,请执行以下操作:
- 安装扩展。
- 创建新的 Databricks 项目或迁移现有的 Visual Studio Code 项目。
- 使用 Databricks 扩展 UI 轻松配置项目。
- 运行扩展教程中的一些 Python 代码。
- 使用 Databricks Connect 集成来调试代码。
- 使用
pytest
来测试代码。 请参阅使用 pytest 为 Visual Studio Code 的 Databricks 扩展运行测试。
创建新的 Databricks 项目
安装扩展后,可以使用适用于 Visual Studio Code 的 Databricks 扩展创建新的 Databricks 项目:
- 启动 Visual Studio Code。
- 单击 Visual Studio Code 边栏中的 Databricks 图标以打开扩展。
- 单击“创建新的 Databricks 项目”。
- 在“命令面板”中,为项目选择主机和身份验证方法。 请参阅Visual Studio Code 的 Databricks 扩展的身份验证设置。
- 在“提供希望新项目所在的文件夹的路径”中,输入要在其中创建项目的本地开发计算机上的文件夹路径,或单击“打开文件夹选择对话框”并选择项目文件夹的路径。
- 对于“在 Databricks 项目初始化视图中使用的模板”,请使用向上和向下箭头选择项目模板,然后按 Enter。 有关捆绑包项目模板的信息,请参阅 Databricks 资产捆绑包模板。
- 为项目键入此项目的唯一名称或保留默认项目名称
my_project
,然后按 Enter。 - 选择是向项目添加存根(示例)笔记本、存根(示例)增量实时表管道,还是存根(示例)Python 包,或这些存根(示例)的任意组合。
- 按任意键关闭 Databricks 项目初始化编辑器选项卡。
- 对于“选择要打开的项目”,请选择刚刚创建的项目。
将项目迁移到 Databricks 项目
如果有要迁移到 Databricks 项目的现有项目,请使用适用于 Visual Studio Code 的 Databricks 扩展将其打开以开始迁移:
- 启动 Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”,并导航到你的项目以打开该项目。
- 在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
- 单击“迁移到 Databricks 项目”。
- 在“命令面板”中,为项目选择主机和身份验证方法。 请参阅适用于 Visual Studio Code 的 Databricks 扩展的身份验证设置。
注意
如果打开使用适用于 Visual Studio Code v1 的 Databricks 扩展创建的项目,则会使用项目的现有身份验证和工作区配置自动尝试迁移。 仅当自动迁移失败时,迁移按钮才可用。
打开现有的 Databricks 资产捆绑包项目
如果适用于 Visual Studio Code 的 Databricks 扩展在当前文件夹中发现多个 Databricks 资产捆绑包项目,则适用于 Visual Studio Code 的 Databricks 扩展允许您选择要打开的项目。
注意
Databricks 资产捆绑包项目在项目的根文件夹中有一个 databricks.yml
文件。 请参阅 Databricks 资产捆绑包配置。
启动 Visual Studio Code。 在主菜单中,单击“文件”>“打开文件夹”并导航到包含捆绑包项目的目录。
在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
单击“打开现有 Databricks 项目”。
在“命令面板”中,选择现有的 Databricks 资产捆绑包项目。
在“命令面板”中,为项目选择主机和身份验证方法。 请参阅Visual Studio Code 的 Databricks 扩展的身份验证设置。
将另一个 Databricks 项目添加到工作区
使用适用于 Visual Studio Code 的 Databricks 扩展,可以在 Visual Studio Code 工作区中使用多个 Databricks 项目,并在这些项目之间轻松切换。 再添加一个项目:
启动 Visual Studio Code。 在主菜单中,单击“文件”>“将文件夹添加到工作区”,并导航到包含其他捆绑包项目的目录。
在 Visual Studio Code 边栏中,单击“Databricks”图标以打开扩展。
单击“活动工作区文件夹”以选择扩展要使用的项目。