本地开发工具

Databricks 提供工具生态系统,可帮助开发与 Azure Databricks 集成的应用程序和解决方案,并以编程方式管理 Databricks 资源和数据。

本文概述这些工具,并针对常见开发人员方案推荐最佳工具。

Databricks 提供哪些工具在本地进行开发?

下表列出 Databricks 所提供的开发人员工具。

工具 说明
身份验证和授权 为工具、脚本和应用配置身份验证和授权,以便与 Azure Databricks 协同工作。
Databricks Connect 使用常用的集成开发环境 (IDE)(例如 PyCharm、IntelliJ IDEA、Eclipse、RStudio 和 JupyterLab)连接到 Azure Databricks。
如果使用 Visual Studio Code,Databricks 建议使用适用于 Visual Studio Code 的 Databricks 扩展,它基于 Databricks Connect 进行构建,可提供更多功能,以便更轻松地进行配置。
适用于 Visual Studio Code 的 Databricks 扩展 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。
PyCharm Databricks 插件 配置与远程 Databricks 工作区的连接,并从 PyCharm 在 Databricks 群集上运行文件。 此插件由 JetBrains 与 Databricks 合作开发和提供。
Databricks SDK 从为常用语言(如 Python、Java、Go 和 R)编写的代码库中自动执行 Azure Databricks。可以使用 SDK 通过所选编程语言与 Databricks 交互,而不是使用 curl/Postman 直接发送 REST API 调用。 Databricks SDK 支持完整的 REST API,并提供其他功能,包括统一身份验证和分页,使它们易于使用并扩展以涵盖许多方案。
SQL 驱动程序和工具 连接 Azure Databricks 来运行 SQL 命令和脚本,以编程方式与 Azure Databricks 交互,并将 Azure Databricks SQL 功能集成到以 Python、Go、JavaScript 和 TypeScript 等常用语言编写的应用程序中。
Databricks CLI 使用 Databricks 命令行接口 (CLI) 访问 Azure Databricks 功能。 CLI 整合 Databricks REST API,因此可以使用 Databricks CLI 与 Databricks 交互,而不是使用 curl 或 Postman 直接发送 REST API 调用。
Databricks 资产捆绑包 使用 Databricks 资产捆绑包实现 Azure Databricks 数据和 AI 项目的行业标准开发、测试和部署(CI/CD)最佳做法。
Databricks Terraform 提供程序适用于 Databricks 的 Terraform CDKTF 使用 Terraform 预配 Azure Databricks 基础结构和资源。
CI/CD 工具 集成常用的 CI/CD 系统和框架,例如 GitHub ActionsJenkinsApache Airflow

提示

也可以将许多其他的常用的第三方工具连接到群集和 SQL 仓库,以访问 Azure Databricks 中的数据。 请参阅技术合作伙伴

我应使用哪种开发人员工具?

下表概述了适用于常见开发人员方案的 Databricks 工具建议。

工具 使用建议
适用于 Visual Studio Code 的 Databricks 扩展
PyCharm Databricks 插件
对于其他 IDE,请将 Databricks CLIDatabricks Connect 配合使用
  • 从本地 IDE 进行交互式开发和调试
Databricks CLI
  • 从命令行与 Databricks 直接交互
  • Shell 脚本编写
  • 实验
  • 直接调用 REST API
  • 管理本地身份验证档案
  • 将 IDE 中的代码同步到 Databricks 工作区
Databricks 资产捆绑包 (CLI 的一项功能)
  • 管理工作流并将项目部署到 Databricks
  • 应用 CI/CD 最佳实践
  • 作为一个单位,共同发布版本、共同创作、共同部署资源和资产
  • 支持最常见的资源
Databricks Terraform 提供程序
  • 基础结构即代码,CI/CD
  • 管理和创建工作区、目录、元存储并强制实施权限
  • 保证环境可移植性和灾难恢复
  • 许多受支持的资源
Databricks Python SDK
Databricks Java SDK
Databricks Go SDK
Databricks R SDK
  • 应用程序开发
  • 与现有部署系统集成
  • 创建自定义 Databricks 工作流和新 Web 服务
Databricks REST API
  • 在您首选的编程语言中没有可用的 SDK 时自动化流程
  • 仅限高级方案
  • 几乎所有 Databricks 资源都可用