开发人员工具
Databricks 提供工具生态系统,可帮助开发与 Azure Databricks 集成的应用程序和解决方案,并以编程方式管理 Databricks 资源和数据。
本文概述这些工具,并针对常见开发人员方案推荐最佳工具。
Databricks 为开发人员提供哪些工具?
下表列出 Databricks 所提供的开发人员工具。
工具 | 说明 |
---|---|
身份验证和授权 | 为工具、脚本和应用配置身份验证和授权,以便与 Azure Databricks 协同工作。 |
Databricks Connect | 使用常用的集成开发环境 (IDE)(例如 PyCharm、IntelliJ IDEA、Eclipse、RStudio 和 JupyterLab)连接到 Azure Databricks。 如果使用 Visual Studio Code,Databricks 建议使用适用于 Visual Studio Code 的 Databricks 扩展,它基于 Databricks Connect 进行构建,可提供更多功能,以便更轻松地进行配置。 |
适用于 Visual Studio Code 的 Databricks 扩展 | 从 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。 |
PyCharm Databricks 插件 | 配置与远程 Databricks 工作区的连接,并从 PyCharm 在 Databricks 群集上运行文件。 此插件由 JetBrains 与 Databricks 合作开发和提供。 |
Databricks SDKs | 从为常用语言(如 Python、Java、Go 和 R)编写的代码库中自动执行 Azure Databricks。可以使用 SDK 通过所选编程语言与 Databricks 交互,而不是使用 curl/Postman 直接发送 REST API 调用。 |
SQL 驱动程序和工具 | 连接 Azure Databricks 来运行 SQL 命令和脚本,以编程方式与 Azure Databricks 交互,并将 Azure Databricks SQL 功能集成到以 Python、Go、JavaScript 和 TypeScript 等常用语言编写的应用程序中。 |
Databricks CLI | 使用 Databricks 命令行接口 (CLI) 访问 Azure Databricks 功能。 CLI 整合 Databricks REST API,因此可以使用 Databricks CLI 与 Databricks 交互,而不是使用 curl 或 Postman 直接发送 REST API 调用。 |
Databricks 资产捆绑包 | 使用 Databricks 资产捆绑包 (DAB) 为 Azure Databricks 数据和 AI 项目实施行业标准开发、测试和部署 (CI/CD) 最佳做法。 |
Databricks Terraform 提供程序和适用于 Databricks 的 Terraform CDKTF | 使用 Terraform 预配 Azure Databricks 基础结构和资源。 |
Pulumi Databricks 资源提供程序 | 使用 Pulumi 基础结构即代码 (IaC) 预配 Azure Databricks 基础结构和资源。 |
提示
也可以将许多其他的常用的第三方工具连接到群集和 SQL 仓库,以访问 Azure Databricks 中的数据。 请参阅技术合作伙伴。
我应使用哪种开发人员工具?
下表概述了适用于常见开发人员方案的 Databricks 工具建议。
方案 | 建议 |
---|---|
- 从本地 IDE 进行交互式开发和调试 | 适用于 Visual Studio Code 的 Databricks 扩展 PyCharm Databricks 插件 对于其他 IDE,请将 Databricks CLI 与 Databricks Connect 配合使用 |
- 直接从命令行与 Databricks 进行交互 - Shell 脚本 - 试验 - 直接调用 REST API - 管理本地身份验证配置文件 - 将 IDE 中的代码同步到 Databricks 工作区 |
Databricks CLI |
- 管理工作流并将项目部署到 Databricks - 应用 CI/CD 最佳做法 - 将资源和资产作为一个单元进行共同转换、共同创作、共同部署 - 支持最常见的资源 |
Databricks 资产捆绑包 (CLI 的一项功能) |
- 基础结构即代码、CI/CD - 管理和创建工作区、目录、元存储并强制执行权限 - 保证环境可移植性和灾难恢复 - 支持的多种资源 |
Databricks Terraform 提供程序 |
- 应用程序开发 - 与现有部署系统集成 - 创建自定义 Databricks 工作流和新的 Web 服务 |
Databricks Python SDK Databricks Java SDK Databricks Go SDK Databricks R SDK |
- 仅限高级方案 - 几乎所有 Databricks 资源都可用 |
Databricks REST API |