Databricks 提供工具生态系统,可帮助开发与 Azure Databricks 集成的应用程序和解决方案,并以编程方式管理 Databricks 资源和数据。
本文概述这些工具,并针对常见开发人员方案推荐最佳工具。
下表列出 Databricks 所提供的开发人员工具。
工具 | 说明 |
---|---|
身份验证和授权 | 为工具、脚本和应用配置身份验证和授权,以便与 Azure Databricks 协同工作。 |
Databricks Connect | 使用常用的集成开发环境 (IDE)(例如 PyCharm、IntelliJ IDEA、Eclipse、RStudio 和 JupyterLab)连接到 Azure Databricks。 如果使用 Visual Studio Code,Databricks 建议使用适用于 Visual Studio Code 的 Databricks 扩展,它基于 Databricks Connect 进行构建,可提供更多功能,以便更轻松地进行配置。 |
适用于 Visual Studio Code 的 Databricks 扩展 | 从 Visual Studio Code 集成开发环境 (IDE) 连接到远程 Azure Databricks 工作区。 |
PyCharm Databricks 插件 | 配置与远程 Databricks 工作区的连接,并从 PyCharm 在 Databricks 群集上运行文件。 此插件由 JetBrains 与 Databricks 合作开发和提供。 |
Databricks SDK | 从为常用语言(如 Python、Java、Go 和 R)编写的代码库中自动执行 Azure Databricks。可以使用 SDK 通过所选编程语言与 Databricks 交互,而不是使用 curl/Postman 直接发送 REST API 调用。 Databricks SDK 支持完整的 REST API,并提供其他功能,包括统一身份验证和分页,使它们易于使用并扩展以涵盖许多方案。 |
SQL 驱动程序和工具 | 连接 Azure Databricks 来运行 SQL 命令和脚本,以编程方式与 Azure Databricks 交互,并将 Azure Databricks SQL 功能集成到以 Python、Go、JavaScript 和 TypeScript 等常用语言编写的应用程序中。 |
Databricks CLI | 使用 Databricks 命令行接口 (CLI) 访问 Azure Databricks 功能。 CLI 整合 Databricks REST API,因此可以使用 Databricks CLI 与 Databricks 交互,而不是使用 curl 或 Postman 直接发送 REST API 调用。 |
Databricks 资产捆绑包 | 使用 Databricks 资产捆绑包实现 Azure Databricks 数据和 AI 项目的行业标准开发、测试和部署(CI/CD)最佳做法。 |
Databricks Terraform 提供程序和适用于 Databricks 的 Terraform CDKTF | 使用 Terraform 预配 Azure Databricks 基础结构和资源。 |
CI/CD 工具 | 集成常用的 CI/CD 系统和框架,例如 GitHub Actions、 Jenkins 和 Apache Airflow。 |
提示
也可以将许多其他的常用的第三方工具连接到群集和 SQL 仓库,以访问 Azure Databricks 中的数据。 请参阅技术合作伙伴。
下表概述了适用于常见开发人员方案的 Databricks 工具建议。
工具 | 使用建议 |
---|---|
适用于 Visual Studio Code 的 Databricks 扩展 PyCharm Databricks 插件 对于其他 IDE,请将 Databricks CLI 与 Databricks Connect 配合使用 |
|
Databricks CLI |
|
Databricks 资产捆绑包 (CLI 的一项功能) |
|
Databricks Terraform 提供程序 |
|
Databricks Python SDK Databricks Java SDK Databricks Go SDK Databricks R SDK |
|
Databricks REST API |
|