DBeaver 与 Azure Databricks 的集成

注意

本文介绍了 Databricks 既不提供也不支持的 DBeaver。 若要联系提供商,请参阅 GitHub 上 dbeaver/dbeaver 存储库的“问题”页。

DBeaver 是一个本地多平台数据库工具,适用于开发人员、数据库管理员、数据分析师、数据工程师以及需要使用数据库的其他人员。 DBeaver 支持 Azure Databricks 和其他常用数据库。

本文介绍了如何使用本地开发计算机来安装、配置和使用免费的开源 DBeaver Community Edition (CE),以使用 Azure Databricks 中的数据库。

注意

本文已使用 macOS、Databricks JDBC 驱动程序版本2.6.36 和 DBeaver CE 版本 23.3.0 进行了测试。

要求

安装 DBeaver 之前,本地开发计算机必须满足以下要求:

  • Linux 64 位、macOS 或 Windows 64 位操作系统。 (支持 Linux 32 位,但不建议使用。)
  • Databricks JDBC Driver 下载到本地开发计算机上,并从下载的 DatabricksJDBC42-<version>.zip 文件中解压缩 DatabricksJDBC42.jar 文件。

你还必须有 Azure Databricks 群集SQL 仓库才能连接 DBeaver。

步骤 1:安装 DBeaver

下载并安装 DBeaver CE,如下所述:

  • Linux:从 DBeaver 网站的下载页面下载并运行 Linux 安装程序之一。 此页面上还提供了 snapflatpak 安装选项。
  • macOS:使用 Homebrew 运行 brew install --cask dbeaver-community,或使用 MacPorts 运行 sudo port install dbeaver-community。 DBeaver 网站的下载页面上也提供了 macOS 安装程序。
  • Windows:使用 Chocolatey 运行 choco install dbeaver。 DBeaver 网站的下载页面上也提供了 Windows 安装程序。

步骤 2:配置适用于 DBeaver 的 Azure Databricks JDBC 驱动程序

使用前面下载的 Databricks JDBC 驱动程序的相关信息设置 DBeaver。

  1. 启动 DBeaver。
  2. 如果系统提示你创建新数据库,请单击“否”。
  3. 如果系统提示你连接或选择数据库,请单击“取消”。
  4. 单击数据库>驱动程序管理器
  5. 在“驱动程序管理器”对话框中,单击“新建”。
  6. 在“新建驱动程序”对话框中,单击“库”选项卡。
  7. 单击“添加文件”。
  8. 导航到提取 Azure Databricks JDBC 驱动程序的文件夹。
  9. 在较低级别导航以查找 .jar 文件。
  10. 突出显示 .jar 文件,然后单击打开
  11. 在“设置”选项卡上,输入 Databricks 作为“驱动程序名称”。
  12. 在“设置”选项卡上,输入 com.databricks.client.jdbc.Driver 作为“类名”。
  13. 单击“确定”。
  14. 在“驱动程序管理器”对话框中,单击“关闭”。

步骤 3:将 DBeaver 连接到你的 Azure Databricks 数据库

使用 DBeaver 连接到群集或 SQL 仓库,以访问你的 Azure Databricks 工作区中的数据库。

  1. 在 DBeaver 中,单击数据库>新建数据库连接

  2. 在“连接到数据库”对话框的“所有”选项卡上,单击“Databricks”,然后单击“下一步”。

  3. 单击“主要”选项卡,在你的 Azure Databricks 资源的“JDBC URL”字段中输入一个值。 有关“JDBC URL”字段语法,请参阅 Databricks JDBC 驱动程序的身份验证设置

  4. 单击 “测试连接”

    提示

    在测试连接之前,你应当启动 Azure Databricks 资源。 否则,测试会在资源启动的同时进行,可能需要几分钟才能完成。

  5. 如果连接成功,请在“连接测试”对话框中单击“确定”。

  6. 在“连接到数据库”对话框中,单击“完成”。

此时“数据库导航器”窗口中会显示一个“Databricks”条目。 若要更改连接名称,使其更易于识别,请执行以下操作:

  1. 右键单击“Databricks”,然后单击“编辑连接”。
  2. 在“连接配置”对话框中,单击“常规”。
  3. 对于“连接名称”,请将“Databricks”替换为另一个连接名称。
  4. 单击“确定”。

针对需要 DBeaver 访问的每个资源,按此步骤中的说明重复操作。

步骤 4:使用 DBeaver 浏览数据对象

使用 DBeaver 访问 Azure Databricks 工作区中的数据对象,例如表和表属性、视图、索引、数据类型和其他数据对象类型。

  1. 在 DBeaver 中的“数据库导航器”窗口中,右键单击要使用的连接。

  2. 如果“连接”按钮已启用,请单击它。 (如果“连接”按钮被禁用,则你已连接。)

    提示

    在尝试连接到资源之前,应当启动资源。 否则,连接会在资源启动的同时进行,可能需要几分钟才能完成。

  3. 展开刚才连接到的连接。

  4. 展开并浏览可用的数据对象。 双击该数据对象以获取有关它的详细信息。

按此步骤中的说明重复操作,以访问其他数据对象。

步骤 5:使用 DBeaver 运行 SQL 语句

使用 DBeaver 从 samples 目录的 nyctaxi 架构加载示例 trips 表。

  1. 在 DBeaver 中的“数据库导航器”窗口中,右键单击要使用的连接。

  2. 如果“连接”按钮已启用,请单击它。 (如果“连接”按钮被禁用,则你已连接。)

    提示

    在尝试连接到资源之前,应当启动资源。 否则,连接会在资源启动的同时进行,可能需要几分钟才能完成。

  3. 单击 SQL 编辑器>新建 SQL 脚本

  4. 在“(connection-name) Script-1”选项卡上,输入以下 SQL 语句:

    SELECT * FROM samples.nyctaxi.trips;
    
  5. 单击“SQL 编辑器”>“执行 SQL 脚本”

后续步骤

其他资源