迁移到用于 Scala 的 Databricks Connect

备注

适用于 Scala 的 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect 为公开预览版

本文介绍如何从 Databricks Connect for Databricks Runtime 12.2 LTS 及更低版本迁移到用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect for Scala。 Databricks Connect 使你能够将常用 IDE、笔记本服务器和自定义应用程序连接到 Azure Databricks 群集。 请参阅什么是 Databricks Connect?。 有关本文的 Python 版本,请参阅迁移到适用于 Python 的 Databricks Connect

备注

在开始使用 Databricks Connect 之前,必须 设置 Databricks Connect 客户端

  1. 安装安装要求中列出的、与你的 Azure Databricks 群集相符的正确 Java 开发工具包 (JDK) 和 Scala 版本(如果尚未在本地安装)。

  2. 在 Scala 项目的构建文件中,例如build.sbt对于 sbtpom.xml(用于 Maven)或 build.gradle(用于 Gradle),请更新以下对 Databricks Connect 客户端的引用:

    Sbt

    libraryDependencies += "com.databricks" % "databricks-connect" % "14.0.0"
    

    行家

    <dependency>
      <groupId>com.databricks</groupId>
      <artifactId>databricks-connect</artifactId>
      <version>14.0.0</version>
    </dependency>
    

    格拉德尔

    implementation 'com.databricks.databricks-connect:14.0.0'
    

    14.0.0 替换为与群集上的 Databricks Runtime 版本匹配的 Databricks Connect 库版本。 可以在 Maven 中央存储库中找到 Databricks Connect 库版本号。

  3. 更新 Scala 代码以初始化 spark 变量(它表示 DatabricksSession 类的实例化,类似于 Spark 中的 SparkSession)。 有关代码示例,请参阅 Databricks Connect for Scala 的代码示例