使用 Apache Spark 连接器的 SQL 数据库

重要

旧查询联合文档已停用，可能不会更新。此内容中提到的配置未经 Databricks 正式认可或测试。如果 Lakehouse 联邦支持源数据库，Databricks 建议改用它。

Azure SQL 数据库和 SQL Server 的 Apache Spark 连接器使这些数据库能够充当 Apache Spark 作业的输入数据源和输出数据接收器。由此，可在大数据分析中使用实时事务数据，并保留临时查询或报告的结果。

与内置 JDBC 连接器相比，此连接器能够将数据批量插入 SQL 数据库。它的性能可以比逐行插入快 10 倍到 20 倍。适用于 SQL Server 和 Azure SQL 数据库的 Spark 连接器还支持Microsoft Entra ID 身份验证，使你能够使用 Microsoft Entra ID 帐户从 Azure Databricks 安全地连接到 Azure SQL 数据库。它提供类似于内置 JDBC 连接器的接口。可以轻松迁移现有 Spark 作业以使用此连接器。

要求

SQL Server 的 Spark 连接器有两个版本：一个用于 Spark 2.4，一个用于 Spark 3.x。 Spark 3.x 连接器需要 Databricks Runtime 7.x 或更高版本。连接器受社区支持，不包括 Azure SLA 支持。在 GitHub 上提交任何问题，以便与社区联系以获取帮助。

组件	支持的版本
Apache Spark	3.0.x 和 2.4x
Databricks Runtime	Apache Spark 3.0 连接器：Databricks Runtime 7.x 及以上
Scala(编程语言)	Apache Spark 3.0 连接器：2.12 Apache Spark 2.4 连接器：2.11
用于 SQL Server 的 Microsoft JDBC 驱动程序	8.2
Microsoft SQL Server	SQL Server 2008 及更高版本
Azure SQL 数据库	已支持

使用 Spark 连接器

有关使用 Spark 连接器的说明，请参阅 Apache Spark 连接器：SQL Server 和 Azure SQL。

Last updated on 2026-01-26

通过

使用 Apache Spark 连接器的 SQL 数据库

要求

使用 Spark 连接器

其他资源