使用 Apache Spark 连接器的 SQL 数据库

借助适用于 Azure SQL 数据库和 SQL Server 的 Apache Spark 连接器,这些数据库可以充当 Apache Spark 作业的输入数据源和输出数据接收器。 由此,可在大数据分析中使用实时事务数据,并保留临时查询或报告的结果。

与内置 JDBC 连接器相比,此连接器能够将数据批量插入 SQL 数据库。 它的性能可以比逐行插入快 10 倍到 20 倍。 适用于 SQL Server 和 Azure SQL 数据库的 Spark 连接器还支持 Microsoft Entra ID(以前称为 Azure Active Directory)身份验证,从而使你可以使用 Microsoft Entra ID 帐户从 Azure Databricks 安全地连接到 Azure SQL 数据库。 它提供类似于内置 JDBC 连接器的接口。 可以轻松迁移现有的 Spark 作业以使用此连接器。

要求

适用于 SQL Server 的 Spark 连接器有两个版本:一个用于 Spark 2.4,一个用于 Spark 3.x。 Spark 3.x 连接器需要 Databricks Runtime 7. x 或更高版本。 连接器受社区支持,不包括 Azure SLA 支持。 在 GitHub 上提出问题以寻求社区帮助。

组件 支持的版本
Apache Spark 3.0.x 和 2.4x
Databricks Runtime Apache Spark 3.0 连接器:Databricks Runtime 7.x 及更高版本
Scala Apache Spark 3.0 连接器:2.12

Apache Spark 2.4 连接器:2.11
Microsoft JDBC Driver for SQL Server 8.2
Microsoft SQL Server SQL Server 2008 及更高版本
Azure SQL 数据库 支持

使用 Spark 连接器

有关使用 Spark 连接器的说明,请参阅 Apache Spark 连接器:SQL Server 和 Azure SQL