使用 Azure Databricks 将数据从 MongoDB 迁移到 Azure Cosmos DB for MongoDB 帐户

2025/06/23

适用对象： MongoDB

本迁移指南属于将数据库从 MongoDB 迁移到适用于 MongoDB 的 Azure Cosmos DB API 的系列。关键迁移步骤是预迁移、迁移和迁移后，如下所示。

迁移步骤示意图

使用 Azure Databricks 进行数据迁移

Azure Databricks 是一种适用于 Apache Spark 的平台即服务 (PaaS) 产品/服务。它提供一种对大规模数据集执行脱机迁移的方法。可以使用 Azure Databricks 将数据库从 MongoDB 脱机迁移到 Azure Cosmos DB for MongoDB。

本教程介绍以下操作：

创建 Azure Databricks 工作区和计算
添加依赖项
创建和运行 Scala 或 Python 笔记本
优化迁移性能
排查迁移期间可能观察到的速率限制错误

先决条件

要完成本教程，需要：

完成预迁移步骤，例如估算吞吐量并选择分片密钥。
创建 Azure Cosmos DB for MongoDB 帐户。

创建 Azure Databricks 工作区

可以按照说明创建 Azure Databricks 工作区。可以使用可用的默认计算或创建新的计算资源来运行笔记本。请务必选择至少支持 Spark 3.0 的 Databricks 运行时。

添加依赖项

将 MongoDB Connector for Spark 库添加到计算资源中，以便连接至本机 MongoDB 和 Azure Cosmos DB for MongoDB 终结点。在计算中，选择“ 库>安装新>Maven”，然后添加 org.mongodb.spark:mongo-spark-connector_2.12:3.0.1 Maven 坐标。

添加 Databricks 群集依赖项的示意图。

选择 “安装”，然后在安装完成后重启计算。

备注

请确保在安装适用于 Spark 的 MongoDB 连接器库之后重启 Databricks 群集。

之后，可以创建 Scala 或 Python 笔记本进行迁移。

创建用于迁移的 Scala 笔记本

在 Databricks 中创建 Scala 笔记本。运行以下代码之前，请确保为变量输入正确的值：

import com.mongodb.spark._
import com.mongodb.spark.config._
import org.apache.spark._
import org.apache.spark.sql._

var sourceConnectionString = "mongodb://<USERNAME>:<PASSWORD>@<HOST>:<PORT>/<AUTHDB>"
var sourceDb = "<DB NAME>"
var sourceCollection =  "<COLLECTIONNAME>"
var targetConnectionString = "mongodb://<ACCOUNTNAME>:<PASSWORD>@<ACCOUNTNAME>.mongo.cosmos.azure.cn:10255/?ssl=true&replicaSet=globaldb&retrywrites=false&maxIdleTimeMS=120000&appName=@<ACCOUNTNAME>@"
var targetDb = "<DB NAME>"
var targetCollection =  "<COLLECTIONNAME>"

val readConfig = ReadConfig(Map(
  "spark.mongodb.input.uri" -> sourceConnectionString,
  "spark.mongodb.input.database" -> sourceDb,
  "spark.mongodb.input.collection" -> sourceCollection,
))

val writeConfig = WriteConfig(Map(
  "spark.mongodb.output.uri" -> targetConnectionString,
  "spark.mongodb.output.database" -> targetDb,
  "spark.mongodb.output.collection" -> targetCollection,
  "spark.mongodb.output.maxBatchSize" -> "8000"  
))

val sparkSession = SparkSession
  .builder()
  .appName("Data transfer using spark")
  .getOrCreate()

val customRdd = MongoSpark.load(sparkSession, readConfig)

MongoSpark.save(customRdd, writeConfig)

创建用于迁移的 Python 笔记本

在 Databricks 中创建 Python 笔记本。运行以下代码之前，请确保为变量输入正确的值：

from pyspark.sql import SparkSession

sourceConnectionString = "mongodb://<USERNAME>:<PASSWORD>@<HOST>:<PORT>/<AUTHDB>"
sourceDb = "<DB NAME>"
sourceCollection =  "<COLLECTIONNAME>"
targetConnectionString = "mongodb://<ACCOUNTNAME>:<PASSWORD>@<ACCOUNTNAME>.mongo.cosmos.azure.cn:10255/?ssl=true&replicaSet=globaldb&retrywrites=false&maxIdleTimeMS=120000&appName=@<ACCOUNTNAME>@"
targetDb = "<DB NAME>"
targetCollection =  "<COLLECTIONNAME>"

my_spark = SparkSession \
    .builder \
    .appName("myApp") \
    .getOrCreate()

df = my_spark.read.format("com.mongodb.spark.sql.DefaultSource").option("uri", sourceConnectionString).option("database", sourceDb).option("collection", sourceCollection).load()

df.write.format("mongo").mode("append").option("uri", targetConnectionString).option("maxBatchSize",2500).option("database", targetDb).option("collection", targetCollection).save()

优化迁移性能

可以通过以下配置调整迁移性能：

Spark 群集中的工作程序和核心数：工作程序越多，意味着执行任务的计算分片越多。
maxBatchSize：maxBatchSize 值控制将数据保存到目标 Azure Cosmos DB 集合中的速率。但是，如果 maxBatchSize 对于集合吞吐量太高，则可能会导致速率限制错误。

你需要根据 Spark 群集中的执行程序数量调整工作器的数量和 maxBatchSize 的值，这可能是写入的每个文档的大小（这就是 RU 成本高的原因），以及目标集合吞吐量限制。

提示

maxBatchSize = 集合吞吐量/（1 个文档的 RU 成本 * Spark 工作器数量 * 每个工作器的 CPU 核心数）
MongoDB Spark 分区程序和 partitionKey：使用的默认分区程序为 MongoDefaultPartitioner，默认 partitionKey 为 _id。可以通过将值 MongoSamplePartitioner 分配给输入配置属性 spark.mongodb.input.partitioner 来更改分区程序。同样地，可以通过将相应的字段名称分配给输入配置属性 spark.mongodb.input.partitioner.partitionKey 来更改 partitionKey。合适的 partitionKey 有助于避免数据倾斜（为同一分区键值写入的大量记录）。
在数据传输过程中禁用索引： 对于大量数据迁移，请考虑禁用索引，特别是目标集合上的通配符索引。索引会增加写入每个文档的 RU 成本。释放这些 RU 有助于提高数据传输速率。迁移数据后，可以启用索引。

故障排除

超时错误（错误代码 50）

对于针对 Azure Cosmos DB for MongoDB 数据库的操作，可能会看到 50 错误代码。以下情况可能会导致超时错误：

分配给数据库的吞吐量较低：确保为目标集合分配足够的吞吐量。
存在大量数据而导致过度数据倾斜。如果有大量的数据要迁移到给定的表中，但存在重大的数据倾斜，那么即使在你的表中预配了多个请求单位，你仍可能会遇到速率限制。请求单位平均分配在物理分区中，重度的数据倾斜可能会导致对单个分片的请求出现瓶颈。数据倾斜意味着相同的分区键值有大量的记录。

速率限制（错误代码 16500）

对于针对 Azure Cosmos DB for MongoDB 数据库的操作，可能会看到 16500 错误代码。这些错误是速率限制错误，可以在禁用服务器端重试功能的旧帐户或帐户上观察到。

启用服务器端重试：启用服务器端重试 (SSR) 功能，并让服务器自动重试速率受限的操作。

迁移后优化

迁移数据后，你可以连接到 Azure Cosmos DB 并管理数据。还可以遵循其他迁移后步骤，例如优化索引策略、更新默认一致性级别或为 Azure Cosmos DB 帐户配置多区域分发。有关详细信息，请参阅迁移后优化一文。

通过

使用 Azure Databricks 进行数据迁移

先决条件

创建 Azure Databricks 工作区

添加依赖项

创建用于迁移的 Scala 笔记本

创建用于迁移的 Python 笔记本

优化迁移性能

故障排除

超时错误（错误代码 50）

速率限制（错误代码 16500）

迁移后优化

更多资源

后续步骤

通过

使用 Azure Databricks 将数据从 MongoDB 迁移到 Azure Cosmos DB for MongoDB 帐户

使用 Azure Databricks 进行数据迁移

先决条件

创建 Azure Databricks 工作区

添加依赖项

创建用于迁移的 Scala 笔记本

创建用于迁移的 Python 笔记本

优化迁移性能

故障排除

超时错误（错误代码 50）

速率限制（错误代码 16500）

迁移后优化

更多资源

后续步骤

其他资源