Azure Cosmos DB

重要

本文档已过时,将来可能不会更新。 请参阅官方 Cosmos DB Spark 连接器 Github 存储库

Azure Cosmos DB 是 Azure 的多区域分布式多模型数据库。 使用 Azure Cosmos DB 可跨任意数量的 Azure 地理区域弹性且独立地缩放吞吐量和存储。 它通过综合服务级别协议 (SLA) 提供吞吐量、延迟、可用性和一致性保证。 Azure Cosmos DB 为以下数据模型提供 API,并提供多种语言的 SDK:

  • SQL API
  • MongoDB API
  • Cassandra API
  • 图形 (Gremlin) API
  • 表 API

本文介绍如何使用 Azure Databricks 从 Azure Cosmos DB 读取数据或将数据写入 Azure Cosmos DB。 有关 Azure Cosmos DB 的最新详细信息,请参阅使用 Apache Spark 到 Azure Cosmos DB 连接器加速大数据分析

资源:

重要

此连接器支持 Azure Cosmos DB 的核心 (SQL) API。 对于 Cosmos DB for MongoDB API,请使用 MongoDB Spark 连接器。 对于 Cosmos DB Cassandra API,请使用 Cassandra Spark 连接器

创建并附加所需的库

  1. 下载最新版 azure-cosmosdb-spark 库以获取你正在运行的 Apache Spark 版本。
  2. 将下载的 JAR 文件上传到 Databricks。 请参阅
  3. 安装上传的库,将其安装到 Databricks 群集中。