Azure Cosmos DB
重要
本文档已过时,将来可能不会更新。 请参阅官方 Cosmos DB Spark 连接器 Github 存储库。
Azure Cosmos DB 是 Azure 提供的多区域分布式多模型数据库。 使用 Azure Cosmos DB 可跨任意数量的 Azure 地理区域弹性且独立地缩放吞吐量和存储。 它通过综合服务级别协议 (SLA) 提供吞吐量、延迟、可用性和一致性保证。 Azure Cosmos DB 为以下数据模型提供 API,并提供多种语言的 SDK:
- SQL API
- MongoDB API
- Cassandra API
- 图形 (Gremlin) API
- 表 API
本文介绍如何使用 Azure Databricks 从 Azure Cosmos DB 读取数据或将数据写入 Azure Cosmos DB。 有关 Azure Cosmos DB 的最新详细信息,请参阅使用 Apache Spark 到 Azure Cosmos DB 连接器加速大数据分析。
资源:
重要
此连接器支持 Azure Cosmos DB 的核心 (SQL) API。 对于 Cosmos DB for MongoDB API,请使用 MongoDB Spark 连接器。 对于 Cosmos DB Cassandra API,请使用 Cassandra Spark 连接器。
创建并附加所需的库
- 下载最新版 azure-cosmosdb-spark 库以获取你正在运行的 Apache Spark 版本。
- 将下载的 JAR 文件上传到 Databricks。 请参阅库。
- 安装上传的库,将其安装到 Databricks 群集中。