分片模型

适用对象: Azure Cosmos DB for PostgreSQL(由 PostgreSQL 的 Citus 数据库扩展提供支持)

分片是数据库系统和分布式计算中使用的一种技术,用于在多个服务器或节点之间水平分区数据。 该技术涉及将大型数据库或数据集分解为更小、更易于管理的部分,称为分片。 分片包含数据的子集,所有分片组成完整的数据集。

Azure Cosmos DB for PostgreSQL 提供两种类型的数据分片,即基于行的分片和基于架构的分片。 每种选项都有其自己的分片权衡,使你能够选择最符合应用程序要求的方法。

基于行的分片

Azure Cosmos DB for PostgreSQL 对表进行分片的传统方法是单一数据库,共享架构模型也称为基于行的分片,租户作为同一表内的行共存。 租户是通过定义分布列来确定的,该分布列允许水平拆分表。

基于行是最高效的分片方式。 租户密集打包和分布在群集中的节点之间。 然而,这种方法需要确保架构中的所有表都具有分布列,并且应用程序中的所有查询都按分布列进行筛选。 基于行的分片在 IoT 工作负载和实现硬件使用的最佳利润方面表现出色。

优点:

  • 最佳性能
  • 每个节点的最佳租户密度

缺点:

  • 需要修改架构
  • 需要修改应用程序查询
  • 所有租户必须共享相同的架构

基于架构的分片

Azure Cosmos DB for PostgreSQL 中的 Citus 12.0 提供基于架构的分片,它是共享数据库、单独的架构模型,架构成为数据库内的逻辑分片。 多租户应用可以使用每个租户的架构来轻松地沿租户维度进行分片。 无需更改查询,应用程序只需进行少量修改即可在切换租户时设置正确的 search_path。 基于架构的分片对于微服务来说是一种理想的解决方案,对于部署应用程序的 ISV 来说也是如此,因为这些应用程序无法进行基于行的分片所需的更改。

优点:

  • 租户可以具有异类架构
  • 不需要修改任何架构
  • 不需要修改应用程序查询
  • 与基于行的分片相比,基于架构的分片 SQL 兼容性更高

缺点:

  • 与基于行的分片相比,每个节点的租户数更少

分片权衡

基于架构的分片 基于行的分片
多租户模型 每个租户都有单独的架构 具有租户 ID 列的共享表
Citus 版本 12.0+ 所有版本
与 vanilla PostgreSQL 相比需要额外的步骤 无,仅配置更改 在每个表上使用 create_distributed_table 按租户 ID 分发和共置表
租户数目 1-1 万 1-100 万
数据建模要求 分布式架构之间没有外键 每个表以及主键、外键中需要包含租户 ID 列(分布列,也称为分片键)
单节点查询的 SQL 要求 每个查询使用单个分布式架构 联接和 WHERE 子句应包括 tenant_id 列
并行跨租户查询
每个租户的自定义表定义
访问控制 架构权限 架构权限
跨租户共享数据 是,使用引用表(在单独的架构中) 是,使用引用表
租户到分片隔离 每个租户都有其自己的分片组(按定义) 可以通过 isolate_tenant_to_new_shard 为特定租户 ID 提供其自己的分片组