다음을 통해 공유

Azure Databricks 表

Azure Databricks 提供了多种表类型和存储格式,以满足不同的数据管理需求。 本部分介绍托管表、外部表和外表以及 Delta Lake 和 Apache Iceberg 存储格式,这些格式支持原子性、一致性、隔离和持续性(ACID)事务和时间旅行等高级功能。

核心概念

了解表类型、存储格式和 Unity 目录集成的基础知识。

主题 Description
表概念 有关表类型、存储格式和 Unity 目录集成的核心概念和基础信息。

表类型

了解各种数据管理方案的不同表类型及其功能。

表类型 Description
托管表 Azure Databricks 管理元数据和数据文件的表。 建议用于具有优化性能和存储的新表。
外部表 在 Unity 目录中管理元数据时引用外部存储系统中存储的数据的表。
外表 只读表,表示通过 Lakehouse Federation 连接的外部系统中的数据。

存储格式

使用提供高级数据管理功能的开放表格式。

Format Description
Delta Lake 默认存储格式,为托管表和外部表提供 ACID 事务、时间旅行和架构强制实施。
Apache Iceberg 打开表格式以与 Iceberg 生态系统集成,支持高级元数据管理。

表管理

配置和优化表行为、结构和性能。

功能 / 特点 Description
表约束 使用检查约束定义和强制实施数据质量规则,而不是 null 约束。
架构强制实施 控制 Azure Databricks 在写入期间如何处理架构更改和数据类型强制实施。
表分区 按分区键组织数据,以提高查询性能和数据管理。
表大小监视 监视和分析表存储使用情况和增长模式。
外部分区发现 在存储在云存储中的外部表中自动发现和注册分区。