Azure Databricks 中的表和视图

本文概述了 Azure Databricks 中的表、视图、流式处理表和具体化视图。

表是存储在特定位置的结构化数据集。 在 Azure Databricks 中创建的默认表类型是 Unity 目录托管表。 可以使用 SQL 命令或 DataFrame API 查询和操作表,支持的操作包括INSERTUPDATEDELETEMERGE INTO。 请参阅 Azure Databricks 表

查看

视图是由查询定义的虚拟表,该查询不存储数据,并且可以以特定格式或抽象形式呈现来自一个或多个表的数据。 视图可用于简化复杂的查询、封装业务逻辑,以及为底层数据提供一致的接口,而无需复制存储。 请参阅 什么是视图?

具体化视图

与视图类似,具体化视图由查询定义。 但是,与视图不同,具体化视图预计算并存储查询的结果。 查询在物化视图上运行的速度往往比在普通视图上更快,但会占用额外的存储空间。 可以使用 Databricks SQL 创建和刷新独立的具体化视图,或使用 Lakeflow Spark 声明性管道来创建和刷新一个或多个具体化视图、流式处理表和视图。 请参阅 使用独立物化视图物化视图

流式处理表

流式处理表是 Unity 目录托管表的类型,它包括使用 来定义它的处理逻辑。 可以使用 Databricks SQL 创建和刷新独立的流式处理表,或使用 Lakeflow Spark 声明性管道来创建和刷新一个或多个流式处理表、具体化视图和视图。 请参阅使用独立流式表流式表

具体化视图与流表

具体化视图和流式处理表是用于数据工程的两个常见数据对象。 物化视图使用批处理语义,流式表使用流式语义。 有关批处理和流式处理之间的比较,以及为数据工程工作负荷选择它们的注意事项,请参阅 Azure Databricks 中的 Batch 与流式处理。