将数据仓库迁移到 Databricks 湖屋

本文介绍了在用 Databricks 湖屋替换企业数据仓库时需要考虑的一些注意事项。 一旦管理员完成了初始数据迁移和治理配置,企业数据仓库中定义的大多数工作负荷、查询和仪表板就可以运行,只需最少的代码重构。 将数据仓库工作负荷迁移到 Azure Databricks 并不是要消除数据仓库,而是要统一数据生态系统。 有关 Databricks 上的数据仓库的详细信息,请参阅 Azure Databricks 上的数据仓库是什么?

许多 Apache Spark 工作负荷会将数据从源系统提取、转换和加载 (ETL) 到数据仓库中,以便为下游分析提供支持。 用湖屋替换企业数据仓库以后,分析师、数据科学家和数据工程师就可以在同一平台上处理相同的表,从而降低总体复杂性、维护要求和总拥有成本。 请参阅什么是数据湖屋?。 有关 Databricks 上的数据仓库的详细信息,请参阅 Azure Databricks 上的数据仓库是什么?

将数据加载到湖屋中

Azure Databricks 提供了许多工具和功能,可以轻松地将数据迁移到湖屋并配置 ETL 作业,以从不同的数据源加载数据。 以下文章介绍了这些工具和选项:

Databricks Data Intelligence 平台与企业数据仓库有何不同?

Databricks Data Intelligence 平台基于 Apache Spark、Unity Catalog 和 Delta Lake 而构建,为用于分析、ML 和数据工程的大数据工作负荷提供原生支持。 所有企业数据系统的事务保证、索引和优化模式以及 SQL 语法都略有不同。 你可能会发现的一些最大差异包括:

  • 所有事务都是表级的。 没有数据库级事务、锁或保证。
  • 没有 BEGINEND 构造,这意味着每个语句或查询都作为单独的事务运行。
  • 三层命名空间使用 catalog.schema.table 模式。 由于使用的是旧版 Apache Spark 语法,因此术语 databaseschema 是同义词。
  • 主键和外键约束仅供参考。 约束只能在表级别强制执行。 请参阅 Azure Databricks 上的约束
  • Azure Databricks 和 Delta Lake 中支持的原生数据类型可能与源系统略有不同。 在选择目标类型之前,应明确指出数字类型所需的精度。

以下文章提供了有关重要注意事项的其他上下文信息: