本文提供有关如何将现有数据应用程序迁移到 Azure Databricks 的说明。 Azure Databricks 提供了统一的方法供你在单个平台上处理来自多个源系统的数据。
有关平台功能的概述,请参阅什么是 Azure Databricks?。
有关在 Databricks Runtime 版本之间迁移的信息,请参阅 Databricks Runtime 迁移指南。
只需完成少量几个步骤,即可将用于提取、转换和加载数据的 Apache Spark 作业从本地或云原生实现迁移到 Azure Databricks。 请参阅根据 Azure Databricks 改编现有的 Apache Spark 代码。
Azure Databricks 通过预配置的开放源代码集成、合作伙伴集成和企业产品/服务扩展了 Spark SQL 的功能。 如果你的 ETL 工作负载是用 SQL 或 Hive 编写的,则只需经过轻微的重构即可迁移到 Azure Databricks。 详细了解 Azure Databricks SQL 产品/服务:
有关从各种源系统迁移到 Azure Databricks 的具体说明,请参阅将 ETL 管道迁移到 Azure Databricks。
如果工作负载与湖屋中存储的数据保持一致,Azure Databricks 可提供最大价值和性能。 许多企业数据堆栈同时包括数据湖和企业数据仓库,并且组织会创建复杂的 ETL 工作流来尝试使这些系统和数据保持同步。借助湖屋,你可以在各种查询和系统(通常情况下依赖于单独的数据仓库)中使用存储在数据湖中的同一数据。 有关湖屋的详细信息,请参阅什么是数据湖屋?。 有关 Databricks 上的数据仓库的详细信息,请参阅什么是 Azure Databricks 上的数据仓库?。
从企业数据仓库迁移到湖屋通常涉及到降低数据体系结构和工作流的复杂性,但在完成此项工作时需要记住一些注意事项和最佳做法。 请参阅《将数据仓库迁移到 Databricks Lakehouse》。
由于湖屋通过表查询或文件路径提供对基于云的数据文件的优化访问,因此你可以针对数据的单个副本执行 ML、数据科学和分析。 借助 Azure Databricks,可以轻松地通过开源和专有工具迁移工作负载,并维护分析师和数据科学家使用的许多开源库的更新版本。
可以使用 Databricks Git 文件夹同步和运行 Jupyter 笔记本中的 Pandas 工作负载。 Azure Databricks 原生支持所有 Databricks Runtime 版本中的 pandas,并在用于机器学习的 Databricks Runtime 中配置了许多热门的 ML 和深度学习库。 如果你使用 Git 和 Git 文件夹中的工作区文件同步本地工作负载,则可以对本地环境中的数据和自定义库使用相同的相对路径。
备注
默认情况下,对于与 Databricks Git 文件夹同步的 Jupyter 笔记本,Azure Databricks 会保留 .ipynb
扩展名,但在使用 UI 导入时,会自动将 Jupyter 笔记本转换为 Databricks 笔记本。 Databricks 笔记本使用 .py
扩展保存,因此可与 Git 存储库中的 Jupyter 笔记本并存。