Databricks 数据工程

Databricks 数据工程功能包括用于数据科学家、工程师和分析师进行协作的可靠环境。 数据工程任务也是 Databricks 机器学习解决方案的主干。

注意

如果你是一名主要使用 SQL 查询和 BI 工具的数据分析师,则你可能更喜欢 Databricks SQL

名称 在想要执行以下操作时使用此工具...
增量实时表 了解如何使用 Databricks Delta Live Tables 生成数据引入和转换管道。
结构化流 了解由 Databricks 上的结构化流式处理提供支持的流式处理、增量和实时工作负荷。
Apache Spark 了解 Apache Spark 在 Databricks 和 Databricks 平台上的工作原理。
Notebook 了解什么是 Databricks 笔记本,以及如何使用和管理笔记本来处理、分析和直观显示数据。
作业 了解如何协调 Databricks 平台上的数据处理、机器学习和数据分析工作流。
处理文件 了解使用 Databricks 上的文件的选项。
Git 文件夹 了解如何使用 Git 对笔记本和其他文件进行版本控制,以便在 Databricks 中进行开发。
Libraries 了解如何使用库在 Databricks 中提供第三方或自定义代码。 了解在 Databricks 上安装库的各种模式。
迁移 了解如何将数据应用程序(例如 ETL 作业、企业数据仓库、ML、数据科学和分析)迁移到 Databricks。
优化和性能 了解有关 Databricks 的优化和性能建议。
DBFS 了解 Databricks 文件系统 (DBFS),一个装载到 Databricks 工作区的分布式文件系统,可以在 Databricks 群集上使用