Databricks 数据工程
Databricks 数据工程功能包括用于数据科学家、工程师和分析师进行协作的可靠环境。 数据工程任务也是 Databricks 机器学习解决方案的主干。
注意
如果你是一名主要使用 SQL 查询和 BI 工具的数据分析师,则你可能更喜欢 Databricks SQL。
名称 | 在想要执行以下操作时使用此工具... |
---|---|
增量实时表 | 了解如何使用 Databricks Delta Live Tables 生成数据引入和转换管道。 |
结构化流 | 了解由 Databricks 上的结构化流式处理提供支持的流式处理、增量和实时工作负荷。 |
Apache Spark | 了解 Apache Spark 在 Databricks 和 Databricks 平台上的工作原理。 |
Notebook | 了解什么是 Databricks 笔记本,以及如何使用和管理笔记本来处理、分析和直观显示数据。 |
作业 | 了解如何协调 Databricks 平台上的数据处理、机器学习和数据分析工作流。 |
处理文件 | 了解使用 Databricks 上的文件的选项。 |
Git 文件夹 | 了解如何使用 Git 对笔记本和其他文件进行版本控制,以便在 Databricks 中进行开发。 |
Libraries | 了解如何使用库在 Databricks 中提供第三方或自定义代码。 了解在 Databricks 上安装库的各种模式。 |
迁移 | 了解如何将数据应用程序(例如 ETL 作业、企业数据仓库、ML、数据科学和分析)迁移到 Databricks。 |
优化和性能 | 了解有关 Databricks 的优化和性能建议。 |
DBFS | 了解 Databricks 文件系统 (DBFS),一个装载到 Databricks 工作区的分布式文件系统,可以在 Databricks 群集上使用 |