Azure Databricks 中的数据准备简介

本文介绍 Databricks 如何帮助你为分析和机器学习准备数据。 数据准备通常是分析和机器学习项目中最耗时的组成部分,而良好的数据对于确保准确和有用的结果非常重要。

数据准备任务

数据准备包括下列任务:

  • 清理数据并设置数据格式。 该环节涉及处理缺失值或离群值、确保数据格式正确以及删除不需要的列等任务。
  • 预处理数据。 这包括数值转换、聚合数据、编码文本或图像数据以及创建新特征等任务。
  • 组合数据。 这包括联接表或合并数据集等任务。

数据准备资源和信息

Databricks 平台为数据引入、准备、分析和机器学习以及监视提供了一个统一的平台。

  • 奖牌湖屋体系结构通过指定一组质量更高的数据层来指导你准备数据。 该体系结构维持了 ACID 保证,因为数据通过多层验证和转换,然后存储在针对高效分析而优化的布局中。

  • 增量实时表是一个框架,用于生成可靠、可维护且可测试的数据处理管道。 你定义要对数据执行的转换,而增量实时表管理任务业务流程、群集管理、监视、数据质量和错误处理。

  • Databricks Runtime 和 Databricks Runtime ML 提供预建环境,其中已安装许多最常用的数据准备库。 发行说明中提供了所有内置库的列表。

  • 机器学习的特征工程是将原始数据转换为可用于开发机器学习模型的特征的过程。 对于 ML 应用程序,Databricks 特征存储可帮助团队发现和重复使用特征、跟踪特征世系,并将特征发布到在线存储以实现实时服务和自动查找。