Azure Databricks 上的探索性数据分析:工具和技术

本文介绍 Azure Databricks 上用于探索性数据分析 (EDA) 的工具和技术。

什么是 EDA,它的作用又是什么?

探索性数据分析 (EDA) 包括用于浏览数据集的方法,以汇总数据集的主要特征并识别数据的问题。 使用统计方法和可视化效果,可以了解数据集以确定其对分析的准备情况,并告知哪些技术适用于数据准备。 EDA 还会影响你选择用于训练 ML 模型的算法。

Azure Databricks 中有哪些 EDA 工具?

Azure Databricks 在 Databricks SQL 和 Databricks Runtime 中内置了分析和可视化工具。 有关 Azure Databricks 中提供的可视化效果类型的图示列表,请参阅可视化效果类型

Databricks SQL 中的 EDA

下面是一些有关 Databricks SQL 中的数据可视化和浏览工具的有用文章:

Databricks Runtime 中的 EDA

Databricks Runtime 提供了一个预构建的环境,该环境已安装常用的数据浏览库。 可以在发行说明中查看内置库的列表。

此外,以下文章还演示了 Databricks Runtime 中的可视化工具示例:

在 Databricks Python 笔记本中,可以结合 SQL 和 Python 来浏览数据。 在 Python 笔记本的 SQL 语言单元格中运行代码时,表结果将自动作为 Python 数据帧提供。 有关详细信息,请参阅在 Python 笔记本中浏览 SQL 单元格结果