发现数据

Azure Databricks 提供了一套工具和产品,用于简化可通过 Databricks 数据智能平台访问的数据资产的发现。 本文观点鲜明地概述了如何发现和预览已配置为在工作区中访问的数据。

本部分中的主题侧重于浏览数据对象和数据文件。 如果你正在寻找有关使用笔记本、SQL 查询、库和模型等资源的信息,请参阅浏览工作区

如果你正在寻求有关生成数据集摘要统计信息或与探索性数据分析 (EDA) 相关的其他任务的指导,请参阅 Azure Databricks 上的探索性数据分析:工具和技术

如何发现数据资产?

Azure Databricks 上的数据发现工具分为以下常规类别:

  • 关键字搜索。
  • 使用 UI 进行目录浏览。
  • 编程列表和元数据浏览。

数据发现工具针对 Unity Catalog 管理的数据进行了优化。 使用其中一些方法可能无法发现尚未注册为 Unity Catalog 对象的数据资产。

使用 UI 查找数据

目录资源管理器提供le 用于浏览和治理数据资产的工具。 可以使用工作区边栏中的“Catalog icon目录”来访问目录资源管理器。 请参阅什么是目录资源管理器?

笔记本和 SQL 查询编辑器还提供了用于浏览数据库对象的目录导航器。 单击这些界面中的“目录”图标,以展开或折叠目录导航器,而无需离开代码编辑器。

发现感兴趣的数据集后,可以使用见解标签来了解数据在工作区中的使用情况。 请参阅查看表的频繁查询和用户

以编程方式浏览数据

可以对所有数据库对象使用 SHOW 命令来发现已向 Unity Catalog 注册的资产。 使用 LIST 命令、%fs magic 命令或 Databricks 实用工具列出文件。

请参阅浏览存储和查找数据文件浏览数据库对象

查看数据注释

可以查看注释,以了解湖屋中可用的数据集的内容。 可以对数据对象(包括目录、架构、表和列)设置注释。 可以在目录资源管理器中或将 DESCRIBE 命令用于对象来查看注释。

用户还可以选择使用 Markdown(在目录资源管理器中呈现)提供对表和其他数据库对象的注释。 请参阅使用 Markdown 注释在 Catalog Explorer 中记录数据

在湖屋中搜索表

可以使用 Azure Databricks 中的搜索栏查找已注册到 Unity Catalog 的表。 可以执行关键字搜索或使用语义搜索来查找与搜索查询相关的数据集或列。 搜索仅返回你有权查看的表的结果。 搜索审阅表名称、列名、表注释和列注释。 请参阅搜索工作区项目