Azure Databricks 提供了一套工具和产品,用于简化可通过 Databricks 数据智能平台访问的数据资产的发现。 本文观点鲜明地概述了如何发现和预览已配置为在工作区中访问的数据。
- 若要连接到数据源,请参阅 “连接到数据源”和“外部服务”。
本部分中的主题侧重于浏览数据对象和数据文件。 如果要查找有关使用笔记本、SQL 查询、库和模型等资产的信息,请参阅 工作区 UI。
如果你正在寻求有关生成数据集摘要统计信息或与探索性数据分析 (EDA) 相关的其他任务的指导,请参阅 Azure Databricks 上的探索性数据分析:工具和技术。
如何发现数据资产?
Azure Databricks 上的数据发现工具分为以下常规类别:
- 关键字搜索。
- 使用 UI 进行目录浏览。
- 编程列表和元数据浏览。
数据发现工具针对 Unity Catalog 管理的数据进行了优化。 使用其中一些方法可能无法发现尚未注册为 Unity Catalog 对象的数据资产。
使用 UI 查找数据
-
目录资源管理器:提供用于浏览和管理数据资产的工具。 使用工作区边栏中的
目录访问目录资源管理器。 使用 “见解 ”选项卡了解如何在工作区中使用数据。 请参阅 什么是目录资源管理器? 以及 查看表见解和受欢迎程度。
- 笔记本和 SQL 编辑器:还提供用于浏览数据库对象的目录导航器。 单击编辑器边栏中的 目录 图标可展开或折叠目录导航器,而无需离开代码编辑器。
以编程方式浏览数据
可以对所有数据库对象使用 SHOW 命令来发现已向 Unity Catalog 注册的资产。 使用 LIST 命令、%fs magic 命令或 Databricks 实用工具列出文件。
请参阅浏览存储和查找数据文件与浏览数据库对象。
查看数据注释
可以查看注释,以了解湖屋中可用的数据集的内容。 可以对数据对象(包括目录、架构、表和列)设置注释。 可以在目录资源管理器中查看注释,也可以对对象使用 DESCRIBE 命令来查看注释。
用户还可以选择使用 Markdown(在目录资源管理器中呈现)提供对表和其他数据库对象的注释。 请参阅向数据和 AI 资产添加注释。
在湖仓中搜索表
可以使用 Azure Databricks 中的搜索栏查找已注册到 Unity Catalog 的表。 可以执行关键字搜索或使用语义搜索来查找与搜索查询相关的数据集或列。 搜索仅返回你有权查看的表的结果。 搜索查看表名称、列名、表注释和列注释。 请参阅搜索工作区对象。