湖屋中的数据发现和协作

Databricks 设计 Unity Catalog 帮助组织通过授权更广泛的数据用户来大规模发现和分析数据,从而缩短获得见解的时间。 数据专员可以安全地将数据资产的访问权限授予 Unity Catalog 中不同的最终用户团队。 这些用户可以随后使用各种语言和工具(包括 SQL 和 Python)来创建可以跨团队共享的衍生数据集、模型和仪表板。

大规模管理权限

Unity Catalog 为管理员提供了一个统一的位置,以便将目录、数据库、表和视图的权限分配给用户组。 特权和元存储可以跨工作区共享,使管理员能够针对从标识提供者同步的组设置安全权限,并知道最终用户只能访问其进入的任何 Azure Databricks 工作区中的适当数据。

Unity Catalog 还使管理员能够定义存储凭据,这是一种在云存储基础结构上存储和共享权限的安全方法。 可以将安全对象的权限授予组织中的用户,以便用户可以针对云对象存储位置定义外部位置,让数据工程师能够为新的工作负载设置自助服务,而无需在云帐户控制台中提供提升的权限。

发现 Azure Databricks 上的数据

用户可以使用 Catalog Explorer 浏览 Unity Catalog 中的可用数据对象。 目录资源管理器使用 Unity Catalog 管理员配置的权限来确保用户只能查看他们有权查询的目录、数据库、表和视图。 用户找到感兴趣的数据集后,即可查看字段名称和类型、读取表和单个字段的注释,以及预览数据示例。 用户还可以查看表的完整历史记录,以了解数据更改的时间和方式,此外,通过世系功能,用户可以跟踪某些数据集从上游作业的派生方式以及在下游作业中的使用方式。

存储凭据和外部位置也显示在目录资源管理器中,使每个用户能够完全掌握他们在可用位置和资源中读取和写入数据的权限。

使用 Lakehouse 加快生产时间

Azure Databricks 支持 SQL、Python、Scala 和 R 中的工作负载,使具有不同技能和技术背景的用户能够利用他们的知识来获得分析见解。 可以使用 Azure Databricks 支持的所有语言来定义生产作业,并且笔记本可以结合利用多种语言。 这意味着,可以毫不费力地将 SQL 分析师为最后一英里 ETL 编写的查询提升到生产数据工程代码中。 组织内角色定义的查询和工作负载使用相同的数据集,因此在与其他团队共享代码和结果之前,无需协调字段名称或确保仪表板处于最新状态。 可以安全地共享代码、笔记本、查询和仪表板,所有这些内容都由相同的可缩放云基础结构提供支持,并针对相同的精选数据源进行定义。