湖屋中的数据发现和协作

Databricks 设计了 Unity 目录,通过使更广泛的数据用户能够大规模发现和分析数据,帮助组织缩短见解的时间。 数据专员可以安全地授予对 Unity 目录中不同最终用户团队的数据资产的访问权限。 然后,这些用户可以使用各种语言和工具(包括 SQL 和 Python)来创建可跨团队共享的衍生数据集、模型和仪表板。

在大范围内管理权限

Unity 目录为管理员提供了一个统一的位置,用于为用户组分配目录、数据库、表和视图的权限。 权限和元存储在不同工作区之间共享,使管理员能够针对从身份提供商同步的群组设置一次安全权限,并确保终端用户在进入任何 Azure Databricks 工作区时只能访问相应的数据。

Unity 目录还允许管理员定义存储凭据,这是存储和共享云存储基础结构权限的安全方法。 可以为组织中的高级用户授予这些安全对象的权限,使他们能够针对云对象存储位置定义外部位置,从而使数据工程师无需在云账户控制台中提供额外的权限即可为新增工作负载进行自助服务。

了解 Azure Databricks 上的数据

用户可以使用 目录资源管理器浏览 Unity 目录中的可用数据对象。 目录资源管理器使用 Unity 目录管理员配置的权限来确保用户只能查看他们有权查询的目录、数据库、表和视图。 用户找到感兴趣的数据集后,可以查看字段名称和类型、读取表和单个字段的注释,以及预览数据示例。 用户还可以查看表的完整历史记录,以了解数据何时以及如何更改,世系功能允许用户跟踪某些数据集如何派生自上游作业并在下游作业中使用。

存储凭据和外部位置也显示在目录资源管理器中,使每个用户能够完全掌握他们必须跨可用位置和资源读取和写入数据的权限。

使用湖仓加快投入生产的时间

Azure Databricks 支持 SQL、Python、Scala 和 R 中的工作负载,使具有各种技能集和技术背景的用户能够利用其知识来派生分析见解。 可以使用 Azure Databricks 支持的所有语言来定义生产作业,笔记本可以利用语言的组合。 这意味着,你可以将 SQL 分析师为最后一英里 ETL 编写的查询提升到生产数据工程代码中,几乎无需任何努力。 由整个组织角色定义的查询和工作负载都利用相同的数据集,因此无需协调字段名称或确保仪表板在与其他团队共享代码和结果之前是最新的。 可以安全地共享代码、笔记本、查询和仪表板,这些仪表板都由同一可缩放的云基础结构提供支持,并针对同一特选数据源定义。