Databricks 支持在 Lakehouse 上跨数据、分析和 AI 工作负载进行安全、治理的协作。 使用 Unity Catalog 和开放协议(如 Delta Sharing),团队可以大规模地发现、共享和分析数据,同时在不同用例和与合作者之间维持良好的治理、可审核性和隐私。
在大范围内管理权限
Unity 目录为管理员提供了一个统一的位置,用于为用户组分配目录、数据库、表和视图的权限。 权限和元存储在不同工作区之间共享,使管理员能够针对从身份提供商同步的群组设置一次安全权限,并确保终端用户在进入任何 Azure Databricks 工作区时只能访问相应的数据。
Unity 目录还允许管理员定义存储凭据,这是用于存储和共享云存储基础结构权限的安全方法。 可以授予这些安全对象的权限,以允许组织中的用户针对云对象存储位置定义外部位置,从而允许数据工程师为新工作负载提供自助服务,而无需在云帐户控制台中提供提升的权限。
了解 Azure Databricks 上的数据
用户可以使用 目录资源管理器浏览 Unity 目录中的可用数据对象。 目录资源管理器使用 Unity 目录管理员配置的权限来确保用户只能查看他们有权查询的目录、数据库、表和视图。 用户找到感兴趣的数据集后,可以查看字段名称和类型、读取表和单个字段的注释,以及预览数据示例。 用户还可以查看表的完整历史记录,以了解数据何时以及如何更改,世系功能允许用户跟踪某些数据集如何派生自上游作业并在下游作业中使用。
存储凭据和外部位置也显示在目录资源管理器中,允许用户查看他们需要跨可用位置和资源读取和写入数据的权限。
使用湖仓加快投入生产的时间
Azure Databricks 支持 SQL、Python、Scala 和 R 中的工作负载,使具有各种技能集和技术背景的用户能够使用其知识来派生分析见解。 可以使用 Azure Databricks 支持的所有语言来定义生产作业,笔记本可以使用语言的组合。 这意味着,你可以将 SQL 分析师为最后一英里 ETL 编写的查询提升到生产数据工程代码中,几乎无需任何努力。 组织内角色定义的查询和工作负载使用相同的数据集,因此无需协调字段名称或确保仪表板是最新的,然后再与其他团队共享代码和结果。 可以安全地共享代码、笔记本、查询和仪表板,这些仪表板都由同一可缩放的云基础结构提供支持,并针对同一特选数据源定义。