本文概述了您在创建和管理工作区时可选择的方案。
什么是工作区?
工作区是云服务帐户中的 Azure Databricks 部署。 它提供了一个统一的环境,用于处理一组指定用户的 Azure Databricks 资产。
有两种类型的 Databricks 工作区可用:
无服务器工作区:Azure Databricks 帐户中的工作区部署,该帐户预配置了无服务器计算和默认存储,以提供完全无服务器的体验。 仍可以从无服务器工作区连接到云存储。
混合工作区:也称为 经典 工作区,此工作区部署在现有 Azure 帐户中预配存储和计算资源。 无服务器计算仍可在混合工作区中使用。
注释
目前世纪互联运营的 Azure 区域不支持无服务器工作区的功能。
要求
在创建 Azure Databricks 工作区之前,必须具有不是试用订阅的 Azure 试用订阅。
如果有试用版订阅,请完成以下步骤:
- 转到个人资料,将订阅更改为“标准预付费套餐”。 请参阅 Azure 试用版订阅。
- 删除支出限制。
- 请求增加你所在区域的 vCPU 配额。
必需的 Azure 权限
若要创建 Azure Databricks 工作区,必须具有以下项之一:
订阅级别具有 Azure 参与者 或 所有者 角色的用户。
具有具有以下权限列表的自定义角色定义的用户:
Microsoft.Databricks/workspaces/*Microsoft.Resources/subscriptions/resourceGroups/readMicrosoft.Resources/subscriptions/resourceGroups/writeMicrosoft.Databricks/accessConnectors/*Microsoft.Compute/register/actionMicrosoft.ManagedIdentity/register/actionMicrosoft.Storage/register/actionMicrosoft.Network/register/actionMicrosoft.Resources/deployments/validate/actionMicrosoft.Resources/deployments/writeMicrosoft.Resources/deployments/read
注释
如果这些提供程序已在订阅中注册,则不需要
Microsoft.Compute/register/action、Microsoft.ManagedIdentity/register/action、Microsoft.Storage/register/action、Microsoft.Network/register/action权限。 请参阅注册资源提供程序。
选择工作区类型
以下部分介绍最适合常见用例的工作区类型。 使用这些建议可帮助你确定是部署无服务器工作区还是经典工作区。
何时选择无服务器工作区
无服务器工作区是大多数用例的最佳选择,也是开始使用操作和使用者用例的最简单方法。
无服务器工作区是以下用例的最佳选择:
使业务用户能够访问 Databricks One
创建 AI/BI 仪表板
使用笔记本或 SQL 仓库执行探索分析
通过 Lakehouse 联邦连接到 SaaS 提供商(但不是 Lakeflow Connect)
创建无服务器 Lakeflow Spark 声明性管道
何时选择经典工作区
经典工作区是以下用例的最佳选择:
- 移植使用 Spark RDD 的现有旧 Spark 代码
- 使用 Scala 或 R 作为主要编码语言
- 需要时间触发间隔的流数据
- 通过 Lakeflow Connect 直接连接到本地系统或专用数据库
工作区创建选项
可通过多种方式部署 Azure Databricks 工作区。 标准部署方法通过 Azure 门户或 Terraform。
此外,还可以使用以下工具创建工作区: