重要
此功能在 Beta 版中。
使用 dbt 平台任务直接从 Azure Databricks 协调和监视现有 dbt 平台作业。 本页介绍如何选择和触发 dbt 作业、为失败设置自动重试选项以及监视运行。
dbt 平台和 dbt 任务之间的差异
作业为 dbt 项目提供两种任务类型。 根据托管 dbt 项目的位置选择正确的项目:
dbt 平台任务:使用此任务来协调预先存在的 dbt 平台作业。 它连接到 dbt 平台 API,并在那里触发运行。 如果要在 Azure Databricks 中集中业务流程,同时保留所有 dbt 平台优势,例如监视和计划,请选择此选项。
dbt 任务:使用此任务通过 Git 中的代码在 Azure Databricks 群集上运行 dbt 核心项目。 如果需要完全控制执行环境,并且希望完全管理 Azure Databricks 中的依赖项,请选择此选项。 请参阅适用于作业的 dbt 任务。
先决条件
若要使用 dbt 平台任务,必须满足以下先决条件:
- 工作区管理员必须启用预览版。 请参阅 管理 Azure Databricks 预览版。
- 必须在工作区中拥有
CREATE CONNECTIONUnity Catalog 元数据存储的权限。 - 访问 dbt 平台中的现有项目以及已在该平台中定义的作业。 若要了解详细信息,请参阅 dbt 文档中 dbt 平台中的作业 。
- 在 dbt 平台中生成服务令牌的权限。 若要了解详细信息,请参阅 服务帐户令牌。
注释
为了获得安全性和作稳定性,Databricks 建议生成服务帐户令牌,而不是个人访问令牌。 服务帐户令牌不绑定到单个用户,并且可以轻松限定为提供最低必要权限的范围。
收集 dbt 平台详细信息
若要将 dbt 与 Azure Databricks 集成,需要以下三个详细信息:
- dbt 平台账户 ID。
- 在 dbt 平台中生成的 API 密钥。
- 您的 dbt 平台部署主机地址 URL。
以下部分介绍如何查找此所需信息。
获取帐户 ID:
若要检索帐户 ID,请按照以下步骤操作:
- 登录到 dbt 平台。
- 导航到 “设置>帐户设置”。
- 从 URL 后缀获取帐户 ID,格式如下:
https://cloud.getdbt.com/settings/accounts/{account_id}
获取 API 密钥
要获取您的 API 密钥:
- 登录到 dbt 平台。
- 导航到设置>配置文件设置>配置文件>访问 API>API 密钥。
托管 URL
主机 URL 取决于你的位置和租户。 请参阅 dbt 文档中 的访问、区域和 IP 地址 ,查找区域的 URL。
确定您的区域和租户类型(多租户或单元格式)。 使用 “访问 URL ”列获取主机 URL。
| 租赁类型 | 区域示例 | 主机 URL 示例 |
|---|---|---|
| 多租户 | 北美 | https://cloud.getdbt.com |
| 基于细胞 | 北美 (us-east-1) |
https://12345.us1.dbt.com (使用 12345 作为帐户 ID) |
dbt 平台连接设置
使用以下步骤在 Azure Databricks 中设置 dbt 平台连接。
- 点击边栏中的
目录。
- 单击
架构浏览器中的加号图标。 然后单击“ 创建连接”。 “ 设置连接” 窗体随即打开。
- 输入以下信息,然后单击“ 下一步” :
- 在 “连接名称”中,输入名称。
- 对于 连接类型,请选择 dbt 平台。
- 在 “主机 ”文本字段中输入 dbt 平台主机 URL。 请勿包含尾部斜杠(
/)。 - 输入在上一步中收集的 dbt 平台帐户 ID 和 API 令牌。
- 单击“ 创建连接 ”以确认连接详细信息。
- (可选)授予其他用户使用连接的权限:
- 选择在 “主管” 下拉菜单中选择要授予权限的用户 ID 和组。
- 选择要授予的特权。
- 单击“确认”。
使用 dbt 平台任务创建新作业
在工作区中,单击
,然后在边栏中选择作业和管道。
单击创建,然后选择作业。 新的任务会通过关联的时间戳自动命名。
(可选)单击作业名称并输入新名称进行编辑。
“ 任务 ”选项卡显示空任务窗格。
注释
- 如果 Lakeflow 作业 UI 为 ON,请单击“ 添加其他任务类型”。 搜索 dbt 平台,然后单击磁贴将其选中。
- 如果 Lakeflow 作业 UI为 OFF,请使用 “类型 ”下拉菜单选择 dbt 平台。
输入“任务名称”。
使用 dbt 平台连接 下拉菜单选择之前创建的连接。
使用 dbt 平台作业 下拉菜单选择要协调的 dbt 平台作业。
单击“保存任务”。
(可选)单击“ 立即运行 ”以手动测试作业。
设置计划或触发器
您可以配置作业以根据时间安排或新数据的到达自动触发。 若要了解有关可用选项的详细信息,请参阅 使用计划和触发器自动执行作业。
注释
dbt 平台作业不支持持续触发器。
监控程序运行
可以在 Azure Databricks UI 中监视 Lakeflow 作业。 对于 dbt 平台作业,还可以打开指向 dbt 平台中作业运行详细信息的链接。
监视运行:
单击工作区侧边栏中的“作业和管道”。
(可选)选择“作业”和“我拥有”筛选器。
单击作业的名称链接。
此时会显示“ 运行 ”选项卡,其中显示了活动运行和已完成运行的矩阵和列表视图。
在运行列表视图中的 “开始时间 ”列中单击运行的链接。 此时会打开 dbt 平台作业状态。
单击 dbt 中的“查看 ”以查看 dbt 平台中的作业运行详细信息。