使用服务主体通过 Databricks Git 文件夹进行自动化

可以使用 Azure Databricks 帐户控制台或 Databricks CLI 创建有权访问工作区 Git 文件夹的服务主体。

若要创建新的服务主体,请参阅 服务主体。 在工作区中有服务主体时,可以将 Git 凭据链接到它,以便它可以作为自动化的一部分访问工作区的 Git 文件夹。

授权服务主体访问 Git 文件夹

若要使用 Azure Databricks 帐户控制台为服务主体提供对 Git 文件夹的授权访问权限,请执行以下操作:

  1. 登录到 Azure Databricks 工作区。 你必须拥有工作区的管理员权限才能完成这些步骤。 如果您没有工作区的管理员权限,请申请管理员权限或联系您的帐户管理员。

  2. 在任何页面的右上角,单击用户名,然后选择“设置”。

  3. 在左侧导航窗格中的“工作区管理员”下选择“身份验证和访问控制”,然后选择“服务主体”的“管理”按钮

    工作区设置下的“服务主体”页

  4. 从服务主体列表中,选择要使用 Git 凭据更新的服务主体。 还可以通过选择 “添加服务主体”创建新的服务主体

    通过 Databricks 帐户控制台创建或添加服务主体

  5. 选择“Git 集成”选项卡。(如果未创建服务主体或尚未为其分配服务主体管理器特权,则会灰显。)在它下面,选择凭据(如 GitHub)的“Git 提供程序”,选择“链接 Git 帐户”,然后选择“链接”

    如果不想链接自己的 Git 凭据,也可以使用 Git 个人访问令牌(PAT)。 若要改用 PAT,请选择 “个人访问令牌 ”,并为 Git 帐户提供令牌信息,以便在对服务主体的访问权限进行身份验证时使用。 有关从 Git 提供程序获取 PAT 的更多详细信息,请参阅 配置 Git 凭据并将远程存储库连接到 Azure Databricks

    将 Git 凭据链接到 Databricks 服务主体

  6. 系统将提示你选择要链接的 Git 用户帐户。 选择服务主体将用于访问的 Git 用户帐户,然后选择“继续”。 (如果未看到要使用的用户帐户,请选择“ 使用其他帐户”。

  7. 在下一个对话框中,选择“授权 Databricks”。 你将短暂看到消息“正在链接帐户...”,然后显示更新的服务主体详细信息。

    成功链接 Git 凭据的确认屏幕

在自动化过程中访问 Azure Databricks 工作区 Git 文件夹资源时,你选择的服务主体将应用链接的 Git 凭据。

使用 API

要从 Databricks 笔记本单元格中调用任何 Databricks REST API,请先安装 Databricks SDK 和 %pip install databricks-sdk --upgrade(针对最新的 Databricks REST API),然后从 ApiClient 中导入 databricks.sdk.core

备注

如果 %pip install databricks-sdk --upgrade 返回错误“找不到包”,则之前该 databricks-sdk 包尚未安装。 在不使用 --upgrade 标志的情况下重新运行命令:%pip install databricks-sdk

还可以从笔记本运行 Databricks SDK API,以检索工作区的服务主体。 下面是使用 Python 和 用于 Python 的 Databricks SDK 的示例。

还可以使用工具,如 curlTerraform。 不能使用 Azure Databricks 用户界面。

若要详细了解 Azure Databricks 上的服务主体,请参阅 服务主体。 有关服务主体和 CI/CD 的信息,请参阅 CI/CD 的服务主体。 要了解如何在笔记本环境中使用 Databricks SDK,请阅读 在 Databricks 笔记本中使用 Python 的 Databricks SDK