什么是 Databricks Git 文件夹

Databricks Git 文件夹是 Azure Databricks 中一个可视化的 Git 客户端和 API。 它将 Git 存储库集成到 Azure Databricks 工作区中,并支持常见的 Git 操作,例如克隆存储库、提交和推送、更改拉取、分支管理以及提交时的可视化差异比较。

在 Git 文件夹中,可以在笔记本或其他文件中开发代码,并遵循有关使用 Git 实现版本控制、协作和 CI/CD 的数据科学与工程代码开发最佳做法。

注意

Git 文件夹主要用于创作和协作工作流。

Databricks Git 文件夹有什么作用?

Databricks Git 文件夹通过与 Git 提供程序集成为数据和 AI 项目提供源代码管理。

在 Databricks Git 文件夹中,可以使用 Azure Databricks 工作区中的 Git 功能来:

  • 克隆、推送到远程 Git 存储库以及从存储库拉取。
  • 创建和管理用于开发工作的分支,包括合并、变基和解决冲突。
  • 创建笔记本(包括 IPYNB 笔记本)并编辑它们和其他文件。
  • 直观地比较提交时的差异并解决合并冲突。

有关分步说明,请参阅在 Databricks Git 文件夹 (Repos) 上运行 Git 操作

注意

Databricks Git 文件夹还提供一个可与 CI/CD 管道集成的 API。 例如,可以编程方式更新工作区 Git 文件夹,使其始终具有最新版本的代码。 有关使用 Databricks Git 文件夹进行代码开发的最佳做法的信息,请参阅 包含 Databricks Git 文件夹(Repos)的 CI/CD

有关 Azure Databricks 中支持的笔记本类型的信息,请参阅 导入和导出 Databricks 笔记本

支持的 Git 提供程序

Azure Databricks Git 文件夹由集成的 Git 存储库提供支持。 存储库可由以下部分列出的任何云和企业 Git 提供程序托管。

注意

什么是“Git 提供程序”?

“Git 提供程序”是托管基于 Git 的源代码管理模型的特定(已命名)服务。 基于 Git 的源代码管理平台以两种方式托管:作为由开发公司托管的云服务,或作为由自己的公司在其硬件上安装和管理的本地服务。 许多 Git 提供商(例如 GitHub、Microsoft、GitLab 和 Atlassian)都提供基于云的 SaaS 和本地(有时称为“自托管”)Git 服务。

在配置期间选择 Git 提供程序时,必须了解云 (SaaS) 与本地 Git 提供程序之间的差异。 本地解决方案通常托管在公司的 VPN 后面,可能无法从 Internet 访问。 通常,本地 Git 提供程序的名称以“服务器”或“自托管”结尾,但如果不确定,请联系公司管理员或查看 Git 提供程序的文档。

如果 Git 提供程序是基于云的,但未列为受支持的提供商,请选择“GitHub”作为提供商可能正常工作,但不能保证。

注意

如果使用“GitHub”作为提供程序,并且仍不确定使用的是云或本地版本,请参阅 GitHub 文档中的关于 GitHub Enterprise 服务器》。

Databricks 支持的云 Git 提供程序

  • GitHub、GitHub AE 和 GitHub Enterprise 云
  • Atlassian BitBucket 云
  • GitLab 和 GitLab EE
  • Microsoft Azure DevOps (Azure Repos)

Databricks 支持的本地 Git 提供程序

  • GitHub Enterprise Server
  • Atlassian BitBucket 服务器和数据中心
  • GitLab 自托管
  • Microsoft Azure DevOps Server:如果 URL 不匹配 dev.azure.com/*visualstudio.com/*,则工作区管理员必须为你的 Microsoft Azure DevOps Server 将 URL 域前缀显式加入允许列表。 有关详细信息,请参阅限制为使用允许列表中的 URL

如果要集成无法从 Internet 访问的本地 Git 存储库,则还必须在公司的 VPN 中安装用于 Git 身份验证请求的代理。 有关详细信息,请参阅为 Azure Databricks Git 文件夹 (Repos) 设置专用 Git 连接

要了解如何将访问令牌用于 Git 提供程序,请参阅《配置 Git 凭据和将远程存储库连接到 Azure Databricks》。

后续步骤