Databricks Git 文件夹是 Azure Databricks 中一个可视化的 Git 客户端和 API。 它将 Git 存储库集成到 Azure Databricks 工作区中,并支持常见的 Git 操作,例如克隆存储库、提交和推送、更改拉取、分支管理以及提交时的可视化差异比较。
在 Git 文件夹中,可以在笔记本或其他文件中开发代码,并遵循有关使用 Git 实现版本控制、协作和 CI/CD 的数据科学与工程代码开发最佳做法。
注意
Git 文件夹主要用于创作和协作工作流。
Databricks Git 文件夹有什么作用?
Databricks Git 文件夹通过与 Git 提供程序集成为数据和 AI 项目提供源代码管理。
在 Databricks Git 文件夹中,可以使用 Azure Databricks 工作区中的 Git 功能来:
- 克隆、推送到远程 Git 存储库以及从存储库拉取。
- 创建和管理用于开发工作的分支,包括合并、变基和解决冲突。
- 创建笔记本(包括 IPYNB 笔记本)并编辑它们和其他文件。
- 直观地比较提交时的差异并解决合并冲突。
有关分步说明,请参阅在 Databricks Git 文件夹 (Repos) 上运行 Git 操作。
注意
Databricks Git 文件夹还提供一个可与 CI/CD 管道集成的 API。 例如,可以编程方式更新工作区 Git 文件夹,使其始终具有最新版本的代码。 有关使用 Databricks Git 文件夹进行代码开发的最佳做法的信息,请参阅 包含 Databricks Git 文件夹(Repos)的 CI/CD。
有关 Azure Databricks 中支持的笔记本类型的信息,请参阅 导入和导出 Databricks 笔记本。
支持的 Git 提供程序
Azure Databricks Git 文件夹由集成的 Git 存储库提供支持。 存储库可由以下部分列出的任何云和企业 Git 提供程序托管。
注意
什么是“Git 提供程序”?
“Git 提供程序”是托管基于 Git 的源代码管理模型的特定(已命名)服务。 基于 Git 的源代码管理平台以两种方式托管:作为由开发公司托管的云服务,或作为由自己的公司在其硬件上安装和管理的本地服务。 许多 Git 提供商(例如 GitHub、Microsoft、GitLab 和 Atlassian)都提供基于云的 SaaS 和本地(有时称为“自托管”)Git 服务。
在配置期间选择 Git 提供程序时,必须了解云 (SaaS) 与本地 Git 提供程序之间的差异。 本地解决方案通常托管在公司的 VPN 后面,可能无法从 Internet 访问。 通常,本地 Git 提供程序的名称以“服务器”或“自托管”结尾,但如果不确定,请联系公司管理员或查看 Git 提供程序的文档。
如果 Git 提供程序是基于云的,但未列为受支持的提供商,请选择“GitHub”作为提供商可能正常工作,但不能保证。
注意
如果使用“GitHub”作为提供程序,并且仍不确定使用的是云或本地版本,请参阅 GitHub 文档中的关于 GitHub Enterprise 服务器》。
Databricks 支持的云 Git 提供程序
- GitHub、GitHub AE 和 GitHub Enterprise 云
- Atlassian BitBucket 云
- GitLab 和 GitLab EE
- Microsoft Azure DevOps (Azure Repos)
Databricks 支持的本地 Git 提供程序
- GitHub Enterprise Server
- Atlassian BitBucket 服务器和数据中心
- GitLab 自托管
- Microsoft Azure DevOps Server:如果 URL 不匹配
dev.azure.com/*
或visualstudio.com/*
,则工作区管理员必须为你的 Microsoft Azure DevOps Server 将 URL 域前缀显式加入允许列表。 有关详细信息,请参阅限制为使用允许列表中的 URL
如果要集成无法从 Internet 访问的本地 Git 存储库,则还必须在公司的 VPN 中安装用于 Git 身份验证请求的代理。 有关详细信息,请参阅为 Azure Databricks Git 文件夹 (Repos) 设置专用 Git 连接。
要了解如何将访问令牌用于 Git 提供程序,请参阅《配置 Git 凭据和将远程存储库连接到 Azure Databricks》。