存储库现在称为 Git 目录。 与 Repos 一样,Git 文件夹允许将工作区文件夹与远程 Git 存储库同步,以便进行版本控制。
这种更改对我意味着什么?
核心功能没有更改,只是术语。 UI作现在引用“Git 文件夹”而不是“Repos”。
以前,你通过选择 “新建>存储库”创建了 Git 支持的文件夹:
现在,选择“ 新建>Git”文件夹。
此更改简化了对版本控制文件夹的操作:
灵活的文件夹组织:在工作区文件树的任何级别创建 Git 文件夹。 例如,
/Workspace/Users/<user email>/level_1/level_2/level_3/<Git folder name>。 Repos 只能存在于固定级别,例如/Workspace/Repos/<user email>/<Repo name>。注释
Git 文件夹可以包含 Repos 不支持的资产类型,例如 Databricks SQL 资产和 MLflow 试验。 Databricks 会随着时间的推移添加对其他资产的序列化支持。
简化的 UI:在工作区中直接使用 Git,而无需导航到单独的 Repos 区域。
发生了什么变化?
- Git 文件夹可以存在于目录之外
/Repos。 - 若要创建 Git 文件夹,请选择“ 新建>Git”文件夹。 新的 Git 文件夹位于
/Workspace/Users/<user-email>/下。 - Git 文件夹可以存在于任何深度下
/Workspace/Users/<user-email>/,并且可以有多个 Git 文件夹。 - Git 文件夹支持的资产类型是 Repos 所不支持的。 Databricks 增加了对一段时间内更多资产类型的序列化支持。
- Git 文件夹需要远程存储库 URL。 Repos 没有此要求。
我当前的 Repo 会怎样?
存储库现在被整合到工作区 UI 的 /Workspace/Repos 中,而不是单独的顶级 存储库 节点。
- 现有
/Repos路径可继续工作。 同时/Repos/Workspace/Repos引用同一文件夹,因此路径和jobsdbutils.notebook.run%run引用不需要更改。 - 在极少数情况下,您可能需要对工作区进行一次性修改以实现重定向。 请参阅 对工作区对象的引用。
Databricks 建议创建新的 Git 文件夹,而不是 Repos。 将 Git 存储库与其他工作区资产并置,使其更易于发现和管理。
Git 文件夹权限
Git 文件夹使用与其他工作区 文件夹相同的工作区文件夹权限 。 大多数 Git 操作都需要 CAN_MANAGE 权限。
用于在 Git 文件夹中运行代码的 Databricks Runtime 版本
对于 Git 文件夹和旧存储库之间的一致行为,请使用 Databricks Runtime 15.0 及更高版本。
当前工作目录 (CWD) 行为
Databricks Runtime 14.0 及更高版本支持相对路径,并为所有笔记本提供一致的 CWD 体验 。 早期 Databricks Runtime 版本在 Git 文件夹和非 Git 文件夹之间可能存在不一致的 CWD 行为。
Python sys.path 行为
Databricks Runtime 14.3 及更高版本在 Git 文件夹中提供与旧存储库中相同的 sys.path 行为。 早期版本不会自动将根存储库目录添加到 sys.path Git 文件夹。 解决方法是手动将文件夹路径追加到 sys.path。
有关示例,请参阅 导入 Python 和 R 模块。
Python 库优先级
Databricks Runtime 14.3 及更高版本在 Git 文件夹中提供与旧存储库中相同的 Python 库优先级 。