工作区库

注意

工作区库已被弃用。 Databricks 建议将库直接添加到计算或作业任务。

工作区库充当本地存储库,你可以从中创建群集安装库。 工作区库可能是你的组织创建的自定义代码,也可能是你的组织已经标准化的开源库的特定版本。

必须先在群集上安装工作区库,然后才能将其用于笔记本或作业。 请参阅将工作区库安装到群集上

工作区中的所有用户均可使用共享文件夹中的工作区库,而某个用户文件夹中的工作区库仅该用户可用。

重要

库上传 UI 的默认行为已更改。 旧行为始终将库存储在 DBFS 根目录中。 所有工作区用户都能够修改 DBFS 根目录中存储的数据和文件。

库上传的默认位置现在是工作区文件。 Databricks 建议将库上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。

工作区库与使用工作区文件存储的库有何不同?

“工作区库”一词是指注册到某个工作区的任何库。 工作区库与笔记本和工作区文件一起显示,遵循其包含目录的 ACL 规则。

“工作区文件”一词是指工作区中存储的任意文件。 可以将 Python .whl 包存储为工作区文件,然后将其注册为工作区库。 请参阅什么是工作区文件?

可以将库作为工作区文件上传。 请参阅工作区文件基本用法

虽然可以将许多文件类型上传到工作区文件,但只能使用工作区文件安装 Python .whl 文件。 请参阅与库和初始化脚本的计算兼容性

在 Databricks Runtime 13.3 LTS 及更高版本中,可以使用%pip安装存储为工作区文件的 Python wheel。 请参阅使用 %pip 安装存储为工作区文件的包

创建工作区库

  1. 右键单击用于存储该库的工作区文件夹。
  2. 选择“创建”“库”。 此时将显示“创建库”对话框。
  3. 选择“库源”并按照相应的过程操作

上传 Jar、Python Egg 或 Python Wheel

注意

已弃用安装 Python Egg 的功能,并将在未来的 Databricks Runtime 版本中删除该功能。

重要

库上传 UI 的默认行为已更改。 旧行为始终将库存储在 DBFS 根目录中。 所有工作区用户都能够修改 DBFS 根目录中存储的数据和文件。

库上传的默认位置现在是工作区文件。 Databricks 建议将库上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。

  1. 在“库源”按钮列表中,选择“上传”。
  2. 选择“Jar”、“Python Egg”或“Python Whl” 。
  3. 选择性地输入库名称。
  4. 将 Jar、Egg 或 Whl 拖到下拉框中,或单击下拉框,然后导航到文件。 该文件将上传到 dbfs:/FileStore/jars
  5. 单击“创建”。 将显示“库状态”屏幕。

引用已上传的 Jar、Python Egg 或 Python Wheel

可以通过引用存储在 DBFS 根目录或对象存储中的 JAR、Python egg 或 Python wheel 文件,或者使用工作区文件来创建新的工作区库。 遵循此工作流可注册指向库的指针,而无需上传或移动文件。

使用 Databricks Runtime 13.2 及更高版本,还可以在 Unity Catalog 中引用卷。 此功能现提供公共预览版

对于共享访问模式,必须将 JAR 添加到allowlist。 请参阅将共享计算上的库和 init 脚本加入允许列表

  1. 在“库源”按钮列表中选择“文件路径/ADLS”。
  2. 选择“Jar”、“Python Egg”或“Python Whl” 。
  3. 选择性地输入库名称。
  4. 指定库的路径,如以下示例所示:
    • abfss://container-name@storage-account-name.dfs.core.chinacloudapi.cn/path/to/library.whl
    • /Workspace/path/to/library.whl
    • dbfs:/path/to/library.whl
    • /Volumes/<catalog>/<schema>/<volume>/<path_to_library_file>
  5. 单击“创建”。 将显示“库状态”屏幕。

有关在对象存储中使用库的详细信息,请参阅从对象存储安装库

有关工作区文件的详细信息,请参阅使用 Azure Databricks 中的文件

将工作区库安装到群集上

注意

Azure Databricks 按照在群集上安装所有工作区库的顺序处理这些工作区库。 如果库之间存在依赖关系,则可能需要注意群集上的安装顺序。

重要

库上传 UI 的默认行为已更改。 旧行为始终将库存储在 DBFS 根目录中。 所有工作区用户都能够修改 DBFS 根目录中存储的数据和文件。

库上传的默认位置现在是工作区文件。 Databricks 建议将库上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。

在单用户访问模式下,使用已分配主体(用户或服务主体)的标识。

在共享访问模式下,库使用安装库的用户的标识。

注意

无隔离共享访问模式不支持卷,但使用与共享访问模式相同的标识分配。

若要查看在群集上安装库的所有选项,请参阅群集库

若要安装工作区中已存在的库,可以从群集 UI 或库 UI 开始:

群集

  1. 在边栏中单击 compute icon“计算”。
  2. 单击群集名称。
  3. 单击“库”选项卡。
  4. 单击“新安装”。
  5. 在“库源”按钮列表中,选择“工作区库”。
  6. 选择一个工作区库。
  7. 单击“安装” 。

  1. 转到包含该库的文件夹。
  2. 单击库名称。
  3. 选中要在其上安装该库的群集旁边的复选框,然后单击“安装”。 列表中仅显示正在运行的群集。

查看工作区库详细信息

注意

工作区文件夹为发现工作区库和管理 ACL 提供了便利。

  1. 转到包含该库的工作区文件夹。
  2. 单击库名称。

“库详细信息”页面显示该库运行中的群集及其安装状态。 如果已安装库,则页面包含指向包主机的链接。 如果已上传库,则页面将显示指向已上传的包文件的链接。

移动工作区库

注意

工作区文件夹为发现工作区库和管理 ACL 提供了便利。 移动工作区库不会移动文件,但可以修改哪些用户有权访问工作区库。

  1. 转到包含该库的工作区文件夹。
  2. 右键单击库名称,然后选择“移动”。 将显示文件夹浏览器。
  3. 单击目标文件夹。
  4. 单击“移动”。

删除工作区库

重要

删除工作区库之前,应将其从所有群集中卸载

若要删除工作区库,请执行以下操作:

  1. 将库移动到“回收站”文件夹。
  2. 永久删除“回收站”文件夹中的库,或清空“回收站”文件夹。