管理 Lakeflow 声明性管道的 Python 依赖项

Lakeflow 声明性管道支持您的管道中的外部依赖项。 Databricks 建议使用两种模式之一来安装 Python 包:

  1. 使用 环境 设置将软件包添加到流水线环境中,以供流水线中的所有源文件使用。
  2. 从工作区文件中存储的源代码导入模块或库。 请参阅 从 Git 文件夹或工作区文件导入 Python 模块

Lakeflow 声明性管道还支持使用全局和群集范围的 初始化脚本。 但是,这些外部依赖项(尤其是 init 脚本)会增加运行时升级问题的风险。 若要缓解这些风险,请尽量减少在管道中使用 init 脚本。 如果处理需要初始化脚本,请自动测试管道以提前检测问题。 如果使用 init 脚本,Databricks 建议增加测试频率。

重要

由于 Lakeflow 声明性管道不支持 JVM 库 ,因此不要使用初始化脚本来安装 JVM 库。 但是,可以使用 init 脚本安装其他库类型,例如 Python 库。

Python 库

若要指定外部 Python 库,请编辑管道的环境。

  1. 在管道编辑器中,单击 “设置”。
  2. “管道”环境中,选择 “铅笔”图标。编辑环境
  3. 单击 “加号”图标。添加依赖项
  4. 键入依赖项的名称。 Databricks 建议锁定库的版本。 例如,若要添加对版本 3.19 的 simplejson 依赖项,请键入 simplejson==3.19.*

还可以通过指定 Python 滚轮包的路径(例如 /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl)从 Unity 目录卷安装 Python 滚轮包。

是否可以在 Lakeflow 声明性管道中使用 Scala 或 Java 库?

否,Lakeflow 声明性管道仅支持 SQL 和 Python。 不能在管道中使用 JVM 库。 安装 JVM 库文件将导致不可预知的行为,并且可能会与未来的 Lakeflow 声明性管道版本不兼容或出现故障。 如果管道使用 init 脚本,则还必须确保脚本未安装 JVM 库。