在 Azure Databricks 上重启 Python 进程

可以在 Azure Databricks 上以编程方式重启 Python 进程,以确保本地安装的或升级的库在当前 SparkSession 的 Python 内核中正常运行。

重启 Python 进程时,会丢失 Python 状态信息。 Databricks 建议在笔记本的开头安装所有会话范围的库,并运行 dbutils.library.restartPython() 以清理 Python 进程,然后再继续。

可以在交互式笔记本中使用此过程,也可以将其用于通过工作流计划的 Python 任务。

dbutils.library.restartPython 是什么?

建议使用帮助程序函数 dbutils.library.restartPython() 在 Databricks 笔记本中重启 Python 进程。

注意

dbutils.library 子模块中的大多数函数已弃用。 Databricks 强烈建议使用 %pip 来管理所有笔记本范围的库安装。 请参阅作用域为笔记本的 Python 库

应何时重启 Python 进程?

每当执行包含以下任一项的本地安装时,最好重启 Python 进程:

  • 指定 Databricks Runtime 中包含的包的版本。
  • 安装 Databricks Runtime 中包含的包的自定义版本。
  • 使用 %pip install <library-name> --upgrade 将库显式更新到最新版本。
  • 从本地 requirements.txt 文件配置自定义环境。
  • 安装需要更改 Databricks Runtime 中包含的依赖库版本的库。