在 Azure Databricks 上重启 Python 进程
可以在 Azure Databricks 上以编程方式重启 Python 进程,以确保本地安装的或升级的库在当前 SparkSession 的 Python 内核中正常运行。
重启 Python 进程时,会丢失 Python 状态信息。 Databricks 建议在笔记本的开头安装所有会话范围的库,并运行 dbutils.library.restartPython()
以清理 Python 进程,然后再继续。
可以在交互式笔记本中使用此过程,也可以将其用于通过作业计划的 Python 任务。
dbutils.library.restartPython
是什么?
建议使用帮助程序函数 dbutils.library.restartPython()
在 Databricks 笔记本中重启 Python 进程。
注意
dbutils.library
子模块中的大多数函数已弃用。 Databricks 强烈建议使用 %pip
来管理所有笔记本范围的库安装。 请参阅作用域为笔记本的 Python 库。
应何时重启 Python 进程?
每当执行包含以下任一项的本地安装时,最好重启 Python 进程:
- 指定 Databricks Runtime 中包含的包的版本。
- 安装 Databricks Runtime 中包含的包的自定义版本。
- 使用
%pip install <library-name> --upgrade
将库显式更新到最新版本。 - 从本地
requirements.txt
文件配置自定义环境。 - 安装需要更改 Databricks Runtime 中包含的依赖库版本的库。