Databricks 笔记本的已知限制
本文介绍 Databricks 笔记本的已知限制。 有关其他资源限制,请参阅资源限制。
笔记本大小调整
- 单个笔记本单元的输入限制为 6 MB。
- 修订快照自动保存、导入、导出和克隆的最大笔记本大小为 10 MB。
- 可以手动保存最多 32 MB 的笔记本。
笔记本结果表
- 表结果限制为 10K 行或 2MB,以较低者为准。
- 作业群集的最大笔记本输出大小为 30 MB。
- 非表格命令结果限制为 20MB。
- 默认情况下,文本结果最多返回 50,000 个字符。 使用 Databricks Runtime 12.2 LTS 及更高版本时,可以通过设置 Spark 配置属性
spark.databricks.driver.maxReplOutputLength
来增加此上限。
笔记本调试程序
笔记本调试程序的限制:
- 调试器仅适用于 Python。 它不支持 Scala 或 R。
- 调试器不适用于已共享访问模式群集。
- 调试器不支持单步执行外部文件或模块。
- 当调试会话处于活动状态时,无法在笔记本中运行其他命令。
SQL 仓库笔记本
SQL 仓库笔记本的限制:
- 附加到 SQL 仓库时,执行上下文的空闲超时为 8 小时。
ipywidgets
ipywidgets 的限制:
- 使用 ipywidgets 的笔记本必须附加到正在运行的群集。
- 小组件状态不会在笔记本会话中保留。 每次将笔记本附加到群集时,必须重新运行小组件单元格才能呈现它们。
- 不支持密码和控制器 ipywidget。
- 具有 LaTeX 表达式的 HTMLMath 和 Label 小组件无法正确呈现。 (例如
widgets.Label(value=r'$$\frac{x+1}{x-1}$$')
无法正确呈现。) - 如果笔记本处于深色模式,小组件可能无法正确呈现,尤其是彩色小组件。
- 小组件输出不能用于笔记本仪表板视图。
- ipywidget 的最大消息有效负载大小为 5 MB。 使用映像或大型文本数据的小组件可能无法正确呈现。
Databricks 小组件
Databricks 小组件的限制:
一个笔记本中最多可以创建 512 个小组件。
小组件名称限制为 1024 个字符。
小组件标签限制为 2048 个字符。
最多 2048 个字符可以输入到文本小组件。
对于多选、组合框或下拉小组件,最多可以有 1024 个选项。
存在一个已知问题,即在按“全部运行”后,即使在代码中清除或删除小组件,小组件状态也可能无法正确清除。 如果发生这种情况,你将看到小组件的视觉状态与其输出状态之间的差异。 单独重新运行单元格可能会绕过此问题。 若要完全避免此问题,Databricks 建议使用 ipywidgets。
不应直接在线程、子进程或结构化流式处理 (foreachBatch) 等异步上下文中访问小组件状态,因为小组件状态在异步代码运行时可能会更改。 如果需要在异步上下文中访问小组件状态,请将其作为参数传入。 例如,如果你有以下使用线程的代码:
import threading def thread_func(): # Unsafe access in a thread value = dbutils.widgets.get('my_widget') print(value) thread = threading.Thread(target=thread_func) thread.start() thread.join()
Databricks 建议改用参数:
# Access widget values outside the asynchronous context and pass them to the function value = dbutils.widgets.get('my_widget') def thread_func(val): # Use the passed value safely inside the thread print(val) thread = threading.Thread(target=thread_func, args=(value,)) thread.start() thread.join()
小组件通常无法在笔记本中的不同语言之间传递参数。 可在 Python 单元格中创建小组件
arg1
并在 SQL 或 Scala 单元格中使用它(如果逐个运行单元格)。 但是,如果使用“全部运行”或将笔记本作为作业运行,则无法做到这一点。 部分解决方法包括:- 对于未混合使用语言的笔记本,可为每种语言创建一个笔记本,并在运行笔记本时传递参数。
- 可以使用
spark.sql()
调用来访问小组件。 例如,在 Python 中:spark.sql("select getArgument('arg1')").take(1)[0][0]
。
Bamboolib
bamboolib 的限制:
- 使用 bamboolib 进行数据整理限制为大约 1000 万行。 此限制基于 pandas 和群集的计算资源。
- 使用 bamboolib 进行数据可视化限制为大约 1 万行。 此限制基于 plotly。