对增量实时表管道运行更新
本文介绍什么是增量实时表管道更新以及如何运行更新。
创建管道并准备好运行后,可以开始更新。 管道更新执行以下操作:
- 使用正确的配置启动群集。
- 发现定义的所有表和视图,并检查是否存在任何分析错误,例如列名无效、依赖项缺失和语法错误。
- 使用最新的可用数据创建或更新表和视图。
通过使用验证更新,可以在管道的源代码中检查是否存在问题,而无需等待创建或更新表。 该功能在开发或测试管道时非常有用,因为它允许快速查找和修复管道中的错误(例如,错误的表或列名)。
要了解如何创建管道,请参阅配置增量实时表管道。
可使用 Databricks 作业或其他工具协调管道更新。 请参阅在工作流中运行增量实时表管道。
启动管道更新
Azure Databricks 具有多个用于启动管道更新的选项,包括:
- 增量实时表 UI 中提供了以下选项:
- 在管道详细信息页上单击 按钮。
- 在管道列表中,单击“操作”列中的 。
- 要在笔记本中启动更新,请将笔记本附加到配置的管道,然后单击“开始”。 请参阅在笔记本中开发和调试增量实时表管道。
- 可以使用 API 或 CLI 以编程方式触发管道。 请参阅管道 API。
- 可以使用增量实时表 UI 或作业 UI 将管道计划为作业。 请参阅计划管道。
注意
使用这些方法中的任何一种手动触发管道更新的默认行为是全部刷新。
增量实时表如何更新表和视图
表和视图的更新,以及这些表和视图的更新方式,取决于更新类型:
- 全部刷新:将更新所有实时表,以反映其输入数据源的当前状态。 对于流式表,新行将追加到表中。
- 完全全部刷新:将更新所有表,以反映其输入数据源的当前状态。 对于流式表,增量实时表会尝试清除每个表中的所有数据,然后从流式处理源加载所有数据。
- 刷新选择:
refresh selection
的行为与refresh all
相同,但只允许刷新选定的表。 已更新选定的表,以反映其输入数据源的当前状态。 对于流式表,新行将追加到表中。 - 完全刷新选择:
full refresh selection
的行为与full refresh all
相同,但只允许对选定的表执行完全刷新。 已更新选定的表,以反映其输入数据源的当前状态。 对于流式表,增量实时表会尝试清除每个表中的所有数据,然后从流式处理源加载所有数据。
对于现有具体化视图,更新的行为与具体化视图上的 SQL REFRESH
相同。 对于新的具体化视图,其行为与 SQL CREATE
操作相同。
为所选表启动管道更新
你可以仅重新处理管道中选定表的数据。 例如,在开发过程中,只更改了一个表并希望减少测试时间,或者管道更新失败,你只想刷新失败的表。
注意
只能对触发的管道使用选择性刷新。
若要启动仅刷新所选表的更新,请在“管道详细信息”页上:
单击“选择要刷新的表”。 此时将显示“选择要刷新的表”对话框。
如果看不到“选择要刷新的表”按钮,请确认“管道详细信息”页显示了最新的更新,并且更新已完成。 如果最近更新未显示 DAG,例如,由于更新失败,因此未显示“选择要刷新的表”按钮。
若要选择要刷新的表,请单击每个表。 突出显示并标记所选表。 若要从更新中删除表,请再次单击该表。
单击“刷新选择”。
注意
“刷新选择”按钮在括号中显示所选表的数量。
若要重新处理已为所选表引入的数据,请单击“刷新选择”按钮旁边的 ,然后单击“完全刷新选择”。
为失败表启动管道更新
如果管道更新由于管道图中的一个或多个表中的错误而失败,则可以仅启动失败表和任何下游依赖项的更新。
备注
排除的表不会刷新,即使它们依赖于失败的表。
要更新失败的表,请在“管道详细信息”页上,单击“刷新失败的表”。
仅更新所选失败的表:
单击“刷新失败的表”按钮旁边的 ,然后单击“选择要刷新的表”。 此时将显示“选择要刷新的表”对话框。
若要选择要刷新的表,请单击每个表。 突出显示并标记所选表。 若要从更新中删除表,请再次单击该表。
单击“刷新选择”。
注意
“刷新选择”按钮在括号中显示所选表的数量。
若要重新处理已为所选表引入的数据,请单击“刷新选择”按钮旁边的 ,然后单击“完全刷新选择”。
检查管道中是否存在错误,而无需等待表更新
重要
增量实时表Validate
更新功能为公共预览版。
若要在不运行完整更新的情况下检查管道的源代码是否有效,请使用“验证”。 Validate
更新解析管道中定义的数据集和流的定义,但不具体化或发布任何数据集。 验证期间发现的错误(例如,错误的表或列名)会在 UI 中报告。
要运行 Validate
更新,请在管道详细信息页上单击“开始”旁边的“”,然后单击“验证”。
Validate
更新完成后,事件日志会显示仅与Validate
更新相关的事件,并且 DAG 中不显示任何指标。 如果发现错误,则事件日志中提供了详细信息。
只能查看最新Validate
更新的结果。 如果Validate
更新是最近运行的更新,可以在更新历史记录中选择它以查看结果。 如果在Validate
更新后运行另一个更新,则结果在 UI 中不再可用。
如何选择管道边界
增量实时表管道可以处理对单个表、具有依赖关系的多个表、没有关系的多个表或具有依赖关系的多个独立表流的更新。 本部分包含有助于确定如何拆分管道的注意事项。
较大的增量实时表管道具有许多优势。 其中包括:
- 更有效地使用群集资源。
- 减少工作区中的管道数量。
- 降低工作流业务流程的复杂性。
有关如何拆分处理管道的一些常见建议包括:
- 在团队边界上拆分功能。 例如,数据团队可以维护用于转换数据的管道,而数据分析师可以维护用于分析转换后的数据的管道。
- 在特定于应用程序的边界上拆分功能,以减少耦合并方便重用通用功能。
开发和生产模式
你可以通过切换使用开发模式和生产模式来优化管道执行。 使用管道 UI 中的 按钮在这两个模式之间切换。 默认情况下,管道在开发模式下运行。
当你在开发模式下运行管道时,增量实时表系统将执行以下操作:
- 重用群集,以避免重新启动产生的开销。 默认情况下,群集在启用开发模式后会运行两个小时。 可以使用配置增量实时表管道的计算中的
pipelines.clusterShutdown.delay
设置来更改此项。 - 禁用管道重试,以便可以立即检测和修复错误。
在生产模式下,增量实时表系统执行以下操作:
- 为特定的可恢复错误(包括内存泄漏和过期凭据)重新启动群集。
- 在发生特定错误(例如启动群集失败)时重试执行。
注意
在开发和生产模式间切换只控制群集和管道执行行为。 目录中用于发布表的存储位置和目标模式必须配置为管道设置的一部分,在模式之间切换时不受影响。
计划管道
可以手动启动触发的管道,也可以使用 Azure Databricks 作业按计划运行管道。 可以直接在增量实时表 UI 中创建和计划具有单个管道任务的作业,也可以在作业 UI 中将管道任务添加到多任务工作流。 请参阅作业的 Delta Live Tables 管道任务。
若要在增量实时表 UI 中为该作业创建单任务作业和计划,请执行以下操作:
- 单击“计划”>“添加计划”。 如果管道包含在一个或多个计划作业中,则“计划”按钮将更新以显示现有计划的数量,例如计划 5。
- 在“作业名称”字段中输入作业的名称。
- 将“计划”设置为“已计划”。
- 指定时间段、开始时间和时区。
- 配置一个或多个电子邮件地址,以接收有关管道启动、成功或失败的警报。
- 单击“创建”。