Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
本部分介绍如何在 Azure Databricks 用户界面中使用 Lakeflow 声明性管道的内置监视和可观测性功能。 这些功能支持以下任务:
- 观察管道更新的进度和状态。 请参阅 UI 中提供了哪些管道详细信息?。
- 对管道事件发出警报,例如管道更新的成功或失败。 请参阅 为管道事件添加电子邮件通知。
- 查看 Apache Kafka 和自动加载程序(公共预览版)等流式处理源的指标。 请参阅查看流式处理指标。
为管道事件添加电子邮件通知
可在出现以下情况时配置一个或多个电子邮件地址来接收通知:
- 管道更新成功完成。
- 管道更新失败,出现可重试或不可重试错误。 选择此选项将接收有关所有管道故障的通知。
- 管道更新失败并出现不可重试(致命)错误。 选择此选项将仅在发生不可重试错误时接收通知。
- 单个数据流失败。
若要在创建或编辑管道时配置电子邮件通知,请执行以下操作:
单击“添加通知”。
输入单个或多个电子邮件地址以接收通知。
选中要发送到已配置电子邮件地址的每个通知类型的复选框。
单击“添加通知”。
注释
使用 Python 事件挂钩创建自定义响应,包括通知或自定义处理。
在 UI 中查看管道
在工作区边栏中的作业和管道选项中找到 Lakeflow 声明式管道。 这会打开 “作业和管道 ”页,可在其中查看有关你有权访问的每个作业和管道的信息。 单击管道的名称以打开管道详细信息页。
注释
若要访问新 Lakeflow 管道编辑器(Beta)中的事件日志,请导航到编辑器底部的 问题和见解 面板,单击查看日志,或者点击在任何错误旁边的打开日志按钮。 有关详细信息,请参阅 Lakeflow 管道编辑器 和 事件日志的管道设置。
如何使用作业和管道列表
若要查看您有权访问的管道列表,请单击边栏中的,然后选择作业和管道。 “ 作业和管道 ”选项卡列出了有关所有可用作业和管道的信息,例如创建者、触发器(如果有),以及最后五次运行的结果。
若要更改列表中显示的列,请单击“ 并选择或取消选择列。
可以在 “作业和管道 ”列表中筛选作业,如以下屏幕截图所示。
文本搜索: 名称和ID 字段支持关键字搜索。 若要搜索使用键和值创建的标记,可以按键、值或键和值进行搜索。 例如,对于具有键
department
和值finance
的标记,可以搜索department
或finance
查找匹配的作业。 若要按键和值进行搜索,请输入用冒号分隔的键和值(例如,department:finance
)。类型:按 作业、 管道或 全部筛选。 如果选择 “管道” ,还可以按 管道类型进行筛选,其中包括 ETL 和引入管道。
所有者:仅显示你拥有的作业。
收藏夹:显示已标记为收藏的作业。
标签:使用 标签。 若要按标记进行搜索,可以使用标记下拉菜单同时筛选最多五个标记,或者直接使用关键字搜索。
运行方式:最多按两
run as
个值进行筛选。
若要启动作业或管道,请单击 播放按钮。 若要停止作业或管道,请单击
按钮。 若要访问其他操作,请单击烤肉串菜单图标
例如,可以从该菜单中删除作业或管道,或访问管道的设置。
UI 中提供了哪些管道详细信息?
注释
Lakeflow 管道编辑器 beta 版会更改管道详细信息的体验。 如果选择加入 beta 版,信息会显示在不同于此处所述的 UI 中。 有关该 UI 的详细信息,请参阅下一部分。
管道图在管道更新成功启动后立即显示。 箭头表示管道中数据集之间的依赖关系。 默认情况下,管道详细信息页显示表的最近更新,但你可以从下拉菜单中选择旧的更新。
详细信息包括管道 ID、源代码、计算成本、产品版本、为管道配置的通道。
若要查看数据集的表格视图,请单击“ 列表 ”选项卡。“ 列表” 视图允许查看管道中的所有数据集,这些数据集表示为表中的行,并且当管道 DAG 太大而无法显示在 图形 视图中时非常有用。 可以使用多个筛选器(如数据集名称、类型和状态)来控制表中显示的数据集。 要切换回 DAG 可视化效果,请点击“Graph”。
“运行身份”用户是管道所有者,管道更新使用此用户的权限运行。 若要更改 run as
用户,请单击“权限”并更改管道所有者。
Lakeflow Pipelines 编辑器有哪些变化?
如果选择使用 Lakeflow 管道编辑器 beta 版和新的管道监视 UI,则 UI 中的一些信息位于不同位置。 有关 Lakeflow 管道编辑器和选择加入这两个 beta 版本的信息,请参阅“启用 Lakeflow 管道编辑器”
重要
此功能在 Beta 版中。
选择加入这两个 beta 版本时,管道详细信息页将显示以下监视更改:
右侧面板中的 “管道详细信息 ”和“ 更新详细信息 ”选项卡已与顶部的管道详细信息合并,后跟更新详细信息。
单击 DAG 中的表不会在右侧面板中显示表详细信息。 右侧面板继续显示流水线和更新的详细信息。 相反,底部面板显示表信息。
在开发模式下运行管道的规则会稍有更新。 有关开发模式的信息,请参阅 开发和生产模式。
- 通过计划或触发器运行管道时,其是否使用开发模式由管道设置决定。 可以在 管道设置中更改管道的默认值。
- 通过监视 UI 运行管道将使用管道设置中定义的模式。 可以通过下拉菜单中的以不同设置运行选项来选择是否使用开发模式。
- 从管道编辑器运行管道将默认为开发模式。 可以选择不使用开发模式,方法是使用下拉列表中的使用不同设置运行选项。
管道详细信息中不再有指向源代码的链接。 而是选择顶部的 “编辑管道 ”。 若要跳转到特定表的代码,请将鼠标悬停在 DAG 中的表上,然后单击
导航到代码 按钮。
默认情况下,每次更新时不再显示事件日志。 在处理过程中出错时,错误将显示在底部面板中,并显示 “查看日志 ”按钮以查看该运行的事件日志。 还可以通过选择
来访问事件日志。从右侧面板中的运行详细信息查看事件日志。
可以通过选择底部面板中的表,然后选择 “列”来获取表架构信息。
管道详细信息页中不提供表注释。 若要查看表注释,请从目录资源管理器查看表。 若要直接跳转到目录资源管理器中的表,请将鼠标悬停在 DAG 中的表上,然后单击
然后单击
在目录中查看。 还可以通过单击
从底部面板中的表列表中访问目录资源管理器中的信息。
如何查看数据集详细信息?
单击管道图或数据集列表中的数据集会显示有关数据集的详细信息。 详细信息包括数据集架构、数据质量指标以及定义数据集的源代码的链接。
看更新历史记录
若要查看管道更新的历史记录和状态,请单击顶部栏中的“更新历史记录”下拉菜单。
在下拉菜单中选择更新,以查看更新的图、详细信息和事件。 若要返回到最新更新,请单击“显示最新更新”。
查看流式处理指标
重要
Lakeflow 声明性管道的流处理的可观测性为 公共预览版。
可以查看 Spark 结构化流支持的数据源(如 Apache Kafka、Amazon Kinesis、Auto Loader 和 Delta 表)中针对 Lakeflow 声明性管道中每个流式处理流的流式处理指标。 指标在 Lakeflow 声明性管道 UI 的右窗格中显示为图表,包括积压工作秒、积压工作字节、积压记录和积压工作文件。 图表显示按分钟聚合的最大值,当将鼠标悬停在图表上时,工具提示会显示相应的最大值。 数据限制为从当前时间开始的最后 48 小时。
在 UI DLT Chart Icon图形视图中查看管道 DAG 时,管道中具有流处理指标的表显示 。 若要查看流式处理指标,请单击
,在右窗格中的 “流 ”选项卡中显示流式处理指标图表。 还可以应用筛选器来仅查看具有流式处理指标的表,方法是单击 列表,然后单击 “具有流式处理指标”。
每个流媒体源仅支持特定指标。 流式处理源不支持的指标在 UI 中无法查看。 下表显示了可用于所支持的流媒体源的度量标准:
源 | 积压字节 | 积压记录 | 积压工作秒数 | 积压工作文件 |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
动动力 | ✓ | ✓ | ||
三角洲 | ✓ | ✓ | ||
自动加载器 | ✓ | ✓ |