本部分介绍如何在 Azure Databricks 用户界面中使用 Lakeflow 声明性管道的内置监视和可观测性功能。 这些功能支持以下任务:
- 观察管道更新的进度和状态。 请参阅 UI 中提供了哪些管道详细信息?。
- 对管道事件发出警报,例如管道更新的成功或失败。 请参阅 为管道事件添加电子邮件通知。
- 查看 Apache Kafka 和自动加载程序(公共预览版)等流式处理源的指标。 请参阅查看流式处理指标。
为管道事件添加电子邮件通知
可在出现以下情况时配置一个或多个电子邮件地址来接收通知:
- 管道更新成功完成。
- 管道更新失败,出现可重试或不可重试错误。 选择此选项将接收有关所有管道故障的通知。
- 管道更新失败并出现不可重试(致命)错误。 选择此选项将仅在发生不可重试错误时接收通知。
- 单个数据流失败。
若要在创建或编辑管道时配置电子邮件通知,请执行以下操作:
单击“添加通知”。
输入单个或多个电子邮件地址以接收通知。
选中要发送到已配置电子邮件地址的每个通知类型的复选框。
单击“添加通知”。
注释
使用 Python 事件挂钩创建自定义响应,包括通知或自定义处理。
在 UI 中查看管道
在工作区边栏中的作业和管道选项中找到 Lakeflow 声明式管道。 这会打开 “作业和管道 ”页,可在其中查看有关你有权访问的每个作业和管道的信息。 单击管道的名称以打开管道详细信息页。
注释
若要访问新 Lakeflow 管道编辑器(Beta)中的事件日志,请导航到编辑器底部的 问题和见解 面板,单击查看日志,或者点击在任何错误旁边的打开日志按钮。 有关详细信息,请参阅 Lakeflow 管道编辑器 和 事件日志的管道设置。
如何使用作业和管道列表
若要查看您有权访问的管道列表,请单击边栏中的,然后选择作业和管道。 “ 作业和管道 ”选项卡列出了有关所有可用作业和管道的信息,例如创建者、触发器(如果有),以及最后五次运行的结果。
若要更改列表中显示的列,请单击“ 并选择或取消选择列。
重要
统一的“作业和管道”列表现以公共预览版提供。 可以通过禁用作业和管道:统一管理、搜索和筛选来禁用该功能并返回默认体验。 有关详细信息,请参阅 “管理 Azure Databricks 预览版 ”。
可以在 “作业和管道 ”列表中筛选作业,如以下屏幕截图所示。
文本搜索: 名称和ID 字段支持关键字搜索。 若要搜索使用键和值创建的标记,可以按键、值或键和值进行搜索。 例如,对于具有键
department
和值finance
的标记,可以搜索department
或finance
查找匹配的作业。 若要按键和值进行搜索,请输入用冒号分隔的键和值(例如,department:finance
)。类型:按 作业、 管道或 全部筛选。 如果选择 “管道” ,还可以按 管道类型进行筛选,其中包括 ETL 和引入管道。
所有者:仅显示你拥有的作业。
收藏夹:显示已标记为收藏的作业。
标签:使用 标签。 若要按标记进行搜索,可以使用标记下拉菜单同时筛选最多五个标记,或者直接使用关键字搜索。
运行方式:最多按两
run as
个值进行筛选。
若要启动作业或管道,请单击 播放按钮。 若要停止作业或管道,请单击
按钮。 若要访问其他操作,请单击烤肉串菜单图标
例如,可以从该菜单中删除作业或管道,或访问管道的设置。
UI 中提供了哪些管道详细信息?
管道图在管道更新成功启动后立即显示。 箭头表示管道中数据集之间的依赖关系。 默认情况下,管道详细信息页显示表的最近更新,但你可以从下拉菜单中选择旧的更新。
详细信息包括管道 ID、源代码、计算成本、产品版本、为管道配置的通道。
若要查看数据集的表格视图,请单击“ 列表 ”选项卡。“ 列表” 视图允许查看管道中的所有数据集,这些数据集表示为表中的行,并且当管道 DAG 太大而无法显示在 图形 视图中时非常有用。 可以使用多个筛选器(如数据集名称、类型和状态)来控制表中显示的数据集。 要切换回 DAG 可视化效果,请点击“Graph”。
“运行身份”用户是管道所有者,管道更新使用此用户的权限运行。 若要更改 run as
用户,请单击“权限”并更改管道所有者。
如何查看数据集详细信息?
单击管道图或数据集列表中的数据集会显示有关数据集的详细信息。 详细信息包括数据集架构、数据质量指标以及定义数据集的源代码的链接。
看更新历史记录
若要查看管道更新的历史记录和状态,请单击顶部栏中的“更新历史记录”下拉菜单。
在下拉菜单中选择更新,以查看更新的图、详细信息和事件。 若要返回到最新更新,请单击“显示最新更新”。
查看流式处理指标
重要
Lakeflow 声明性管道的流处理的可观测性为 公共预览版。
可以查看 Spark 结构化流支持的数据源(如 Apache Kafka、Amazon Kinesis、Auto Loader 和 Delta 表)中针对 Lakeflow 声明性管道中每个流式处理流的流式处理指标。 指标在 Lakeflow 声明性管道 UI 的右窗格中显示为图表,包括积压工作秒、积压工作字节、积压记录和积压工作文件。 图表显示按分钟聚合的最大值,当将鼠标悬停在图表上时,工具提示会显示相应的最大值。 数据限制为从当前时间开始的最后 48 小时。
在 UI DLT Chart Icon图形视图中查看管道 DAG 时,管道中具有流处理指标的表显示 。 若要查看流式处理指标,请单击
,在右窗格中的 “流 ”选项卡中显示流式处理指标图表。 还可以应用筛选器来仅查看具有流式处理指标的表,方法是单击 列表,然后单击 “具有流式处理指标”。
每个流媒体源仅支持特定指标。 流式处理源不支持的指标在 UI 中无法查看。 下表显示了可用于所支持的流媒体源的度量标准:
源 | 积压字节 | 积压记录 | 积压工作秒数 | 积压工作文件 |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
动动力 | ✓ | ✓ | ||
三角洲 | ✓ | ✓ | ||
自动加载器 | ✓ | ✓ |