使用 Synapse Studio 监视 Apache Spark 应用程序
借助 Azure Synapse Analytics,可以使用 Apache Spark 在工作区中的 Apache Spark 池上运行笔记本、作业和其他类型的应用程序。
本文介绍如何监视 Apache Spark 应用程序,使你能够关注最新状态、问题和进度。
查看 Apache Spark 应用程序
你可以从“监视” ->“Apache Spark 应用程序”查看所有 Apache Spark 应用程序。
查看已完成的 Apache Spark 应用程序
打开“监视”,然后选择“Apache Spark 应用程序” 。 若要查看已完成的 Apache Spark 应用程序的详细信息,请选择 Apache Spark 应用程序。
查看“已完成的任务”、“状态”和“总持续时间” 。
刷新该作业。
单击“比较应用程序”以使用比较功能,有关此功能详细信息,请参阅比较 Apache Spark 应用程序 。
单击“Spark 历史记录服务器”,以打开“历史记录服务器”页面。
查看“摘要”信息。
在“诊断”选项卡中可查看诊断信息。
查看“日志”。 可以通过在下拉列表中选择不同的选项来查看“Livy”、“预启动”和“驱动程序”等日志的完整日志 。 并且可以通过搜索关键字来直接检索所需日志信息。 单击“下载日志”,以将日志信息下载到本地,然后选中“筛选错误和警告”复选框,以筛选所需错误和警告 。
你可以在生成的作业图中查看作业概况。 默认情况下,该图将显示所有作业。 可按作业 ID 筛选此视图。
默认情况下,“进度”显示处于选中状态。 可以通过在“视图”下拉列表中选择“进度”/“读取”/“写入”/“持续时间”来检查数据流 。
若要播放该作业,请单击“播放”按钮。 单击“停止”按钮即可随时停止。
请使用滚动条来放大和缩小作业图,还可以选择“缩放到合适大小”来使其适合屏幕。
作业图节点将显示每个阶段的以下信息:
作业 ID
任务数目
持续时间
行计数
读取的数据:输入大小和随机读取大小之和
写入的数据:输出大小和随机写入大小之和
阶段编号
将鼠标悬停在某个作业上,在工具提示中将会显示作业详细信息:
作业状态的图标:如果该作业状态为成功,它将会显示绿色的“√”;如果该作业检测到问题,则会显示黄色的“!”
作业 ID
常规部分:
- 进度
- 持续时间
- 任务总数
数据部分:
- 任务总数
- 读取大小
- 写入大小
倾斜部分:
- 数据倾斜
- 时间倾斜
阶段编号
单击“阶段编号”,以展开该作业中包含的所有阶段。 单击作业 ID 旁边的“折叠”,以折叠该作业中的所有阶段。
单击阶段图中的“查看详细信息”,阶段的详细信息将会显示。
监视 Apache Spark 应用程序进度
打开“监视”,然后选择“Apache Spark 应用程序” 。 若要查看运行中的 Apache Spark 应用程序的详细信息,请选择提交的 Apache Spark 应用程序。 如果 Apache Spark 应用程序仍在运行,则可以监视进度。
查看“已完成的任务”、“状态”和“总持续时间” 。
取消 Apache Spark 应用程序。
刷新该作业。
单击“Spark UI”按钮,切换到“Spark 作业”页面。
对于“作业图”、“摘要”、“诊断”和“日志” 。 你可以在生成的作业图中查看作业概况。 请参阅查看已完成的 Apache Spark 应用程序中的第 5 至 15 步。
查看已取消的 Apache Spark 应用程序
打开“监视”,然后选择“Apache Spark 应用程序” 。 若要查看有关已取消的 Apache Spark 应用程序的详细信息,请选择 Apache Spark 应用程序。
查看“已完成的任务”、“状态”和“总持续时间” 。
刷新该作业。
单击“比较应用程序”以使用比较功能,有关此功能详细信息,请参阅比较 Apache Spark 应用程序 。
单击“Spark history server”,打开 Apache History Server 链接。
查看图形。 你可以在生成的作业图中查看作业概况。 请参阅查看已完成的 Apache Spark 应用程序中的第 5 至 15 步。
调试失败的 Apache Spark 应用程序
打开“监视”,然后选择“Apache Spark 应用程序” 。 若要查看有关失败的 Apache Spark 应用程序的详细信息,请选择 Apache Spark 应用程序。
查看“已完成的任务”、“状态”和“总持续时间” 。
刷新该作业。
单击“比较应用程序”以使用比较功能,有关此功能详细信息,请参阅比较 Apache Spark 应用程序 。
单击“Spark history server”,打开 Apache History Server 链接。
查看图形。 你可以在生成的作业图中查看作业概况。 请参阅查看已完成的 Apache Spark 应用程序中的第 5 至 15 步。
查看输入数据/输出数据
选择 Apache Spark 应用程序,然后单击“输入数据/输出数据”选项卡,以查看 Apache Spark 应用程序的输入和输出的日期。 此函数可以帮助调试 Spark 作业。 数据源支持两种存储方法:gen2 和 Blob。
“输入数据”选项卡
单击“复制输入”按钮,以将输入文件粘贴到本地。
单击“导出到 CSV”按钮,以 CSV 格式导出输入文件。
您可以按输入关键字在“搜索框”中搜索文件(关键字包括文件名、读取格式和路径)。
可以通过单击“名称”、“读取格式”和“路径”来对输入文件进行排序 。
在将鼠标悬停在某个输入文件上时,将会出现“下载/复制路径/更多”按钮的图标。
单击“更多”按钮。 “复制路径/在资源管理器中显示/属性”会显示在上下文菜单中。
复制路径:可以复制完整路径和相对路径 。
在资源管理器中显示:可以跳转到链接的存储帐户(数据 -> 已链接)。
属性:显示文件的基本属性(文件名/文件路径/读取格式/大小/修改时间)。
“输出数据”选项卡
显示与输入选项卡相同的功能。
比较 Apache Spark 应用程序
可以通过两种方法来比较应用程序。 可以选择“比较应用程序”进行比较,也可以单击“在笔记本中比较”按钮在笔记本中进行查看。
按应用程序比较
单击“比较应用程序”按钮,选择一个应用程序来比较性能。 你可以了解两个应用程序之间的差异。
将鼠标悬停在应用程序上,随即将显示“比较应用程序”图标。
单击“比较应用程序”图标,随即将弹出“比较应用程序”页面。
单击“选择应用程序”按钮,打开“选择比较应用程序”页面 。
选择比较应用程序时,你需要输入应用程序 URL,或从重复列表中进行选择。 然后单击“确定”按钮。
比较结果将显示在“比较应用程序”页上。
在笔记本中比较
单击“比较应用程序”页上的“在笔记本中比较”按钮以打开笔记本。 .ipynb 文件的默认名称为“Recurrent Application Analytics”。
在“Notebook: Recurrent Application Analytics”文件中,你可以在设置“Spark pool”和“Language”后直接运行它。
后续步骤
有关监视管道运行的详细信息,请参阅使用 Synapse Studio 监视管道运行一文。