识别 Spark DAG 中的昂贵读取
进入 DAG
假设你正在查看昂贵的作业,首先我们需要的是执行读取的阶段的 ID。 在这里,我们可以看到阶段 ID 是 194:
现在我们需要访问 SQL DAG。 向上滚动到作业页面顶部,然后单击“关联的 SQL 查询”:
现在,你应该会看到 DAG。 如果没有,请滚动一下,应该就会看到它:
在某些情况下,你可以跟踪 DAG 并查看数据来自何处。 在其他情况下,请查找你记下的阶段 ID:
然后需要查找“扫描”节点。 在本例中,很容易判断出我们正在读取名为 transactions
的表:
在某些情况下,可能需要在节点上单击或滚动以获取要读取的数据的位置。