识别 Spark DAG 中的昂贵读取

进入 DAG

假设你正在查看昂贵的作业,首先我们需要的是执行读取的阶段的 ID。 在这里,我们可以看到阶段 ID 是 194:

阶段 ID

现在我们需要访问 SQL DAG。 向上滚动到作业页面顶部,然后单击“关联的 SQL 查询”

SQL ID

现在,你应该会看到 DAG。 如果没有,请滚动一下,应该就会看到它:

SQL DAG

在某些情况下,你可以跟踪 DAG 并查看数据来自何处。 在其他情况下,请查找你记下的阶段 ID:

DAG 中的 SQL 阶段

然后需要查找“扫描”节点。 在本例中,很容易判断出我们正在读取名为 transactions 的表:

在 DAG 中扫描

在某些情况下,可能需要在节点上单击或滚动以获取要读取的数据的位置。