多个小型 Spark 作业
如果看到许多小作业,则可能是你正在对相对较小的数据 (< 10GB) 执行许多操作。 小型操作每次只需几秒钟,但它们会累加起来,每个操作花费的时间也会累加。
加快小型作业速度的最佳方法是并行运行多个操作。 增量实时表会自动执行此操作。
其他选项包括:
- 将操作分成多个笔记本,并使用多任务作业在同一群集上并行运行这些操作。
- 如果所有查询都用 SQL 编写,请使用 SQL 仓库。 SQL 仓库非常适合许多并行运行的查询,因为它们专为这种类型的工作负载而设计。
- 参数化笔记本,并使用 for each task 多次并行运行笔记本。 使用 Concurrency 设置并行化级别。 这适用于无服务器计算。