什么是 Lakeflow 设计工具?

Important

此功能目前以公共预览版提供。

Lakeflow Designer 为分析师提供了一个可视化画布,用于执行数据分析、准备和基本自动化。 在设计器中,您可以创建可视化数据准备,每个数据准备由一系列运算符(如过滤器、连接和转换)组成,排列为 DAG 以生成结果。 所有转换都由代码提供支持,这些代码支持将工作流移动到生产环境。

使用 Lakeflow Designer,可以:

  • 使用拖放画布设计可视化数据准备

  • 不使用内置运算符编写代码来转换数据,以便筛选、聚合、联接和重塑数据。

  • 预览每个临时步骤 ,而无需运行整个管道。

LFD 显示视觉数据准备的功能。

在上图中,可以看到:

  1. 拖放画布
  2. 两个运算符
  3. 两个运算符之间的连接
  4. 输出窗格
  5. 输出数据的概况
  6. Genie Code 提示

重要概念

画布

画布是添加、配置和连接运算符以生成视觉数据准备的主要工作区。

在画布上导航:

  • 平移:按住 空格 的同时单击和拖动,或在触控板上滑动两根手指。
  • 缩放:在触控板上收缩或拉伸,或按住 Ctrl 并滚动。

画布在左下角有一个工具栏,其中包含画布导航工具:放大图标缩小图标全屏图标,适合视图,DAG水平图标,自动布局和拖动图标拖动模式。

右键单击画布上的任意位置以访问常见操作,包括添加运算符、撤消和重做、自动布局、调整视图以及打开代码窗格。

还可以将Excel或 CSV 文件直接拖放到画布上,为该文件创建源运算符。

Operators

运算符 是视觉数据准备工具的构成模块。 运算符是连接、转换或筛选器等操作。 将画布上的运算符链接在一起以生成工作流。 每个运算符根据其类型进行配置。

LFD 画布显示 DAG 上的运算符。

Lakeflow Designer 包含用于常见数据转换任务的内置运算符。 有关详细信息,请参阅 Lakeflow Designer 中的内置运算符

连接

连接定义运算符之间的数据流方式。 若要创建连接,请将一个运算符右边缘的小圆拖动到另一个运算符左边缘的小圆。 这指定数据从第一个运算符流入第二个运算符。 数据流从左到右流经数据可视化准备。 某些运算符(如 JoinCombine)接受多个输入连接。

显示两个运算符之间的连接的 LFD 画布。

输出窗格

选择运算符时,输出窗格将显示在屏幕底部。 选择任意运算符,在屏幕底部的输出窗口中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。

默认情况下,运算符在最多 1,000 行的数据样本上运行。 若要使用完整数据集运行,请单击输出窗格中 的示例数据集 ,并切换到 “完整数据集”。

画布下方的 LFD 输出窗格。

警告

运行完整数据集时,会重新执行所有上游运算符在完整且无限制的数据集上,并且可能需要很长时间。

在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 边栏图标。边栏 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。

显示有关所选输出数据的图形和详细信息的边栏。

后续步骤