什么是 Lakeflow 设计工具?

Important

此功能目前以公共预览版提供。

Lakeflow Designer 为分析师提供了一个可视化画布,用于执行数据分析、准备和基本自动化。 在设计器中,创建可视数据准备文件,每个文件由一系列运算符(如筛选器、联接和转换)组成,排列为 DAG 以生成结果。 所有转换都由代码提供支持,可用于对 Git 中的文件进行版本控制,并将其计划为作业以无缝迁移到生产环境。

使用 Lakeflow Designer,可以:

  • 使用拖放画布设计工作流

  • 不使用内置运算符编写代码来转换数据,以便筛选、聚合、联接和重塑数据。

  • 预览每个临时步骤 ,而无需运行整个管道。

LFD 展示可视化数据准备的功能。

在上图中,可以看到:

  1. 拖放画布
  2. 两个运算符
  3. 两个运算符之间的连接
  4. 输出窗格
  5. 输出数据的概况

重要概念

画布

画布是添加、配置和连接运算符以生成视觉数据准备的主要工作区。

在画布上导航:

  • 平移:按住 空格 的同时单击和拖动,或在触控板上滑动两根手指。
  • 缩放:在触控板上收缩或拉伸,或按住 Ctrl 并滚动。

画布工具栏位于标题栏中,包含以下画布导航工具:放大图标。放大,缩小图标。缩小,全屏图标。适应视图,DAG 水平图标。自动布局,以及 拖动图标。拖动模式。

右键单击画布上的任意位置以访问常见操作,包括添加运算符、撤消和重做、自动布局、调整视图以及打开代码窗格。

还可以将Excel或 CSV 文件直接拖放到画布上,为该文件创建源运算符。

Operators

运算符 是视觉数据准备的构建基块。 运算符是连接、转换或筛选器等操作。 将画布上的运算符链接在一起以生成工作流。 每个运算符根据其类型进行配置。 运算符会显示一段由 AI 生成的作用描述;编辑该描述会重新配置该运算符。

LFD 画布显示 DAG 上的运算符。

Lakeflow Designer 包含用于常见数据转换任务的内置运算符。 有关详细信息,请参阅 Lakeflow Designer 中的内置运算符

连接

连接定义运算符之间的数据流方式。 若要创建连接,请将一个运算符右边缘的小圆拖动到另一个运算符左边缘的小圆。 这指定数据从第一个运算符流入第二个运算符。 数据流在可视化数据准备中从左向右流动。 某些运算符(如 JoinCombine)接受多个输入连接。

显示两个运算符之间的连接的 LFD 画布。

输出窗格

选择运算符时,输出窗格将显示在屏幕底部。 选择任意运算符,在屏幕底部的输出窗口中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。 生成非表结果(如绘图、HTML 或图像)的运算符直接在输出窗格中呈现这些输出。

使用输出窗格中的视图控件在输入和输出(默认值)、仅输入或仅输出之间切换。 在组合视图中,拖动分隔线以调整输入和输出窗格的大小。

默认情况下,运算符处理有限的数据示例。 使用输出窗格中 的“行扫描 ”下拉列表来控制要处理的行数:

  • 扫描的行数:限制:处理前 N 个输入行。 在下拉列表旁边的输入框中指定行数。
  • 扫描的行数:最大值:处理所有输入行。

画布下方的 LFD 输出窗格。

警告

使用 已扫描行数:最大值 运行会使用完整的无界数据集重新运行所有上游算子,并且可能需要很长时间。

数据概况

在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 边栏图标。边栏 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。

显示有关所选输出数据的图形和详细信息的边栏。

后续步骤