Important
此功能目前以公共预览版提供。
Lakeflow Designer 为分析师提供了一个可视化画布,用于执行数据分析、准备和基本自动化。 在设计器中,创建可视数据准备文件,每个文件由一系列运算符(如筛选器、联接和转换)组成,排列为 DAG 以生成结果。 所有转换都由代码提供支持,可用于对 Git 中的文件进行版本控制,并将其计划为作业以无缝迁移到生产环境。
使用 Lakeflow Designer,可以:
使用拖放画布设计工作流。
不使用内置运算符编写代码来转换数据,以便筛选、聚合、联接和重塑数据。
预览每个临时步骤 ,而无需运行整个管道。
在上图中,可以看到:
重要概念
画布
画布是添加、配置和连接运算符以生成视觉数据准备的主要工作区。
在画布上导航:
- 平移:按住 空格 的同时单击和拖动,或在触控板上滑动两根手指。
- 缩放:在触控板上收缩或拉伸,或按住 Ctrl 并滚动。
画布工具栏位于标题栏中,包含以下画布导航工具:放大,
缩小,
适应视图,
自动布局,以及
拖动模式。
右键单击画布上的任意位置以访问常见操作,包括添加运算符、撤消和重做、自动布局、调整视图以及打开代码窗格。
还可以将Excel或 CSV 文件直接拖放到画布上,为该文件创建源运算符。
Operators
运算符 是视觉数据准备的构建基块。 运算符是连接、转换或筛选器等操作。 将画布上的运算符链接在一起以生成工作流。 每个运算符根据其类型进行配置。 运算符会显示一段由 AI 生成的作用描述;编辑该描述会重新配置该运算符。
Lakeflow Designer 包含用于常见数据转换任务的内置运算符。 有关详细信息,请参阅 Lakeflow Designer 中的内置运算符。
连接
连接定义运算符之间的数据流方式。 若要创建连接,请将一个运算符右边缘的小圆拖动到另一个运算符左边缘的小圆。 这指定数据从第一个运算符流入第二个运算符。 数据流在可视化数据准备中从左向右流动。 某些运算符(如 Join 和 Combine)接受多个输入连接。
输出窗格
选择运算符时,输出窗格将显示在屏幕底部。 选择任意运算符,在屏幕底部的输出窗口中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。 生成非表结果(如绘图、HTML 或图像)的运算符直接在输出窗格中呈现这些输出。
使用输出窗格中的视图控件在输入和输出(默认值)、仅输入或仅输出之间切换。 在组合视图中,拖动分隔线以调整输入和输出窗格的大小。
默认情况下,运算符处理有限的数据示例。 使用输出窗格中 的“行扫描 ”下拉列表来控制要处理的行数:
- 扫描的行数:限制:处理前 N 个输入行。 在下拉列表旁边的输入框中指定行数。
- 扫描的行数:最大值:处理所有输入行。
警告
使用 已扫描行数:最大值 运行会使用完整的无界数据集重新运行所有上游算子,并且可能需要很长时间。
数据概况
在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。