Important
此功能目前以公共预览版提供。
Lakeflow Designer 允许在视觉对象、拖放画布上生成数据转换工作流。 本页介绍如何创建可视化数据准备:从添加数据源、串联各个运算符,到预览结果并写入 Unity Catalog。
创建可视化数据准备:
- 验证要求
- 创建可视化数据准备
- 添加数据源
- 添加和配置运算符
- 连接运算符
- 预览结果
- 将结果写入 Unity 目录
- 在生产环境中安排或执行
- 在 Git 中存储和管理
Requirements
若要使用 Lakeflow Designer,必须具备:
- 启用了 Unity 目录的 Azure Databricks 工作区。
-
CAN USE对至少一个常规用途计算资源(无服务器或全用途)的权限。
创建新的可视化数据准备
若要创建新的可视化数据准备,请在侧边栏中单击新建,然后选择可视化数据准备。
设计器打开后会显示欢迎屏幕,您可以在其中添加数据源或浏览示例可视化数据准备。
添加数据源
每个设计器工作流都以一个或多个数据源开头。 Source 运算符表示画布上的数据源。
添加数据源:
添加 Source 运算符。 在欢迎屏幕中,单击 “选择源运算符”。 在画布中,打开操作员菜单并选择“ 源”。
在“源配置”窗格中,选择如何引入数据。 可以浏览现有表、上传本地 CSV 或Excel文件、从文件创建表或从 Google Drive 导入或SharePoint。
选择或配置数据源。 Source 运算符显示在画布上。
还可以将 CSV 或Excel文件直接拖放到画布上,以便快速创建源运算符。
若要稍后更改源,请打开 Source 运算符,然后单击 “选择新数据源”。 更改源会使所有下游运算符的输出缓存失效。
有关每个引入选项的完整详细信息,请参阅 将数据引入 Lakeflow 设计器。
添加和配置运算符
若要添加运算符,请在画布左侧的侧窗格中打开运算符菜单。 单击某个运算符将其添加到画布,或将运算符从菜单拖动到画布上。 还可以单击 + 任何现有运算符旁边的按钮,添加具有自动连接的新运算符。
若要配置运算符,请双击它,或按住指针,然后单击 (编辑运算符)打开配置窗格。 设置该运算符类型的选项,然后单击“ 应用”。
有关每个可用运算符的详细信息,请参阅 Lakeflow Designer 中的内置运算符。 有关创建自己的用户定义的运算符的详细信息,请参阅 Lakeflow Designer 中的用户定义的运算符。
连接运算符
要连接两个运算符,请单击并拖动输出手柄(运算符右边缘的小圆)到下一个运算符的输入手柄(左边缘的小圆)。 这指定数据从第一个运算符流入第二个运算符。 数据流在可视化数据准备中从左向右流动。
某些运算符(如 Join 和 Combine)接受多个输入。
预览结果
选择任意运算符,在屏幕底部的输出窗格中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。 生成非表结果(如绘图、HTML 或图像)的运算符直接在输出窗格中呈现这些输出。
使用输出窗格中的视图控件在输入和输出(默认值)、仅输入或仅输出之间切换。 在组合视图中,拖动分隔线以调整输入和输出窗格的大小。
默认情况下,运算符处理有限的数据示例。 使用输出窗格中 的“行扫描 ”下拉列表来控制要处理的行数:
- 扫描的行数:限制:处理前 N 个输入行。 在下拉列表旁边的输入框中指定行数。
- 扫描的行数:最大值:处理所有输入行。
警告
使用 已扫描行数:最大值 运行会使用完整的无界数据集重新运行所有上游算子,并且可能需要很长时间。
数据剖析
在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。
将结果写入 Unity 目录
添加 输出 运算符以将结果写入 Unity 目录中的表:
- 打开运算符菜单并选择“ 输出”,或单击 + 最后一个运算符旁边的“ 输出”。
- 将上次转换的输出句柄连接到 输出 运算符的输入句柄(如果尚未连接)。
- 双击 “输出 ”运算符打开其配置窗格。
- 键入 表名称 并选择 “输出位置 ”(目录和架构)。
- 单击 “运行” 。
在生产环境中安排或执行
可以通过将工作流设定为任务来实现自动化。
- 直接计划:单击顶部菜单中的“ 计划 ”按钮,为视觉数据准备创建计划作业。
- 添加到作业:创建 Azure Databricks 作业,并将可视化数据准备选作一项任务。 这样,你就可以在更大的流水线中,将可视化数据准备与其他任务结合起来。
安排可视化数据准备计划时,您可以选择为该计划覆盖其参数值。 例如,您可以创建一个将 environment 参数设置为 test 的计划,以及另一个将其设置为 production 的计划。 请参阅参数。
在 Git 中存储和管理视觉数据准备文件
可视化数据准备文件原生存储在工作区中。 若要将其与 Git 配合使用,请创建 Git 文件夹并将文件放在其中。 当文件位于 Git 文件夹中时,可以像使用任何常规文件或笔记本一样使用 Git。
该文件以具有格式 file_name.designer.ipynb的笔记本形式显示在 Git 中。
在画布中工作时的其他提示
画布上提供以下操作,帮助您编辑可视化数据准备流程。
- 重命名运算符:单击任何配置窗格顶部的文本字段以重命名该运算符。 描述性名称可让你一眼就更容易理解可视化数据准备内容。 某些运算符(如 SQL 运算符)可以按名称引用其他运算符的输出。
-
复制运算符:将指针按住运算符并单击
或者选择一个运算符,然后按 Cmd/Ctrl+C,然后按 Cmd/Ctrl+V。
-
自动布局:单击
在标题工具栏中,自动排列紧凑布局中的所有运算符。
-
拟合视图:单击
在标题工具栏中查看当前视区中的所有运算符。
- 撤消和重做:按 Cmd/Ctrl+Z 和 Cmd/Ctrl+Shift+Z,或使用标题工具栏中的撤消和重做按钮。
- 查看生成的代码:若要查看设计器生成的 PySpark 代码,请在右窗格中打开 版本历史记录 ,将文件推送到 Git 文件夹并在其中查看,或在作业运行详细信息中查看代码。