Important
此功能目前以公共预览版提供。
Lakeflow Designer 允许在视觉对象、拖放画布上生成数据转换工作流。 本页介绍如何创建可视化数据准备:从添加数据源、链接操作符,到预览结果并写入 Unity Catalog。
构建可视化数据准备:
- 验证要求
- 创建可视化数据准备
- 添加数据源
- 添加和配置运算符
- 连接运算符
- 预览结果
- 将结果写入 Unity 目录
- 在生产环境中安排或执行
Requirements
若要使用 Lakeflow Designer,必须具备:
- 启用了 Unity 目录的 Azure Databricks 工作区。
-
CAN USE对至少一个计算资源(无服务器或全用途)的权限。 - 已启用 Azure Databricks AI 辅助功能。 如果某个模型在你的区域中不可用,则你可能还需要 启用跨地理位置处理。
创建新的可视化数据准备
若要创建新的视觉数据准备,请单击在侧栏中单击新增,然后选择视觉数据准备。
设计器打开时会显示欢迎屏幕,在这里你可以添加数据源或浏览样例可视化数据准备。
添加数据源
每个设计器工作流都以一个或多个数据源开头。 Source 运算符表示画布上的数据源。
添加数据源:
添加 Source 运算符。 在欢迎屏幕中,单击 “选择源运算符”。 在画布中,打开操作员菜单并选择“ 源”。
在“源配置”窗格中,选择如何引入数据。 可以浏览现有表、上传本地 CSV 或Excel文件、从文件创建表或从SharePoint导入。
选择或配置数据源。 Source 运算符显示在画布上。
还可以将 CSV 或Excel文件直接拖放到画布上,以便快速创建源运算符。
若要稍后更改源,请打开 Source 运算符,然后单击 “选择新数据源”。 更改源会使所有下游运算符的输出缓存失效。
有关每个引入选项的完整详细信息,请参阅 将数据引入 Lakeflow 设计器。
添加和配置运算符
若要添加运算符,请在画布左侧的侧面板中打开运算符菜单。 单击某个运算符将其添加到画布,或将运算符从菜单拖动到画布上。 还可以单击 + 任何现有运算符旁边的按钮,添加具有自动连接的新运算符。
若要配置运算符,请双击它,或按住指针,然后单击 (编辑运算符)打开配置窗格。 设置该运算符类型的选项,然后单击“ 应用”。
有关每个可用运算符的详细信息,请参阅 Lakeflow Designer 中的内置运算符。
连接运算符
要连接两个运算符,请单击并拖动输出手柄(运算符右边缘的小圆)到下一个运算符的输入手柄(左边缘的小圆)。 这指定数据从第一个运算符流入第二个运算符。 数据流从左到右流经数据可视化准备。
某些运算符(如 Join 和 Combine)接受多个输入。
预览结果
选择任意运算符,在屏幕底部的输出窗格中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。
默认情况下,运算符在最多 1,000 行的数据样本上运行。 若要使用完整数据集运行,请单击输出窗格中 的示例数据集 ,并切换到 “完整数据集”。
警告
运行完整数据集时,会重新执行所有上游运算符在完整且无限制的数据集上,并且可能需要很长时间。
数据剖析
在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。
将结果写入 Unity 目录
添加 输出 运算符以将结果写入 Unity 目录中的表:
- 打开运算符菜单并选择“ 输出”,或单击 + 最后一个运算符旁边的“ 输出”。
- 将上次转换的输出句柄连接到 输出 运算符的输入句柄(如果尚未连接)。
- 双击 “输出 ”运算符打开其配置窗格。
- 键入 表名称 并选择 “输出位置 ”(目录和架构)。
- 单击 “运行” 。
在生产环境中安排或执行
可以通过将工作流设定为任务来实现自动化。
- 直接计划:单击顶部菜单中的“ 计划 ”按钮,为视觉对象数据准备创建计划作业。
- 添加到作业:创建Azure Databricks作业并选择设计器视觉对象数据准备作为任务。 这样,便可以将视觉数据准备与其他任务整合到一个更大的工作流程中。
在画布中工作时的其他提示
画布上提供了以下操作,可帮助你编辑可视化数据准备。
- 重命名运算符:单击任何配置窗格顶部的文本字段以重命名该运算符。 描述性名称使可视化数据准备更易于一目了然。 某些运算符(如 SQL 运算符)可以按名称引用其他运算符的输出。
-
复制运算符:将指针按住运算符并单击
或者选择一个运算符,然后按 Cmd/Ctrl+C,然后按 Cmd/Ctrl+V。
-
自动布局:单击
在左下工具栏中,自动排列紧凑布局中的所有运算符。
-
调整视图:单击
在左下工具栏中查看当前视区中的所有运算符。
- 撤消和重做:按 Cmd/Ctrl+Z 和 Cmd/Ctrl+Shift+Z,或使用上部工具栏中的按钮。