如何创建可视化数据准备工具在 Lakeflow 设计器中

Important

此功能目前以公共预览版提供。

Lakeflow Designer 允许在视觉对象、拖放画布上生成数据转换工作流。 本页介绍如何创建可视化数据准备:从添加数据源、链接操作符,到预览结果并写入 Unity Catalog。

构建可视化数据准备:

  1. 验证要求
  2. 创建可视化数据准备
  3. 添加数据源
  4. 添加和配置运算符
  5. 连接运算符
  6. 预览结果
  7. 将结果写入 Unity 目录
  8. 在生产环境中安排或执行

Requirements

若要使用 Lakeflow Designer,必须具备:

  • 启用了 Unity 目录的 Azure Databricks 工作区。
  • CAN USE 对至少一个计算资源(无服务器或全用途)的权限。
  • 已启用 Azure Databricks AI 辅助功能。 如果某个模型在你的区域中不可用,则你可能还需要 启用跨地理位置处理

创建新的可视化数据准备

若要创建新的视觉数据准备,请单击“加号”图标。在侧栏中单击新增,然后选择视觉数据准备

设计器打开时会显示欢迎屏幕,在这里你可以添加数据源或浏览样例可视化数据准备。

添加数据源

每个设计器工作流都以一个或多个数据源开头。 Source 运算符表示画布上的数据源。

添加数据源:

  1. 添加 Source 运算符。 在欢迎屏幕中,单击 “选择源运算符”。 在画布中,打开操作员菜单并选择“ ”。

  2. 在“源配置”窗格中,选择如何引入数据。 可以浏览现有表、上传本地 CSV 或Excel文件、从文件创建表或从SharePoint导入。

  3. 选择或配置数据源。 Source 运算符显示在画布上。

还可以将 CSV 或Excel文件直接拖放到画布上,以便快速创建源运算符。

若要稍后更改源,请打开 Source 运算符,然后单击 “选择新数据源”。 更改源会使所有下游运算符的输出缓存失效。

有关每个引入选项的完整详细信息,请参阅 将数据引入 Lakeflow 设计器

添加和配置运算符

若要添加运算符,请在画布左侧的侧面板中打开运算符菜单。 单击某个运算符将其添加到画布,或将运算符从菜单拖动到画布上。 还可以单击 + 任何现有运算符旁边的按钮,添加具有自动连接的新运算符。

运算符菜单(LFD),可拖放至画布上。

若要配置运算符,请双击它,或按住指针,然后单击 铅笔图标。编辑运算符)打开配置窗格。 设置该运算符类型的选项,然后单击“ 应用”。

有关每个可用运算符的详细信息,请参阅 Lakeflow Designer 中的内置运算符

连接运算符

要连接两个运算符,请单击并拖动输出手柄(运算符右边缘的小圆)到下一个运算符的输入手柄(左边缘的小圆)。 这指定数据从第一个运算符流入第二个运算符。 数据流从左到右流经数据可视化准备。

显示两个运算符之间的连接的 LFD 画布。

某些运算符(如 JoinCombine)接受多个输入。

预览结果

选择任意运算符,在屏幕底部的输出窗格中查看结果。 对于大多数运算符类型,输入数据位于左侧,输出数据位于右侧。

画布下方的 LFD 输出窗格。

默认情况下,运算符在最多 1,000 行的数据样本上运行。 若要使用完整数据集运行,请单击输出窗格中 的示例数据集 ,并切换到 “完整数据集”。

警告

运行完整数据集时,会重新执行所有上游运算符在完整且无限制的数据集上,并且可能需要很长时间。

数据剖析

在输出窗格中,可以选择在输出中显示数据的详细信息。 在输出窗格的右上角,选择 边栏图标。边栏 按钮可打开选择详细信息。 选择数据子集以查看所选内容的详细信息。

显示有关所选输出数据的图形和详细信息的边栏。

将结果写入 Unity 目录

添加 输出 运算符以将结果写入 Unity 目录中的表:

  1. 打开运算符菜单并选择“ 输出”,或单击 + 最后一个运算符旁边的“ 输出”。
  2. 将上次转换的输出句柄连接到 输出 运算符的输入句柄(如果尚未连接)。
  3. 双击 “输出 ”运算符打开其配置窗格。
  4. 键入 表名称 并选择 “输出位置 ”(目录和架构)。
  5. 单击 “运行”

在生产环境中安排或执行

可以通过将工作流设定为任务来实现自动化。

  • 直接计划:单击顶部菜单中的“ 计划 ”按钮,为视觉对象数据准备创建计划作业。
  • 添加到作业:创建Azure Databricks作业并选择设计器视觉对象数据准备作为任务。 这样,便可以将视觉数据准备与其他任务整合到一个更大的工作流程中。

LFD 调度控件可将视觉数据准备自动化为一项作业。

在画布中工作时的其他提示

画布上提供了以下操作,可帮助你编辑可视化数据准备。

  • 重命名运算符:单击任何配置窗格顶部的文本字段以重命名该运算符。 描述性名称使可视化数据准备更易于一目了然。 某些运算符(如 SQL 运算符)可以按名称引用其他运算符的输出。
  • 复制运算符:将指针按住运算符并单击“复制”图标。或者选择一个运算符,然后按 Cmd/Ctrl+C,然后按 Cmd/Ctrl+V
  • 自动布局:单击 DAG 水平图标。 在左下工具栏中,自动排列紧凑布局中的所有运算符。
  • 调整视图:单击 “缩放”以调整图标。 在左下工具栏中查看当前视区中的所有运算符。
  • 撤消和重做:按 Cmd/Ctrl+ZCmd/Ctrl+Shift+Z,或使用上部工具栏中的按钮。

后续步骤