快速入门:使用 Synapse Studio 创建无服务器 Apache Spark 池

Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、分析和提供数据,以及对数据建模。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、处理和提供数据以及为数据建模,以获取见解。

本快速入门介绍了使用 Synapse Studio 在 Synapse 工作区中创建 Apache Spark 池的步骤。

重要

不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。

如果没有 Azure 订阅,请在开始前创建一个试用帐户

先决条件

登录到 Azure 门户

登录到 Azure 门户

  1. 导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。 搜索栏中键入 Synapse 工作区的 Azure 门户屏幕截图。

  2. 从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区Azure 门户的 Synapse 工作区列表屏幕截图,其中显示筛选后包含 Contoso 名称的工作区。

启动 Synapse Studio

从工作区概述中,选择“工作区 Web URL”以打开 Synapse Studio。

Synapse 工作区概述的 Azure 门户的屏幕截图,其中突出显示了“启动 Synapse Studio”。

在 Synapse Studio 中创建 Apache Spark 池

重要

适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3

  1. 在 Synapse Studio 主页上,选择“管理”图标以导航到左侧导航栏中的“管理中心” 。 Synapse Studio 主页的 Azure 门户屏幕截图,其中突出显示了“管理中心”部分。

  2. 进入管理中心后,导航到“Apache Spark 池”部分,查看工作区中可用的 Apache Spark 池的当前列表。 Synapse Studio 管理中心的 Azure 门户的屏幕截图,其中已选择 Apache Spark 池导航。

  3. 选择“+ 新建”,随即会显示新 Apache Spark 池创建向导。

  4. 在“基本信息”选项卡中输入以下详细信息:

    设置 建议值 说明
    Apache Spark 池名称 有效的池名称,如 contosospark 这是 Apache Spark 池要使用的名称。
    节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本
    自动缩放 已禁用 使用此快速入门时无需进行自动缩放
    节点数 8 在此快速入门中使用小尺寸来限制成本
    动态分配执行程序 已禁用 此设置映射到用于 Spark 应用程序执行工具分配的 Spark 配置中的动态分配属性。 使用此快速入门时无需进行自动缩放。

    Synapse Studio 新 Apache Spark 池基本信息的 Azure 门户屏幕截图。

    重要

    Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。

  5. 在下一个选项卡(“其他设置”)中,将所有设置保留为默认值。

  6. 选择“标记”。 考虑使用 Azure 标记。 例如,用于确定资源创建者的“所有者”或“创建者”标记,以及确定此系统是生产环境还是开发环境等的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略。 准备就绪后,选择“查看 + 创建”。

  7. 在“查看 + 创建”选项卡中,根据前面输入的内容,确保详细信息正确,然后按“创建” 。

    “创建 Synapse Studio”新 Apache Spark 池的 Azure 门户屏幕截图。

  8. Apache Spark 池将开始预配过程。

  9. 预配完成后,新的 Apache Spark 池将显示在列表中。

    Synapse Studio 新 Apache Spark 池列表的 Azure 门户的屏幕截图。

使用 Synapse Studio 清理 Apache Spark 池资源

以下步骤使用 Synapse Studio 从工作区中删除 Apache Spark 池。

警告

删除 Spark 池会从工作区中删除分析引擎。 将不再可以连接到该池,并且使用此 Spark 池的所有查询、管道和笔记本都不再可以正常运行。

若要删除 Apache Spark 池,请执行以下步骤:

  1. 在 Synapse Studio 的管理中心导航到 Apache Spark 池。

  2. 选择要删除的 Apache 池旁边的省略号(在本例中为 contosospark)以显示 Apache Spark 池的命令。

    Azure 门户中 Apache Spark 池列表的屏幕截图,其中选择了最近创建的池。

  3. 选择“删除”。

  4. 确认删除,然后按“删除”按钮。

  5. 成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。