快速入门:使用 Azure 门户新建无服务器 Apache Spark 池

Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、分析和分布数据,以及对数据建模。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、处理和分布数据以及为数据建模,更快地获取分析见解。

本快速入门介绍如何使用 Azure 门户在 Synapse 工作区中创建 Apache Spark 池。

重要

不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。

如果没有 Azure 订阅,请在开始前创建一个试用帐户

先决条件

登录到 Azure 门户

登录到 Azure 门户

  1. 导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。 其中键入了 Synapse 工作区的 Azure 门户搜索栏屏幕截图。

  2. 从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区Azure 门户的 Synapse 工作区列表屏幕截图,其中显示筛选后包含 Contoso 名称的工作区。

创建新的 Apache Spark 池

重要

适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3

  1. 在要在其中创建 Apache Spark 池的 Synapse 工作区中,选择“新建 Apache Spark 池”。 Synapse 工作区的 Azure 门户屏幕截图,其中以红框包住了用于创建新 Apache Spark 池的命令。

  2. 在“基本信息”选项卡中输入以下详细信息:

    设置 建议值 说明
    Apache Spark 池名称 有效的池名称,如 contosospark 这是 Apache Spark 池要使用的名称。
    节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本
    自动缩放 已禁用 此快速入门不需要自动缩放
    节点数 5 在此快速入门中使用小尺寸来限制成本

    Apache Spark 池创建流的 Azure 门户 -“基本信息”选项卡屏幕截图。

    重要

    Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。

  3. 选择“下一步: 其他设置”并查看默认设置。 请不要修改任何默认设置。 显示“创建 Apache Spark 池”页的 Azure 门户屏幕截图,其中选择了“其他设置”选项卡。

  4. 选择“下一步: 标记”。 考虑使用 Azure 标记。 例如,用于确定资源创建者的“所有者”或“创建者”标记,以及确定此系统是生产环境还是开发环境等的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略Apache Spark 池创建流的 Azure 门户 -“其他设置”选项卡屏幕截图。

  5. 选择“查看 + 创建”。

  6. 根据前面输入的内容,确保详细信息正确,然后选择“创建”。 Apache Spark 池创建流的 Azure 门户 -“其他设置”选项卡屏幕截图。

  7. 此时会启动资源预配流,指示其完成时间。 显示“概述”页的 Azure 门户屏幕截图,其中显示了“部署已完成”消息。

  8. 预配完成后,导航回到工作区会显示新建的 Apache Spark 池对应的新条目。 Apache Spark 池创建流的 Azure 门户 - 资源预配屏幕截图。

  9. 此时没有任何资源在运行,因此 Spark 不会产生费用,但你已创建有关所要创建的 Spark 实例的元数据。

清理资源

以下步骤会从工作区中删除 Apache Spark 池。

警告

删除 Apache Spark 池会从工作区中删除分析引擎。 将不再可以连接到该池,并且使用此 Apache Spark 池的所有查询、管道和笔记本都不再可以正常运行。

若要删除 Apache Spark 池,请执行以下步骤:

  1. 导航到工作区中的“Apache Spark 池”窗格。
  2. 选择要删除的 Apache Spark 池(在本例中为 contosospark)。
  3. 选择“删除”。 Azure 门户中的 Apache Spark 池列表屏幕截图,其中选择了最近创建的池。
  4. 确认删除,然后选择“删除”按钮。 Azure 门户中用于删除所选 Apache Spark 池的“确认”对话框屏幕截图。
  5. 成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。