Azure Synapse Analytics 提供了各种分析引擎,可帮助你引入、转换、分析和提供数据,以及对数据建模。 Apache Spark 池提供开源大数据计算功能。 在 Synapse 工作区中创建 Apache Spark 池后,可以加载、处理和提供数据以及为数据建模,以获取见解。
本快速入门介绍了使用 Synapse Studio 在 Synapse 工作区中创建 Apache Spark 池的步骤。
重要
不管是否正在使用 Spark 实例,它们都会按分钟按比例计费。 请务必在用完 Spark 实例后将其关闭,或设置较短的超时。 有关详细信息,请参阅本文的清理资源部分。
备注
Synapse Studio 将继续支持基于 terraform 或 bicep 的配置文件。
如果没有 Azure 订阅,可在开始前创建一个试用帐户。
- 将需要 Azure 订阅。 如果需要,请创建一个 Azure 试用帐户
- 你将使用 Synapse 工作区。
登录到 Azure 门户
导航到要在其中创建 Apache Spark 池的 Synapse 工作区,方法是在搜索栏中键入服务名称(或直接键入资源名称)。
从工作区列表中,键入要打开的工作区的名称(或名称的一部分)。 在此示例中,我们使用名为 contosoanalytics 的工作区。
从工作区概述中,选择“工作区 Web URL”以打开 Synapse Studio。
重要
适用于 Apache Spark 2.4 的 Azure Synapse 运行时已弃用,自 2023 年 9 月起官方不再提供支持。 鉴于 Spark 3.1 和 Spark 3.2 也宣布结束支持,我们建议客户迁移到 Spark 3.3。
进入管理中心后,导航到“Apache Spark 池”部分,查看工作区中可用的 Apache Spark 池的当前列表。
选择“+ 新建”,随即会显示新 Apache Spark 池创建向导。
在“基本信息”选项卡中输入以下详细信息:
设置 建议值 说明 Apache Spark 池名称 有效的池名称,如 contosospark
这是 Apache Spark 池要使用的名称。 节点大小 小 (4 vCPU / 32 GB) 请将此项设置为最小大小,以降低本快速入门的成本 自动缩放 已禁用 使用此快速入门时无需进行自动缩放 节点数 8 在此快速入门中使用小尺寸来限制成本 动态分配执行程序 已禁用 此设置映射到用于 Spark 应用程序执行工具分配的 Spark 配置中的动态分配属性。 使用此快速入门时无需进行自动缩放。 重要
Apache Spark 池可以使用的名称有特定的限制。 名称只能包含字母或数字,必须为 15 个或更少的字符,必须以字母开头,不能包含保留字,并且在工作区中必须是独一无二的。
在下一个选项卡(“其他设置”)中,将所有设置保留为默认值。
选择“标记”。 考虑使用 Azure 标记。 例如,用于确定资源创建者的“所有者”或“创建者”标记,以及确定此系统是生产环境还是开发环境等的“环境”标记。有关详细信息,请参阅为 Azure 资源开发命名和标记策略。 准备就绪后,选择“查看 + 创建”。
在“查看 + 创建”选项卡中,根据前面输入的内容,确保详细信息正确,然后按“创建” 。
Apache Spark 池将开始预配过程。
预配完成后,新的 Apache Spark 池将显示在列表中。
以下步骤使用 Synapse Studio 从工作区中删除 Apache Spark 池。
警告
删除 Spark 池会从工作区中删除分析引擎。 将不再可以连接到该池,并且使用此 Spark 池的所有查询、管道和笔记本都不再可以正常运行。
若要删除 Apache Spark 池,请执行以下步骤:
在 Synapse Studio 的管理中心导航到 Apache Spark 池。
选择要删除的 Apache 池旁边的省略号(在本例中为 contosospark)以显示 Apache Spark 池的命令。
选择“删除”。
确认删除,然后按“删除”按钮。
成功完成该过程后,工作区资源中将不再列出该 Apache Spark 池。