Azure 机器学习中的 Apache Spark

借助 Azure 机器学习与 Azure Synapse Analytics 的集成，可通过 Apache Spark 框架轻松访问分布式计算资源。此集成提供以下 Apache Spark 计算体验：

无服务器 Spark 计算
附加的 Synapse Spark 池

无服务器 Spark 计算

有了 Apache Spark 框架，若要在 Azure 机器学习环境中完成分布式计算任务，最简单的方法是使用 Azure 机器学习无服务器 Spark 计算。 Azure 机器学习提供完全托管的无服务器按需 Apache Spark 计算群集。无需同时创建 Azure Synapse 工作区和 Synapse Spark 池。

可以定义资源，包括实例类型和 Apache Spark 运行时版本。使用这些资源访问 Azure 机器学习笔记本中的无服务器 Spark 计算，以便：

考虑的要点

无服务器 Spark 计算适用于大多数需要通过 Apache Spark 快速访问分布式计算资源的用户方案。但是，若要做出明智的决定，请考虑此方法的优点和缺点。

优点：

不依赖于为 Apache Spark 创建其他 Azure 资源（Azure Synapse 基础结构在后台运行）。
无需订阅权限即可创建与 Azure Synapse 相关的资源。
无需 SQL 池配额。

缺点：

没有持久性 Hive 元存储。无服务器 Spark 计算仅支持内存中 Spark SQL。
没有可用的表或数据库。
无 Azure Purview 集成。
没有可用的链接服务。
数据源和连接器较少。
没有池级配置。
没有池级库管理。
仅部分支持 mssparkutils。

网络配置

若要将网络隔离与 Azure 机器学习和无服务器 Spark 计算配合使用，请使用托管虚拟网络。

非活动时间和拆解机制

无服务器 Spark 计算（冷启动）资源在首次启动时可能需要三到五分钟才能启动 Spark 会话本身。发生此延迟的原因是自动无服务器 Spark 计算资源（由 Azure Synapse 提供支持）需要时间来预配。预配无服务器 Spark 计算并启动 Apache Spark 会话后，后续代码执行（热启动）不会遇到这种延迟。

Spark 会话配置提供了一个定义会话超时（以分钟为单位）的选项。 Spark 会话在超出用户定义的超时的非活动时间段后结束。如果以下 10 分钟内未启动另一个 Spark 会话，系统将拆除为无服务器 Spark 计算预配的资源。

系统拆毁无服务器 Spark 计算资源后，提交下一个作业需要 冷启动。以下可视化效果显示了一些会话空闲期和群集拆卸场景。

会话级 Conda 包

Conda 依赖项 YAML 文件可以在会话配置中定义许多会话级 Conda 包。如果会话需要 15 分钟以上才能安装 YAML 文件中定义的 Conda 包，会话将超时。检查所需的包是否已在 Azure Synapse 基础映像中可用。为此，请访问以下资源，确定正在使用的 Apache Spark 版本 的基本映像中可用的包 ：

注意

对于会话级 Conda 包：

冷启动需要大约 10 到 15 分钟。
使用同一 Conda 包的 热启动大约需要一分钟。
Warm start，搭配不同的 Conda 包，大约需要 10 到 15 分钟。
如果安装的包很大或需要较长的安装时间，则可能会影响 Spark 实例启动时间。
不支持更改 PySpark、Python、Scala/Java、.NET 或 Spark 版本。
不支持 Docker 映像。

使用会话级 Conda 包时改进会话冷启动时间

设置 spark.hadoop.aml.enable_cache 配置变量以 true 改进 Spark 会话 冷启动 时间。使用会话级 Conda 包时，会话冷启动在首次启动时通常需要 10 到 15 分钟。但是，后续会话冷启动需要三到五分钟。在配置会话用户界面中的配置设置下定义配置变量。

附加的 Synapse Spark 池

在 Azure Synapse 工作区中创建 Spark 池时，可以使用附加的 Synapse Spark 池在 Azure 机器学习工作区中访问它。此选项适用于想要重复使用现有 Synapse Spark 池的用户。

若要将 Synapse Spark 池附加到 Azure 机器学习工作区，需要完成更多步骤，然后才能使用 Azure 机器学习中的池进行以下作：

附加的 Synapse Spark 池提供对原生 Azure Synapse 功能的访问权限。你负责预配、附加、配置和管理 Synapse Spark 池。

附加的 Synapse Spark 池的 Spark 会话配置还提供了一个选项来定义会话超时（以分钟为单位）。会话超时行为类似于上一部分中的说明，只不过在会话超时后永远不会拆解关联的资源。

定义 Spark 群集大小

在 Azure 机器学习 Spark 作业中，可以使用三个参数值定义 Spark 群集大小：

执行程序数
执行程序核心数
执行程序内存

将 Azure 机器学习 Apache Spark 执行程序视为等效于 Azure Spark 工作器节点。可以通过一个示例来解释这些参数。如果将执行程序数定义为 6（相当于 6 个工作器节点），则执行程序核心数为 4，执行程序内存为 28 GB，则 Spark 作业可以访问总共 24 个核心和 168 GB 内存的群集。

确保 Spark 作业的资源访问

若要访问数据和其他资源，Spark 作业可以使用托管标识或用户标识直通。下表总结了 Spark 作业用来访问资源的机制。

Spark 池	支持的标识	默认标识
无服务器 Spark 计算	用户标识，附加到工作区的用户分配的托管标识	用户标识
附加的 Synapse Spark 池	用户标识，附加到所附加的 Synapse Spark 池的用户分配的托管标识，所附加的 Synapse Spark 池的系统分配的托管标识	所附加的 Synapse Spark 池的系统分配的托管标识

此文介绍 Spark 作业的资源访问。在笔记本会话中，无服务器 Spark 计算和附加的 Synapse Spark 池在交互式数据整理期间依赖于用户标识直通进行数据访问。

注意

若要确保 Spark 作业执行成功，请将 参与者 和 存储 Blob 数据参与者 角色（用于数据输入和输出的 Azure 存储帐户）分配给用于 Spark 作业提交的标识。
如果附加的 Synapse Spark 池指向关联了托管虚拟网络的 Azure Synapse 工作区中的 Synapse Spark 池，则配置存储帐户的托管专用终结点。此配置有助于确保数据访问。

后续步骤

Last updated on 2026-01-04