Azure Synapse Analytics 术语

本文档介绍了 Azure Synapse Analytics 的基本概念。

Synapse 工作区

Synapse 工作区是用于在 Azure 中执行基于云的企业分析的安全协作边界。 工作区部署在特定的区域中,并有关联的 ADLS Gen2 帐户和文件系统(用于存储临时数据)。 工作区位于资源组下。

通过工作区,可以使用 SQL 和 Apache spark 执行分析。 可用于 SQL 和 Spark 分析的资源将组织到 SQL 和 Spark 池中。

链接服务

工作区可包含任意数量的链接服务,它们实质上是定义工作区在连接到外部资源时所需的连接信息的连接字符串。

Synapse SQL

Synapse SQL 用于在 Synapse 工作区中执行基于 T-SQL 的分析。 Synapse SQL 有两种使用模型:专用模型和无服务器模型。 对于专用模型,请使用专用 SQL 池。 一个工作区可以有任意数量的这些池。 若要使用无服务器模型,请使用无服务器 SQL 池。 每个工作区都有这些池之一。

在 Synapse Studio 中,可通过运行 SQL 脚本来使用 SQL 池。

注意

Azure Synapse 中的专用 SQL 池与专用 SQL 池(以前称为 SQL DW)不同。 并非 Azure Synapse 工作区中专用 SQL 池的所有功能都适用于专用 SQL 池(之前称为 SQL DW),反之亦然。

Apache Spark for Synapse

若要使用 Spark 分析,请在 Synapse 工作区中创建并使用无服务器 Apache Spark 池。 开始使用 Spark 池时,工作区会创建一个“spark 会话”来处理与该会话相关的资源。

Synapse 中有两种方法使用 Spark:

  • Spark 笔记本,使用 Scala、PySpark、C# 和 SparkSQL 处理数据科学和工程
  • Spark 作业定义使用 jar 文件运行批处理 Spark 作业。

SynapseML

SynapseML(以前称为 MMLSpark)是一个开源库,能简化可大规模缩放的机器学习 (ML) 管道的创建。 这是一个工具生态系统,用于在多个新方向上扩展 Apache Spark 框架。 SynapseML 将多个现有机器学习框架和新 Microsoft 算法统一为一个可缩放的 API,该 API 可用于 Python、R、Scala、.NET 和 Java。 若要了解详细信息,请参阅 SynapseML 的主要功能

管道

管道是 Azure Synapse 提供数据集成的方式,通过它可在服务之间移动数据,并安排活动。

  • 管道是共同执行某个任务的活动的逻辑分组。
  • 活动定义要在管道中对数据执行的操作,例如复制数据、运行 Notebook 或 SQL 脚本。
  • 数据流是特定类型的活动,在使用隐藏式 Synapse Spark 进行数据转换时,可提供无代码体验。
  • 触发器 - 执行管道。 可以手动或自动(计划、翻转窗口或基于事件)运行触发器
  • 集成数据集 - 数据的命名视图,它只指向或引用要在活动中作为输入和输出使用的数据。 它属于链接服务。

后续步骤