Azure Synapse Analytics 中的新增功能归档

本文介绍 Azure Synapse Analytics 的之前的月度更新。 有关最新月份的版本,请查看 Azure Synapse Analytics 最新更新。 每个更新都链接到 Azure Synapse Analytics 博客和一篇文章,用于提供更多信息。

正式版功能

下表列出了已从预览版过渡到正式版 (GA) 的 Azure Synapse Analytics 功能的历史记录。

Month 功能 了解详细信息
2022 年 7 月 适用于 Synapse Analytics 的 Apache Spark™ 3.2 适用于 Synapse Analytics 的 Apache Spark™ 3.2 现已正式发布。 请查看官方发行说明Spark 3.1 与 3.2 之间的迁移指南,以评估应用程序的潜在更改。 有关详细信息,请阅读 Apache Spark 版本支持和 Azure Synapse Runtime for Apache Spark 3.2Azure Synapse Analytics July Update 2022 中重点介绍了 Spark 3.2 中做出的改进。
2022 年 7 月 Azure Synapse 中的 Apache Spark 智能缓存功能 Spark 的智能缓存功能会自动将每个读取存储在已分配的缓存存储空间中,检测基础文件更改并刷新文件以提供最新数据。 有关详细信息,请参阅如何为 Apache Spark 池启用/禁用缓存
2022 年 6 月 映射数据工具 映射数据工具是一个引导式过程,可帮助你创建 ETL 映射,并在不编写代码的情况下将数据流从源数据映射到 Synapse。 若要详细了解映射数据工具,请阅读 Azure Synapse Analytics 中的映射数据
2022 年 6 月 用户定义的函数 用户定义的函数 (UDF) 现已推出正式版。 有关详细信息,请阅读映射数据流中用户定义的函数
2022 年 4 月 Azure Synapse SQL 的跨订阅还原 通过 PowerShell Az.Sql 模块 3.8 更新,可以使用 Restore-AzSqlDatabase cmdlet 跨订阅还原专用 SQL 池。 有关详细信息,请参阅播客:将专用 SQL 池(以前称为 SQL DW)还原到其他订阅。 此功能现已针对专用 SQL 池(以前称为 SQL DW)和 Synapse 工作区中的专用 SQL 池推出正式版。 有什么差别?
2022 年 4 月 数据库设计器 用户可以通过数据库设计器在 Synapse Studio 中直观创建数据库,而无需编写任何代码。 有关详细信息,请参阅宣布推出数据库设计器正式版。 详细了解湖数据库以及如何使用数据库设计器修改现有湖数据库
2022 年 4 月 Synapse 监视操作员 RBAC 角色 Synapse 监视操作员 RBAC(基于角色的访问控制)角色让用户能够监视 Synapse Pipelines 和 Spark 应用程序的执行,而无需运行或取消这些应用程序的执行。 有关详细信息,请查看 Synapse RBAC 角色
2022 年 3 月 Flowlet Flowlet 可帮助你设计新数据流逻辑的某些部分,或提取现有数据流的某些部分,并将其作为单独的项目保存在 Synapse 工作区中。 然后,你可以在其他数据流中重用这些 Flowlet。 有关详细信息,请查看 Flowlets GA 公告博客文章并阅读映射数据流中的 Flowlet
2022 年 3 月 更改源连接器 适用于 Azure Cosmos DB、Azure Blob 存储、ADLS Gen2 和 Common Data Model (CDM) 的变更数据捕获 (CDC) 源数据流源转换现已正式发布。 只需选中相应的框,就可以让 ADF 自动为你管理某个检查点,并且只会读取自上次管道运行以来已更新或插入的最新行。 有关详细信息,请查看更改源连接器 GA 预览博客文章并阅读使用 Azure 数据工厂或 Azure Synapse Analytics 在 Azure Data Lake Storage Gen2 中复制和转换数据
2022 年 3 月 专用 SQL 池的列级加密 列级加密现已正式发布,可用于包含 Azure Synapse 专用 SQL 池以及 Azure Synapse 工作区中的专用 SQL 池的新的和现有 Azure SQL 逻辑服务器。 从 Visual Studio 2022 的 17.2 Preview 2 内部版本开始,SQL Server Data Tools (SSDT) 支持专用 SQL 池的列级加密。
2022 年 3 月 Synapse Spark Common Data Model (CDM) 连接器 CDM 格式读取器/写入器使 Spark 程序能够通过 Spark 数据帧在 CDM 文件夹中读取和写入 CDM 实体。 若要了解详细信息,请参阅 CDM 连接器如何支持读取、写入数据、示例和已知问题
2021 年 11 月 PREDICT T-SQL PREDICT 语法现已针对专用 SQL 池推出正式版。 开始使用用于专用 SQL 池的机器学习模型评分向导
2021 年 10 月 Synapse RBAC 角色 Synapse 基于角色的访问控制 (RBAC) 角色现已推出正式版。 详细了解 Synapse RBAC 角色使用 PowerShell 进行 Azure Synapse 基于角色的访问控制 (RBAC)

Apache Spark for Azure Synapse Analytics

本部分汇总了 Apache Spark for Azure Synapse Analytics 的特性和功能。

Month 功能 了解详细信息
2022 年 5 月 适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器现已在 Python 中推出 以前,只能通过 Scala 使用适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器。 现在,适用于 Apache Spark 的专用 SQL 池连接器可与 Spark 3 上的 Python 配合使用
2022 年 5 月 管理 Azure Synapse Apache Spark 配置 借助新的 Apache Spark 配置功能,可以使用自动建议和内置验证规则创建独立的 Spark 配置项目。 使用 Spark 配置项目可以在 Azure Synapse 工作区中和跨工作区共享 Spark 配置。 还可以轻松地将 Spark 配置与 Spark 池、笔记本和 Spark 作业定义相关联,以便重复使用并最大程度地减少在多个位置复制 Spark 配置的需求。
2022 年 4 月 适用于 Synapse Analytics 的 Apache Spark 3.2 适用于 Synapse Analytics 的 Apache Spark 3.2 已推出预览版。 请查看官方 Spark 3.2 发行说明Spark 3.1 与 3.2 之间的迁移指南,以评估应用程序的潜在更改。 有关详细信息,请阅读 Apache Spark 版本支持和 Azure Synapse Runtime for Apache Spark 3.2
2022 年 4 月 Spark 作业定义的参数化 现在可以根据变量、元数据或者通过为 Spark 作业定义活动指定管道特定的参数来动态分配参数。 有关更多详细信息,请参阅使用 Apache Spark 作业定义转换数据
2022 年 4 月 Apache Spark 笔记本快照 当管道笔记本运行失败或者存在长时间运行的笔记本作业时,你可以访问笔记本的快照。 要了解更多信息,请阅读通过运行 Synapse 笔记本转换数据Microsoft Spark 实用程序简介
2022 年 3 月 Synapse Spark Common Data Model (CDM) 连接器 CDM 格式读取器/写入器使 Spark 程序能够通过 Spark 数据帧在 CDM 文件夹中读取和写入 CDM 实体。 若要了解详细信息,请参阅 CDM 连接器如何支持读取、写入数据、示例和已知问题
2022 年 3 月 Synapse Spark 专用 SQL 池连接器的性能优化 适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器的新改进减少了数据移动,并会利用 COPY INTO。 性能测试表明,其性能至少比前一版本提高了约 5 倍。 用户无需执行任何操作即可利用这些增强功能。 有关详细信息,请参阅博客:Synapse Spark 专用 SQL 池 (DW) 连接器:性能改进
2022 年 3 月 支持所有 Spark 数据帧 SaveMode 选项 适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器现在支持所有四种 Spark 数据帧 SaveMode 选项:Append、Overwrite、ErrorIfExists、Ignore。 有关 Spark SaveMode 的详细信息,请阅读官方 Apache Spark 文档
2022 年 3 月 Azure Synapse Analytics 中的 Apache Spark 智能缓存功能 Spark 的智能缓存功能会自动将每个读取存储在已分配的缓存存储空间中,检测基础文件更改并刷新文件以提供最新数据。 若要详细了解此预览版功能,请参阅如何为 Apache Spark 池启用/禁用缓存,或参阅博客文章

数据集成

本部分汇总了 Azure Synapse Analytics 数据集成的特性和功能。 了解如何使用 Azure 数据工厂 (ADF) 或 Synapse 管道将数据加载到 Azure Synapse Analytics 中

Month 功能 了解详细信息
2022 年 6 月 SAP CDC 连接器预览版 SAP 变更数据捕获 (CDC) 的新数据连接器现已推出预览版。 有关详细信息,请参阅宣布推出 Azure 数据工厂和 Azure Synapse Analytics 中 SAP CDC 解决方案的公共预览版Azure 数据工厂中的 SAP CDC 解决方案
2022 年 6 月 联接转换中的模糊联接选项 映射数据流中的联接转换中,添加了通过相似性阈值评分滑块使用模糊匹配的选项。
2022 年 6 月 映射数据工具正式版 我们很高兴地宣布,映射数据工具现已推出正式版。 映射数据工具是一个引导式过程,可帮助你创建 ETL 映射,并在不编写代码的情况下将数据流从源数据映射到 Synapse。
2022 年 6 月 使用新参数重新运行管道 现在可以在从“监视”页重新运行管道时更改管道参数,而无需返回到管道编辑器。 有关详细信息,请阅读重新运行管道和活动
2022 年 6 月 用户定义的函数正式版 映射数据流中用户定义的函数 (UDF) 现已推出正式版 (GA)。
2022 年 5 月 将管道监视导出为 CSV ADF 中引入了将管道监视导出到 CSV 的功能和其他监视改进
2022 年 5 月 从 PostgreSQL 和 MySQL 自动加载增量源数据 在 ADF 中,现已推出自动将 PostgreSQL 和 MySQL 中的增量源数据加载到 Synapse SQL 和 Azure 数据库的原生功能。
2022 年 5 月 断言转换错误处理 现已将错误处理添加到映射数据流中断言转换之后的接收器。 现在可以选择是将失败的行输出到所选接收器还是输出到单独的文件中。
2022 年 5 月 映射数据流投影编辑 在映射数据流中,现在可以更新源投影列名和列类型
2022 年 4 月 Synapse 数据流的 Dataverse 连接器 Dataverse 现在是 Synapse 数据流的源和接收器连接器。 可以使用 Azure 数据工厂或 Azure Synapse Analytics 从 Dynamics 365 (Microsoft Dataverse) 或 Dynamics CRM 复制和转换数据
2022 年 4 月 可配置的 Synapse Pipelines Web 活动响应超时 使用响应超时属性 httpRequestTimeout,可为 HTTP 请求定义最长 10 分钟的超时。 Web 活动能够很好地与遵循异步请求-回复模式(构建可缩放 Web API/服务的建议方法)的 API 配合工作。
2022 年 3 月 Synapse 数据流的 sFTP 连接器 Synapse 数据流中的本机 sftp 连接器支持使用 Synapse 中的视觉低代码数据流接口从 sFTP 读取和写入数据。 有关详细信息,请参阅使用 Azure 数据工厂或 Azure Synapse Analytics 在 SFTP 服务器中复制和转换数据
2022 年 3 月 对数据预览的数据流改进 查看已添加到映射数据流中的数据预览和调试改进的功能。
2022 年 3 月 管道脚本活动 现在可以使用脚本活动转换数据,以调用 SQL 命令来执行 DDL 和 DML。
2021 年 12 月 Synapse Link for Azure Cosmos DB 的自定义分区 通过基于查询中经常使用的字段创建自定义分区,改进 Spark 查询的查询执行时间。

数据库设计器

本部分是数据库设计器特性和功能的存档。

Month 功能 了解详细信息
2022 年 4 月 数据库设计器 用户可以通过数据库设计器在 Synapse Studio 中直观创建数据库,而无需编写任何代码。 有关详细信息,请参阅宣布推出数据库设计器正式版。 详细了解湖数据库以及如何使用数据库设计器修改现有湖数据库
2022 年 4 月 克隆湖数据库 在 Synapse Studio 中,现在可以使用湖数据库上可用的操作菜单克隆数据库。 要了解更多信息,请阅读操作方法:克隆湖数据库
2022 年 4 月 使用通配符来指定自定义文件夹层次结构 湖数据库位于湖中的数据的上层,这些数据可以存在于不适合干净分区模式的嵌套文件夹中。 你现在可以使用通配符来指定自定义文件夹层次结构。 要了解更多信息,请阅读操作方法:修改数据湖

开发人员体验

本部分汇总了 Azure Synapse 分析中开发人员的生活质量和功能改进。

Month 功能 了解详细信息
2022 年 5 月 更新的 Azure Synapse 分析器报告 了解 Synapse 分析器版本 2.0 报告中的新功能。
2022 年 4 月 Azure Synapse 分析器报告 Azure Synapse 分析器报告可帮助你识别数据库中存在的可能导致性能问题的常见问题。
2022 年 4 月 引用未发布的笔记本 现在,在使用 %run 笔记本时,可以启用“未发布的笔记本引用”,这样就可以引用未发布的笔记本。 启用后,笔记本运行将提取笔记本 Web 缓存中的当前内容,这意味着其他笔记本可以立即引用笔记本编辑器中的更改,而无需发布(实时模式)。
2022 年 3 月 显示标准输出的代码单元和异常 在 Synapse 笔记本中,当 Python 和 Scala 语言的代码语句失败时,现在会同时显示标准输出和异常消息。 有关示例,请参阅 Synapse 笔记本:显示标准输出的代码单元和异常
2022 年 3 月 为正在运行的笔记本代码单元显示部分输出 现在,在 Synapse 笔记本中,可以在单元执行时看到你编写的任何内容(例如,使用 println 命令),而无需执行结束。 有关示例,请参阅 Synapse 笔记本:为正在运行的笔记本代码单元显示部分输出
2022 年 3 月 使用管道参数动态控制 Spark 会话配置 现在,在 Synapse 笔记本中,可以使用管道参数通过笔记本 %%configure magic 来配置会话。 有关示例,请参阅 Synapse 笔记本:使用管道参数动态控制 Spark 会话配置
2022 年 3 月 重用和管理笔记本会话 现在,在 Synapse 笔记本中,可以方便地重用活动会话,而无需启动新会话,另外,可以在“活动会话”列表中查看和管理活动会话。 若要查看会话,请选择笔记本中的 3 点图标并选择“管理会话”。有关示例,请参阅 Synapse 笔记本:重用和管理笔记本会话
2022 年 3 月 支持 Python 日志记录 现在,在 Synapse 笔记本中,除了驱动程序日志之外,还会捕获通过 Python 日志记录模块写入的任何内容。 有关示例,请参阅 Synapse 笔记本:支持 Python 日志记录

机器学习

本部分汇总了用于在 Azure Synapse Analytics 中使用机器学习模型的功能和改进。

Month 功能 了解详细信息
2021 年 11 月 PREDICT T-SQL PREDICT 语法现已针对专用 SQL 池推出正式版。 开始使用用于专用 SQL 池的机器学习模型评分向导

示例和指导

本部分汇总 Azure Synapse 分析的指南和示例项目资源。

Month 功能 了解详细信息
2022 年 6 月 使用 Synapse Analytics 进行 Azure Orbital 分析 我们现在提供了一个 Azure Orbital 分析示例解决方案,用于展示如何在 Azure Synapse Analytics 中使用地理空间库和 AI 模型,端到端实现星载数据的提取、加载、转换和分析。 该示例解决方案还演示了如何集成地理空间特定的 Azure AI 服务模型、合作伙伴的 AI 模型和自带数据模型。
2022 年 6 月 Azure Synapse 成功源于设计 Azure Synapse 概念证明 playbook 提供了界定、设计、执行和评估 SQL 或 Spark 工作负载概念证明的指南。

安全性

本部分汇总了 Azure Synapse Analytics 中的安全功能和设置。

Month 功能 了解详细信息
2022 年 4 月 Synapse 监视操作员 RBAC 角色 Synapse 监视操作员基于角色的访问控制 (RBAC) 角色让用户能够监视 Synapse Pipelines 和 Spark 应用程序的执行,而无需运行或取消这些应用程序的执行。 有关详细信息,请查看 Synapse RBAC 角色
2022 年 3 月 强制实施最低 TLS 版本 现在可以提高或降低 Synapse 工作区中专用 SQL 池的最低 TLS 版本。 有关详细信息,请参阅 Azure SQL 连接设置工作区托管 SQL API 可用于修改最低 TLS 设置。
2022 年 3 月 Azure Synapse Analytics 现在支持仅限 Azure Active Directory (Azure AD) 的身份验证 现在可以使用 Azure Active Directory 身份验证来集中管理对所有 Azure Synapse 资源(包括 SQL 池)的访问。 可以在创建工作区时或创建工作区之后通过 Azure 门户禁用本地身份验证
2021 年 12 月 用户分配的托管标识 现在,可以使用链接服务中的用户分配的托管标识在 Synapse Pipelines 和数据流中进行身份验证。 有关详细信息,请参阅 Azure 数据工厂和 Azure Synapse 中的凭据
2021 年 12 月 在 Azure Synapse Analytics 工作区中浏览 ADLS Gen2 文件夹 现在可以通过在 Synapse Studio 中连接到特定的容器或文件夹,在 Azure Synapse Analytics 工作区中浏览和保护 Azure Data Lake Storage Gen2 (ADLS Gen2) 容器或文件夹
2021 年 12 月 为新的 Synapse 工作区强制实施 TLS 2.1 从 2021 年 12 月开始,仅对新的 Synapse 工作区实施 TLS 1.2 要求

Azure Synapse Link 是一个自动化系统,用于将数据从 SQL Server 或 Azure SQL 数据库、Azure Cosmos DB 或 Dataverse 复制到 Azure Synapse Analytics。 本部分是有关 Azure Synapse Link 功能的新闻存档。

Month 功能 了解详细信息
2022 年 5 月 Azure Synapse Link for SQL 预览版 对于 SQL Server 2022 和 Azure SQL 数据库,Azure Synapse Link for SQL 目前是作为预览版提供的。 Azure Synapse Link 功能提供从基于 SQL 的操作存储到 Azure Synapse Analytics 的低代码和无代码准实时数据复制。 最小准实时提供操作数据的 BI 报告,对操作存储的影响极小。 宣布推出 Azure Synapse Link for SQL 预览版。 有关详细信息,请参阅博客:Azure Synapse Link for SQL 深入探讨

Synapse SQL

本部分汇总了 Azure Synapse Analytics 中 SQL 池中的改进和功能。

Month 功能 了解详细信息
2022 年 6 月 提高了结果集大小限制 无服务器 SQL 池中查询结果集的最大大小已从 200 GB 增大至 400 GB。
2022 年 5 月 无服务器 SQL 池的自动字符列长度计算 不再需要为数据湖中的无服务器 SQL 池定义字符列长度。 无需定义架构即可获取最佳查询性能,因为无服务器 SQL 池将使用自动计算的平均列长度和基数估算。
2022 年 4 月 Azure Synapse SQL 的跨订阅还原正式版 通过 PowerShell Az.Sql 模块 3.8 更新,可以使用 Restore-AzSqlDatabase cmdlet 跨订阅还原专用 SQL 池。 有关详细信息,请参阅将专用 SQL 池还原到其他订阅。 此功能现已针对专用 SQL 池(以前称为 SQL DW)和 Synapse 工作区中的专用 SQL 池推出正式版。 有什么差别?
2022 年 4 月 从已删除的服务器或工作区恢复 SQL 池 借助 Az.SqlAz.Synapse 模块中的 PowerShell Restore cmdlet,现在可以从已删除的服务器或工作区进行还原,而无需提交支持票证。 有关详细信息,请参阅从已删除的 Azure Synapse 工作区还原专用 SQL 池从已删除的服务器还原独立的专用 SQL 池(以前称为 SQL DW),具体取决于你的方案。
2022 年 3 月 专用 SQL 池的列级加密 列级加密现已正式发布,可用于包含 Azure Synapse 专用 SQL 池以及 Azure Synapse 工作区中的专用 SQL 池的新的和现有 Azure SQL 逻辑服务器。 从 Visual Studio 2022 的 17.2 Preview 2 内部版本开始,SQL Server Data Tools (SSDT) 支持专用 SQL 池的列级加密。
2022 年 3 月 CETAS 的并行执行 通过使用并行执行计划,现在可以提高 CREATE TABLE AS SELECT (CETAS) 和后续 SELECT 语句的性能。 有关示例,请参阅 CETAS 和后续 SELECT 的性能更高

Azure Synapse Analytics 中以前的每月更新

以下是 Synapse Analytics 的以前每月新闻更新的格式。

2022 年 6 月更新

常规

  • 使用 Synapse Analytics 进行 Azure Orbital 分析 - 我们现在提供了一个 Azure Orbital 分析示例解决方案,用于展示如何在 Azure Synapse Analytics 中使用地理空间库和 AI 模型,端到端实现星载数据的提取、加载、转换和分析。 该示例解决方案还演示了如何集成地理空间特定的 Azure AI 服务模型、合作伙伴的 AI 模型和自带数据模型。

  • Azure Synapse 成功源于设计 - 项目的成功绝非偶然,需要经过精心的规划和执行。 Synapse Analytics 的“成功源于设计”playbook 现已推出。 Azure Synapse 概念证明 playbook 提供了界定、设计、执行和评估 SQL 或 Spark 工作负载概念证明的指南。 这些指南包含整合了 Azure Synapse 的最有挑战性、最复杂解决方案的实施最佳做法。 若要详细了解 Azure Synapse 概念证明 playbook,请阅读成功源于设计

SQL

提高了结果集大小限制 - 我们知道,你希望借助 Azure Synapse Analytics 来处理大量数据。 考虑到这一点,无服务器 SQL 池中查询结果集的最大大小已从 200 GB 增大至 400 GB。 此限制将在并发查询之间共享。 若要详细了解此项大小提限更改和其他约束,请阅读无服务器 SQL 池自助

数据集成

  • 联接转换中的模糊联接选项 - 已将带有滑动相似性评分选项的模糊匹配添加到映射数据流中的联接转换。 可以基于相似的数据值创建内部和外部联接,而无需使用完全匹配! 以前必须使用完全匹配。 滑动比例值从 60% 提高至 100%,因此可以轻松调整匹配的相似性阈值。 若要详细了解模糊联接,请阅读映射数据流中的联接转换

  • 映射数据 [正式版] - 我们很高兴地宣布,映射数据工具现已推出正式版。 映射数据工具是一个引导式过程,可帮助你创建 ETL 映射,并在不编写代码的情况下将数据流从源数据映射到 Synapse。 若要详细了解映射数据,请阅读 Azure Synapse Analytics 中的映射数据

  • 使用新参数重新运行管道 - 现在可以在从“监视”页重新运行管道时更改管道参数,而无需返回到管道编辑器。 使用新参数运行管道后,可以轻松监视新运行与旧运行的差异,而无需切换页面。 若要详细了解如何使用新参数重新运行管道,请阅读重新运行管道和活动

  • 用户定义函数 [正式版] - 我们很高兴地宣布,用户定义函数 (UDF) 现已推出正式版。 使用用户定义的函数,可以创建可跨多个映射数据流重复使用的自定义表达式。 不再需要多次使用相同的字符串操作、数学计算或其他复杂逻辑。 用户定义的函数将分组到库中,以帮助开发人员对常见函数集进行分组。 若要详细了解用户定义的函数,请阅读映射数据流中用户定义的函数

2022 年 5 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

SQL

  • 自动字符列长度计算 - 不再需要定义字符列长度! 无服务器 SQL 池使你无需事先知道架构即可查询 Data Lake 中的文件。 最佳做法是指定字符列的长度以获得最佳性能。 现在不会这样了! 借助此功能,无需定义架构,即可获得最佳查询性能。 无服务器 SQL 池将计算每个推断字符列或定义为大于 100 字节的字符列的平均列长度。 架构将保持不变,而无服务器 SQL 池将在内部使用计算的平均列长度。 如果没有以前创建的统计信息,它还会自动计算基数估计。

Apache Spark for Synapse

  • Python 中现提供适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器 - 以前,Azure Synapse 专用 SQL 池连接器仅适用于 Scala。 现在,它可以与 Spark 3 上的 Python 一起使用。 Scala 和 Python 实现之间的唯一区别是可选的 Scala 回调句柄,这允许你接收帖子写入指标。

    Spark 3 上的 Python 现在支持以下各项:

    • 使用 Azure Active Directory (AD) 身份验证或基本身份验证进行读取
    • 使用 Azure AD 身份验证或基本身份验证写入内部表
    • 使用 Azure AD 身份验证或基本身份验证写入外部表

    若要详细了解 Python 中的连接器,请阅读适用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器

  • 管理 Azure Synapse Apache Spark 配置 - Apache Spark 配置管理始终是一项具有挑战性的任务,因为 Spark 具有数百个属性。 了解 Spark 配置的最佳值也非常困难。 借助新的 Spark 配置管理功能,可以使用自动建议和内置验证规则创建独立的 Spark 配置项目。 使用 Spark 配置项目可以在 Azure Synapse 工作区中和跨工作区共享 Spark 配置。 还可以轻松地将 Spark 配置与 Spark 池、笔记本和 Spark 作业定义相关联,以便重复使用并最大程度地减少在多个位置复制 Spark 配置的需求。 若要详细了解新的 Spark 配置管理功能,请阅读管理 Apache Spark 配置

数据集成

  • 将管道监视导出为 CSV - 在收到许多社区的功能请求后,已添加将管道监视导出为 CSV 这一功能。 只需将管道运行屏幕筛选到所需数据,然后选择“导出到 CSV”*。 若要详细了解如何导出管道监视和其他监视改进,请阅读 Azure 数据工厂监视改进

  • 增量数据加载使 Synapse 和 Azure Database for PostgreSQL 和 MySQL 变得简单 - 在数据集成解决方案中,在初始完整数据加载之后增量加载数据是一种广泛使用的方案。 自动增量源数据加载现在本机可用于 Synapse SQL 和 Azure Database for PostgreSQL 和 MySQL。 用户可以“启用增量提取”,并且管道只会读取插入或更新的行。 若要了解有关增量数据加载的详细信息,请阅读将数据从源数据存储增量复制到目标数据存储

  • 用于映射数据流的用户定义函数[公共预览版] - 我们听到你自己可以多次执行相同的字符串操作、数学计算或其他复杂逻辑。 现在,使用用户定义的新函数功能,可以创建可跨多个映射数据流重复使用的自定义表达式。 用户定义的函数将分组到库中,以帮助开发人员对常见函数集进行分组。 创建数据流库后,即可在用户定义的函数中添加。 甚至可以添加多个参数,使函数更易于重用。 若要详细了解用户定义的函数,请阅读映射数据流中用户定义的函数

  • 断言错误处理 - 在断言转换后,错误处理已添加到接收器。 断言转换使你可以为数据质量和数据验证生成自定义规则。 现在可以选择是将失败的行输出到所选接收器还是输出到单独的文件中。 若要了解有关错误处理的详细信息,请阅读映射数据流中的断言数据转换

  • 映射数据流投影编辑 - 已对映射数据流中的源投影编辑进行新的 UI 更新。 现在可以更新源投影列名和列类型。 若要了解有关源投影编辑的详细信息,请阅读映射数据流中的源转换

Azure Synapse Link for SQL Server - 在 Microsoft Build 2022 上,我们宣布 Azure Synapse Link for SQL 的公共预览版可用于 SQL Server 2022 和 Azure SQL 数据库。 数据驱动的高质量见解对公司保持竞争力至关重要。 实现见解的速度不同,产生的作用也不同。 传统 ETL 和 ELT 管道成本高昂且耗时的性质已经过时。 通过此版本,现在可以利用低代码和无代码准实时数据复制,从基于 SQL 的操作存储复制到 Azure Synapse Analytics。 这样,可以更方便地在准实时的情况下对操作数据运行 BI 报告,对操作存储的影响最小。 有关详细信息,请阅读公告:Azure Synapse Link for SQL 推出公共预览版

2022 年 4 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

SQL

  • Azure Synapse SQL 的跨订阅恢复现已正式发布。 以前,将专用 SQL 池恢复到另一个订阅需要执行许多未介绍过的步骤。 现在,通过 PowerShell Az.Sql 模块 3.8 更新,Restore-AzSqlDatabase cmdlet 可用于跨订阅还原。 要了解更多信息,请参阅将专用 SQL 池(以前称为 SQL DW)还原到其他订阅

  • 现在可以从删除的服务器或工作区恢复 SQL 池。 借助 Az.Sql 和 Az.Synapse 模块中的 PowerShell 还原 cmdlet,现在可以从已删除的服务器或工作区进行还原,而无需提交支持票证。 有关详细信息,请阅读 Synapse 工作区 SQL 池独立 SQL 池(以前称为 SQL DW),具体取决于你的方案。

Synapse 数据库设计器

  • 我们添加了克隆湖数据库的选项。 这为管理新版本的数据库或支持以离散步骤发展的模式提供了更多机会。 可以使用湖数据库上可用的操作菜单快速克隆数据库。 要了解更多信息,请阅读操作方法:克隆湖数据库

  • 你现在可以使用通配符来指定自定义文件夹层次结构。 湖数据库位于湖中的数据的上层,这些数据可以存在于不适合干净分区模式的嵌套文件夹中。 以前,查询湖数据库需要你的数据存在于一个简单的目录结构中,你可以使用文件夹图标浏览该目录结构,而无需手动指定目录结构或使用通配符。 要了解更多信息,请阅读操作方法:修改数据湖

Apache Spark for Synapse

  • 我们很高兴地宣布在 Synapse Analytics 上发布了 Apache Spark ™ 3.2 的预览版。 这个新版本包含用户请求的增强功能,并解决了 1,700 多个 Jira 票证。 请查看官方发行说明以获取完整的修复和功能列表,并查看 Spark 3.1 和 3.2 之间的迁移指南,以评估可能对你的应用程序的更改。 有关详细信息,请阅读 Apache Spark 版本支持和 Azure Synapse Runtime for Apache Spark 3.2

  • 根据变量、元数据或指定管道特定参数动态分配参数一直是首要功能请求之一。 现在,随着 Spark 作业定义活动参数化的发布,你可以做到这一点。 有关更多详细信息,请参阅使用 Apache Spark 作业定义转换数据

  • 当管道笔记本运行失败或存在长时间运行的 Notebook 作业时,我们经常收到客户访问笔记本快照的请求。 随着 Synapse 笔记本快照功能的发布,你现在可以查看使用原始笔记本代码、单元格输出和输入参数运行的笔记本活动的快照。 如果通过 Spark 实用程序引用其他笔记本,则还可以从引用笔记本单元格输出访问被引用笔记本的快照。 要了解更多信息,请阅读通过运行 Synapse 笔记本转换数据Microsoft Spark 实用程序简介

安全性

  • Synapse Monitoring Operator RBAC 角色现已正式发布。 自 Synapse 正式发布以来,客户要求提供细粒度的 RBAC(基于角色的访问控制)角色,该角色让用角色能够监视 Synapse 管道和 Spark 应用程序的执行,而无需运行或取消这些应用程序的执行应用程序。 现在,客户可以将 Synapse Monitoring Operator 角色分配给此类监视角色。 这样,组织就可以保持合规,同时灵活地将任务委派给个人或团队。 阅读 Synapse RBAC 角色以了解详细信息。

数据集成

  • Azure 已将 Dataverse 作为源和接收器连接器添加到 Synapse 数据流,现在你可以生成 Synapse 中的低代码数据转换 ETL 作业直接访问你的 Dataverse 环境。 有关如何使用此新连接器的更多详细信息,请阅读映射数据流属性

  • 我们听大家说过,Web 活动的 1 分钟超时时间不够长,尤其是在同步 API 的情况下。 现在,使用响应超时属性“httpRequestTimeout”,可以为 HTTP 请求定义最长 10 分钟的超时。 通过阅读 Web 活动响应超时改进了解详细信息。

开发人员体验

  • 以前,如果想要在另一个笔记本中引用笔记本,则只能引用已发布或提交的内容。 现在,当使用 %run 笔记本时,可以启用“未发布的笔记本参考”,这将允许你引用未发布的笔记本。 启用后,笔记本运行将提取笔记本 Web 缓存中的当前内容,这意味着其他笔记本可以立即引用笔记本编辑器中的更改,而无需发布(实时模式)。 若要了解详细信息,请阅读引用未发布的笔记本

2022 年 3 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

开发人员体验

  • Synapse 笔记本中导致异常的代码单元格现在将显示标准输出以及异常消息。 此功能支持 Python 和 Scala 语言。 有关详细信息,请参阅代码语句失败时的示例输出

  • Synapse 笔记本现在支持运行代码单元格时的部分输出。 有关详细信息,请参阅此博客文章中的示例

  • 现在可以使用管道参数动态控制笔记本活动的 Spark 会话配置。 有关详细信息,请参阅 Synapse 笔记本的变量资源管理器功能。

  • 现在可以重复使用和管理笔记本会话,而无需启动新会话。 你可以轻松地将所选笔记本连接到从另一个笔记本启动的列表中的活动会话。 可以将会话与笔记本分离、停止会话并监视会话。 有关详细信息,请参阅如何管理活动笔记本会话。

  • 除了驱动程序日志以外,Synapse 笔记本现在还捕获通过 Python 日志记录模块写入的任何内容。 有关详细信息,请参阅对 Python 日志记录的支持。

SQL

  • Azure Synapse 专用 SQL 池的列级加密现已正式发布。 使用列级加密,可以对每个列使用不同的保护密钥,其中每个密钥都有其自己的访问权限。 已强制执行 CLE 的列中的数据在磁盘上加密,并在内存中保持加密状态,直到使用 DECRYPTBYKEY 函数对其进行解密。 有关详细信息,请参阅如何加密数据列

  • 无服务器 SQL 池现在支持更好的 CETAS (Create External Table as Select) 性能和后续 SELECT 查询。 性能改进包括并行执行计划,从而加快 CETAS 执行速度并输出多个文件。 有关详细信息,请参阅 Synapse SQL 提供的 CETAS 一文和博客文章

Apache Spark for Synapse

  • Synapse Spark Common Data Model (CDM) 连接器现已正式发布。 CDM 格式读取器/写入器使 Spark 程序能够通过 Spark 数据帧在 CDM 文件夹中读取和写入 CDM 实体。 若要了解详细信息,请参阅 CDM 连接器如何支持读取、写入数据、示例和已知问题

  • Synapse Spark 专用 SQL 池 (DW) 连接器现在支持改进的性能。 新的体系结构消除了冗余数据移动,并使用 COPY-INTO 而不是 PolyBase。 可以通过 SQL 基本身份验证进行身份验证,或选择使用基于 Azure Active Directory/Azure AD 的身份验证方法。 与以前的版本相比,现在提供约 5 倍的性能。 有关详细信息,请参阅用于 Apache Spark 的 Azure Synapse 专用 SQL 池连接器

  • Synapse Spark 专用 SQL 池 (DW) 连接器现在支持所有 Spark 数据帧 SaveMode 选项。 它支持 Append、Overwrite、ErrorIfExists 和 Ignore 模式。 Append 和 Overwrite 对于大规模管理数据引入至关重要。 有关详细信息,请参阅数据帧写入 SaveMode 支持

  • 使用新的智能缓存功能加快 Spark 执行速度。 此功能目前处于公开预览状态。 智能缓存功能会自动将每个读取存储在已分配的缓存存储空间中,检测基础文件更改并刷新文件以提供最新数据。 有关详细信息,请参阅如何为 Apache Spark 池启用/禁用缓存,或参阅博客文章

安全性

数据集成

2022 年 2 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

SQL

数据集成

2022 年 1 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

机器学习

对 Synapse 机器学习库 v0.9.5(以前称为 MMLSpark)的改进。 此版本简化了使用 Apache Spark 创建可大规模缩放的机器学习管道的过程。 若要了解详细信息,请阅读有关此版本中新增功能的博客文章或查看完整的发行说明

安全性

  • Azure Synapse Analytics 安全性概述 - 涵盖五个安全层的白皮书。 安全层包括身份验证、访问控制、数据保护、网络安全和威胁防护。 详细了解每一项安全功能,以实现行业标准的安全基线并保护云中的数据。

  • 新创建的 Synapse 工作区现在需要 TLS 1.2。 要了解详细信息,请通过本文博客文章了解 TLS 1.2 如何提供增强的安全性。 从使用低于 1.2 的 TLS 版本的连接登录到新创建的 Synapse 工作区的尝试将失败。

数据集成

  • 使用断言转换的数据质量验证规则 - 现可利用 Synapse 数据流中的断言转换轻松地将数据质量、数据验证和架构验证添加到 Synapse ETL 作业中。 要了解详细信息,请参阅映射数据流中的断言转换一文或博客文章

  • 适用于 Dynamics 的原生数据流连接器 - Synapse 数据流现可通过新的数据流 Dynamics 连接器直接读取数据和将其写入到 Dynamics。 通过本文博客文章详细了解如何在数据流中创建数据集以进行读取、转换、聚合、加入等。 然后,可使用内置的 Synapse Spark 计算将数据写回 Dynamics。

  • 管道表达式中添加了 IntelliSense 和自动完成功能 - 利用 IntelliSense,可以更加容易地创建和编辑表达式。 要了解详细信息,请参阅如何检查表达式语法、查找函数以及将代码添加到管道。

Synapse SQL

2021 年 12 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

Apache Spark for Synapse

机器学习

  • Synapse 机器学习库 博客文章
  • 最先进的预生成智能模型入门 博客文章
  • 使用 Synapse ML 库构建负责任的 AI 系统 博客文章
  • PREDICT 现在普遍适用于 Synapse 专用 SQL 池 博客文章
  • 使用适用于 Apache Spark for Synapse 的 PREDICT 和 MLFlow 进行可缩放的简单评分博客文章
  • 零售 AI 解决方案 博客文章

安全性

  • Synapse Pipelines 预览版现在支持用户分配的托管标识 博客文章
  • 浏览 Azure Synapse Analytics 工作区预览版中的 ADLS Gen2 文件夹 博客文章

数据集成

  • 管道失败活动 博客文章
  • 映射数据流获取新的本机连接器 博客文章
  • 更多笔记本导出格式:HTML、Python 和 LaTeX 博客
  • 笔记本视图中的三种新图表类型:盒须图、直方图和数据透视表博客
  • 重新连接到断开的笔记本会话博客

集成

  • 适用于 Dataverse 的 Azure Synapse Link 博客文章
  • 预览状态下 Synapse Link for Azure Cosmos DB 的自定义分区博客
  • 映射数据工具(公共预览版),无代码引导式 ETL 体验博客文章
  • 快速重复使用 Spark 群集博客文章
  • 外部调用转换博客文章
  • Flowlet(公共预览版)博客文章

2021 年 11 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

使用数据库和数据湖

  • 介绍湖数据库(以前称为 Spark 数据库)博客文章
  • 湖数据库设计器现已提供预览版 博客文章

SQL

  • Delta Lake 对无服务器 SQL 的支持正式发布 博客文章
  • 在无服务器 SQL 中使用 OPENROWSET 查询多个文件路径 博客文章
  • 无服务器 SQL 查询现在可以返回多达 200 GB 的结果 博客文章
  • 在无服务器 SQL 中使用 OPENROWSET 处理无效行 博客文章

Apache Spark for Synapse

机器学习

  • Synapse 机器学习库 博客文章
  • 最先进的预生成智能模型入门 博客文章
  • 使用 Synapse ML 库构建负责任的 AI 系统 博客文章
  • PREDICT 现在普遍适用于 Synapse 专用 SQL 池 博客文章
  • 使用适用于 Apache Spark for Synapse 的 PREDICT 和 MLFlow 进行可缩放的简单评分博客文章
  • 零售 AI 解决方案 博客文章

安全性

  • Synapse Pipelines 预览版现在支持用户分配的托管标识 博客文章
  • 浏览 Azure Synapse Analytics 工作区预览版中的 ADLS Gen2 文件夹 博客文章

数据集成

  • 适用于 Dataverse 的 Azure Synapse Link 博客文章
  • 预览状态下 Synapse Link for Azure Cosmos DB 的自定义分区博客

2021 年 10 月更新

以下更新是 Azure Synapse Analytics 的本月新增功能。

Apache Spark for Synapse

安全性

  • 所有 Synapse RBAC 角色现已正式发布,可供生产使用 博客文章
  • 将用户分配的托管标识用于双重加密 博客文章
  • Synapse 管理员现在具有对专用 SQL 池的提升访问权限 博客文章

集成

  • 在数据流中使用字符串化轻松地将复杂的数据类型转换为字符串 博客文章
  • 在数据流中控制 Spark 会话生存时间 (TTL) 博客文章

开发人员体验

  • Synapse 笔记本预览版中的增强 Markdown 编辑 博客文章
  • Pandas 数据帧自动呈现为格式正确的 HTML 表 博客文章
  • 在 Synapse 笔记本中使用 IPython 小组件 博客文章
  • Mssparkutils 运行时上下文现在可用于 Python 和 Scala 博客文章

后续步骤

Azure Synapse Analytics 入门