Azure Synapse Analytics中专用 SQL 池的数据加载策略

传统的 SMP 专用 SQL 池通过提取、转换和加载 (ETL) 过程来加载数据。 Azure Synapse Analytics中的 Synapse SQL 使用分布式查询处理体系结构，利用计算和存储资源的可伸缩性和灵活性。

可以通过提取、加载和转换 (ELT) 过程来利用内置分布式查询处理功能，无需在加载数据之前投入资源来转换数据。

尽管专用 SQL 池支持许多加载方法，包括常用的SQL Server选项，如 bcp 和 SqlBulkCopy API，但加载数据的最快且最可缩放的方法是通过 PolyBase 外部表和 COPY 语句。

使用 PolyBase 和 COPY 语句，可以通过 T-SQL 语言访问存储在 Azure Blob 存储中的外部数据。为了在加载时获得最大的灵活性，建议使用 COPY 语句。

什么是 ELT？

提取、加载和转换 (ELT) 是指将数据从源系统提取并加载到专用 SQL 池然后再进行转换的过程。

实现 ELT 的基本步骤如下：

将源数据提取到文本文件中。
将数据放入Azure Blob 存储。
准备要加载的数据。
使用 PolyBase 或 COPY 命令将数据加载到暂存表中。
转换数据。
将数据插入生产表。

有关加载教程，请参阅从 Azure blob 存储加载数据。

1.将源数据提取到文本文件中

从源系统中取出数据的过程取决于存储位置。目标是将数据移入支持的带分隔符的文本文件或 CSV 文件。

支持的文件格式

使用 PolyBase 和 COPY 语句，可以从 UTF-8 和 UTF-16 编码的带分隔符文本文件或 CSV 文件加载数据。除了带分隔符文本文件或 CSV 文件以外，它还可以从 ORC 和 Parquet 等 Hadoop 文件格式加载数据。 PolyBase 和 COPY 语句还可以从 Gzip 和 Snappy 压缩文件加载数据。

不支持扩展的 ASCII、固定宽度格式以及 WinZip 或 XML 等嵌套格式。如果要从 SQL Server 导出，可以使用 bcp 命令行工具将数据导出到带分隔符的文本文件中。

2.将数据放入Azure Blob 存储

若要将数据登陆Azure存储中，可以将数据移到 Azure Blob 存储。不管什么位置，都应将数据存储在文本文件中。 PolyBase 和 COPY 语句可从任一位置加载数据。

可用于将数据移动到Azure Storage的工具和服务：

Azure ExpressRoute服务可增强网络吞吐量、性能和可预测性。 ExpressRoute 是一项服务，该服务通过专用专用连接将数据路由到 Azure。 ExpressRoute 连接不通过公共 Internet 路由数据。与基于公共 Internet 的典型连接相比，这些连接提供更高的可靠性、更快的速度、更低的延迟和更高的安全性。
AzCopy实用工具通过公共 Internet 将数据移动到Azure Storage。如果数据小于 10 TB，则很适合使用此工具。若要使用 AzCopy 定期执行负载，请测试网络速度，以确定是否可以接受。
Azure Data Factory （ADF）具有可在本地服务器上安装的网关。然后，可以创建管道，将数据从本地服务器移到Azure Storage。若要将数据工厂与专用 SQL 池配合使用，请参阅为专用 SQL 池加载数据。

3.准备要加载的数据

在加载存储帐户中的数据之前，可能需要对其进行准备和清理。在您的数据处于源中、导出到文本文件时，或在数据进入Azure Storage之后，都可以执行数据准备。最好是在加载过程的早期阶段处理数据。

请定义这些表格

使用 COPY 语句时，先在专用 SQL 池中定义要加载到的表。

如果使用 PolyBase，则需在加载之前在专用 SQL 池中定义外部表。 PolyBase 使用外部表来定义和访问Azure Storage中的数据。外部表类似于数据库视图。外部表包含表架构，并指向在专用 SQL 池外部存储的数据。

定义外部表涉及到指定数据源、文本文件的格式和表定义。所需的 T-SQL 语法参考文章如下：

创建外部数据源
创建外部文件格式
创建外部表

加载 Parquet 文件时，使用以下 SQL 数据类型映射：

Parquet 类型	Parquet 逻辑类型（批注）	SQL 数据类型
BOOLEAN		bit
二进制 / BYTE_ARRAY		varbinary
DOUBLE		float
FLOAT		real
INT32		int
INT64		bigint
INT96		datetime2
FIXED_LEN_BYTE_ARRAY		binary
二进制	`UTF8`	nvarchar
二进制	`STRING`	nvarchar
二进制	`ENUM`	nvarchar
二进制	`UUID`	uniqueidentifier
二进制	`DECIMAL`	decimal
二进制	`JSON`	nvarchar(MAX)
二进制	`BSON`	varbinary(MAX)
FIXED_LEN_BYTE_ARRAY	`DECIMAL`	decimal
BYTE_ARRAY	`INTERVAL`	varchar(MAX)
INT32	`INT(8, true)`	smallint
INT32	`INT(16, true)`	smallint
INT32	`INT(32, true)`	int
INT32	`INT(8, false)`	tinyint
INT32	`INT(16, false)`	int
INT32	`INT(32, false)`	bigint
INT32	`DATE`	date
INT32	`DECIMAL`	decimal
INT32	`TIME (MILLIS)`	time
INT64	`INT(64, true)`	bigint
INT64	`INT(64, false )`	decimal(20,0)
INT64	`DECIMAL`	decimal
INT64	`TIME (MILLIS)`	time
INT64	`TIMESTAMP (MILLIS)`	datetime2
复杂类型	`LIST`	varchar(max)
复杂类型	`MAP`	varchar(max)

重要

SQL 专用池目前不支持 MICROS 和 NANOS 精度的 Parquet 数据类型。
如果 Parquet 与 SQL 之间的类型不匹配，或者如果你有不受支持的 Parquet 数据类型，则可能会遇到以下错误：HdfsBridge::recordReaderFillBuffer - Unexpected error encountered filling record reader buffer: ClassCastException:...
不支持将 0-127 范围外的值加载到 Parquet 和 ORC 文件格式的 tinyint 列中。

有关创建外部对象的示例，请参阅创建外部表。

设置文本文件的格式

使用 PolyBase 时，定义的外部对象需要使文本文件中的行与外部表和文件格式定义相符。文本文件的每一行中的数据必须与表定义相符。

设置文本文件的格式：

如果数据来自非关系源，则需要将其转换为行与列。不管数据来自关系源还是非关系源，都必须转换数据，使之与数据预期要载入到的表的列定义相符。
设置本文件中数据的格式，使之与目标表中的列和数据类型相符。外部文本文件与专用 SQL 池表中的数据类型不相符会导致系统在加载期间拒绝行。
使用终止符分隔文本文件中的字段。请务必使用源数据中不包含的字符或字符序列。使用通过 CREATE EXTERNAL FILE FORMAT 指定的终止符。

4.使用 PolyBase 或 COPY 语句加载数据

最佳做法是将数据载入临时表。使用临时表可以处理错误且不干扰生产表。临时表还为您提供了在将数据插入生产表之前，利用专用 SQL 池的并行处理架构进行数据转换的机会。

加载选项

若要加载数据，可以使用下列任一加载选项：

COPY 语句是推荐使用的加载实用工具，因为它可以无缝且灵活地加载数据。该语句具有许多 PolyBase 不提供的其他加载功能。若要运行示例教程，请参阅纽约州出租车 COPY 教程。
具有 T-SQL 的 PolyBase 要求定义外部数据对象。
PolyBase 和 COPY 语句与 Azure Data Factory（ADF）是另一种编排工具。它定义管道并计划作业。
具有 SSIS 的PolyBase在源数据处于SQL Server中时效果良好。 SSIS 定义源到目标表的映射，同时可协调负载。如果您已经有 SSIS 包，可以将这些包修改以适配新的数据仓库目标。
使用 Azure Databricks 的 PolyBase 将数据从表传输到 Databricks 数据帧，和/或使用 PolyBase 将数据从 Databricks 数据帧写入表。

查看可用的教程：

Tutorial：使用 Microsoft Entra ID 加载外部数据
教程：使用托管标识加载外部数据
教程：加载纽约出租车数据集
Tutorial：将数据加载到 Azure Synapse Analytics SQL 池
将 Contoso 零售数据加载到 Azure Synapse Analytics

其他加载选项

除 PolyBase 和 COPY 语句以外，还可以使用 bcp 或 SqlBulkCopy API。 bcp 实用工具直接加载到数据库，而无需通过 Azure Blob 存储，仅适用于小型负载。

注意

这些选项的加载性能低于 PolyBase 和 COPY 语句。

5.转换数据

在数据已进入临时表时，请执行工作负载所需的转换。然后将数据移到生产表。

6.将数据插入生产表

INSERT INTO ...SELECT 语句将数据从临时表移到永久表。

设计 ETL 过程时，请尝试针对一个较小的测试示例运行该过程。尝试将 1,000 行从表提取到文件，将其移动到Azure，然后尝试将其加载到临时表中。

下一步

数据加载最佳做法

Last updated on 2026-05-08