使用Azure Data Factory或Azure Synapse Analytics向/从SQL Server复制和转换数据

适用于： Azure Data Factory Azure Synapse Analytics

本文概述了如何使用Azure Data Factory和Azure Synapse管道中的复制活动从SQL Server数据库复制数据，并使用Data Flow转换SQL Server数据库中的数据。若要了解详细信息，请阅读 Azure Data Factory 或 Azure Synapse Analytics 的介绍性文章。

支持的功能

以下功能支持此SQL Server连接器：

支持的功能	IR
Copy activity （源/接收器）	（1）（2）
映射数据流（源/汇）	①
查找活动	（1）（2）
GetMetadata 活动	（1）（2）
脚本活动	（1）（2）
存储过程活动	（1）（2）

（1） Azure集成运行时（2）自承载集成运行时

有关复制活动支持作为源或接收器的数据存储列表，请参阅支持的数据存储表。

具体而言，此SQL Server连接器支持：

SQL Server 2005及以上版本。
使用 SQL 或 Windows 身份验证复制数据。
作为源，使用 SQL 查询或存储过程检索数据。还可以选择从SQL Server数据库并行复制，有关详细信息，请参阅从SQL数据库并行复制部分。
作为接收器，根据源架构自动创建目标表（如果不存在）；在复制过程中，将数据追加到表或使用自定义逻辑调用存储过程。

不支持 SQL Server Express LocalDB。

重要

数据源必须支持 NVARCHAR 数据类型，因为它在对数据进行非通用编码时会影响数据编码。

先决条件

如果数据存储位于本地网络、Azure虚拟网络或 Amazon 虚拟私有云中，则需要配置自承载集成运行时以连接到它。

如果数据存储是托管的云数据服务，则可以使用Azure Integration Runtime。如果访问仅限于防火墙规则中批准的 IP，则可以将 Azure Integration Runtime IP 添加到允许列表。

还可以在 Azure Data Factory 中使用托管虚拟网络集成运行时功能访问本地网络，而无需安装和配置自承载集成运行时。

要详细了解网络安全机制和数据工厂支持的选项，请参阅数据访问策略。

开始

若要使用管道执行复制活动，可以使用以下工具或 SDK 之一：

使用 UI 创建SQL Server链接服务

使用以下步骤在Azure门户 UI 中创建SQL Server链接服务。

浏览到Azure Data Factory或 Synapse 工作区中的“管理”选项卡并选择“链接服务”，然后单击“新建”：
- Azure Data Factory
- Azure Synapse
搜索 SQL 并选择SQL Server连接器。
配置服务详细信息、测试连接并创建新的链接服务。

连接器配置详细信息

以下部分提供有关用于定义特定于SQL Server数据库连接器的数据工厂和 Synapse 管道实体的属性的详细信息。

链接服务属性

SQL Server Recommended 版本支持 TLS 1.3。如果使用 Legacy 版本，请参阅此部分以升级 SQL Server 链接服务。关于属性详情，请参阅对应部分。

建议的版本
旧版本

提示

如果遇到错误代码为“UserErrorFailedToConnectToSqlServer”的错误，以及“数据库的会话限制为 XXX 且已达到”的消息，请向connection string添加 Pooling=false，然后重试。

建议的版本

应用推荐版本时，SQL Server 链接服务支持以下一般属性：

属性	描述	必需
类型	type 属性必须设置为 SqlServer。	是
服务器	要连接到的 SQL Server 实例的名称或网络地址。	是
数据库	数据库的名称。	是
认证类型	用于身份验证的类型。允许的值为 SQL （默认值）、Windows 和 UserAssignedManagedIdentity（仅适用于 Azure VM 上的 SQL Server）。请转到有关特定属性和先决条件的相关身份验证部分。	是
alwaysEncryptedSettings	指定所需的 alwaysencryptedsettings 信息来启用 Always Encrypted，以使用托管标识或服务主体保护 SQL Server 中存储的敏感数据。有关详细信息，请参阅表格后面的 JSON 示例以及使用 Always Encrypted 部分。如果不指定此属性，将禁用默认的 Always Encrypted 设置。	否
加密	指示客户端和服务器之间发送的所有数据是否需要 TLS 加密。选项：必需（对于 true，默认值）/可选（对于 false）/严格。	否
trustServerCertificate	指示是否在绕过用于验证信任的证书链的情况下加密通道。	否
hostNameInCertificate	验证连接的服务器证书时要使用的主机名。如果未指定，则服务器名称用于证书验证。	否
connectVia	此集成运行时用于连接到数据存储。从先决条件部分了解更多信息。如果未指定，则使用默认Azure集成运行时。	否

有关其他连接属性，请查看下表：

属性	描述	必需
应用意图	连接到服务器时的应用程序工作负载类型。允许的值为 `ReadOnly` 和 `ReadWrite`。	否
connectTimeout	在终止尝试并生成错误之前等待与服务器建立连接的时间（以秒为单位）。	否
connectRetryCount	识别空闲连接失败后尝试的重新连接次数。该值应为介于 0 到 255 之间的整数。	否
connectRetryInterval	识别空闲连接失败后，每次重新连接尝试之间的时间（以秒为单位）。该值应为介于 1 到 60 之间的整数。	否
loadBalanceTimeout	在连接被断开之前，连接在连接池中存在的最短时间（以秒为单位）。	否
commandTimeout	在终止尝试执行命令并生成错误之前的默认等待时间（以秒为单位）。	否
integratedSecurity	允许的值为 `true` 或 `false`。指定 `false` 时，指示是否在连接中指定了 userName 和密码。指定 `true` 时，指示当前Windows帐户凭据是否用于身份验证。	否
failoverPartner	主服务器关闭时要连接到的伙伴服务器的名称或地址。	否
maxPoolSize	特定连接的连接池中允许的最大连接数。	否
minPoolSize	特定连接的连接池中允许的最小连接数。	否
multipleActiveResultSets	允许的值为 `true` 或 `false`。指定 `true` 时，应用程序可维护多重活动结果集 (MARS)。指定 `false` 时，应用程序必须先处理或取消从某一批处理生成的所有结果集，然后才能对该连接执行任何其他批处理。	否
multiSubnetFailover	允许的值为 `true` 或 `false`。如果你的应用程序要连接到不同子网上的 AlwaysOn 可用性组 (AG)，那么将此属性设置为 `true` 会加快检测和连接到当前活动服务器。	否
packetSize	用于与服务器实例通信的网络数据包的大小（字节数）。	否
池	允许的值为 `true` 或 `false`。指定 `true` 时，连接将共用。指定 `false` 时，每次请求连接时都会显式打开连接。	否

SQL 身份验证

若要使用 SQL 身份验证，除了前面部分所述的通用属性，还指定以下属性：

属性	描述	必需
userName	连接到服务器时要使用的用户名。	是
密码	与用户名对应的密码。将此字段标记为 SecureString 以安全存储它。或者，可以引用存储在 Azure Key Vault 中的机密。	否

示例：使用 SQL 身份验证

{
    "name": "SqlServerLinkedService",
    "properties": {
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SQL",
            "userName": "<user name>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

示例：在 Azure Key Vault 中使用带有密码的 SQL 身份验证

{
    "name": "SqlServerLinkedService",
    "properties": {
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SQL",
            "userName": "<user name>",
            "password": { 
                "type": "AzureKeyVaultSecret", 
                "store": { 
                    "referenceName": "<Azure Key Vault linked service name>", 
                    "type": "LinkedServiceReference" 
                }, 
                "secretName": "<secretName>" 
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

示例：使用 Always Encrypted

{
    "name": "SqlServerLinkedService",
    "properties": {
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "SQL",
            "userName": "<user name>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "alwaysEncryptedSettings": {
            "alwaysEncryptedAkvAuthType": "ServicePrincipal",
            "servicePrincipalId": "<service principal id>",
            "servicePrincipalKey": {
                "type": "SecureString",
                "value": "<service principal key>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

Windows 身份验证

若要使用 Windows authentication，除了前面部分所述的泛型属性外，还指定以下属性：

属性	描述	必需
userName	指定用户名。例如 domainname\username。	是
密码	为您已指定的用户名的用户帐户设置密码。将此字段标记为 SecureString 以安全存储它。或者，可以引用存储在 Azure Key Vault 中的机密。	是

注意

数据流不支持Windows 身份验证。

示例：使用 Windows 身份验证

{
    "name": "SqlServerLinkedService",
    "properties": {
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "Windows",
            "userName": "<domain\\username>",
            "password": {
                "type": "SecureString",
                "value": "<password>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

示例：在 Azure Key Vault 中使用 Windows 身份验证和密码

{
    "name": "SqlServerLinkedService",
    "properties": {
        "annotations": [],
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "Windows",
            "userName": "<domain\\username>",
            "password": {
                "type": "AzureKeyVaultSecret",
                "store": {
                    "referenceName": "<Azure Key Vault linked service name>",
                    "type": "LinkedServiceReference"
                },
                "secretName": "<secretName>"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

用户分配的托管标识身份验证

注意

用户分配的托管标识身份验证仅适用于 Azure VM 上的 SQL Server。

数据工厂或 Synapse 工作区可以与用户分配的托管标识相关联，该标识在向Azure中的其他资源进行身份验证时表示服务。可以在 Azure VM 上将此托管标识用于 SQL Server 身份验证。指定的工厂或 Synapse 工作区可以使用此标识访问数据库数据或从/向数据库复制数据。

要使用用户分配的托管身份身份验证，除了上一节中描述的通用属性外，还要指定以下属性：

属性	描述	必需
凭据	将用户分配的托管标识指定为凭据对象。	是

还需要执行以下步骤：

向用户分配的托管标识授予权限。
启用 Microsoft Entra 身份验证为 Azure 虚拟机上的 SQL Server。
为用户分配的托管标识创建包含的数据库用户。使用类似SQL Server Management Studio的工具，通过具有至少“ALTER ANY USER”权限的Microsoft Entra身份，连接到要复制数据的目标或源数据库。运行以下 T-SQL：
```
CREATE USER [your_resource_name] FROM EXTERNAL PROVIDER;
```
创建一个或多个用户分配的托管标识，并为用户分配的托管标识授予所需的权限，就像通常为 SQL 用户和其他用户所做的那样。运行以下代码。有关更多选项，请参阅本文档。
```
ALTER ROLE [role name] ADD MEMBER [your_resource_name];
```
为数据工厂分配一个或多个用户分配的托管标识，并为每个用户分配的托管标识创建凭据。
配置SQL Server链接服务。

示例

{
    "name": "SqlServerLinkedService",
    "properties": {
        "type": "SqlServer",
        "typeProperties": {
            "server": "<name or network address of the SQL server instance>",
            "database": "<database name>",
            "encrypt": "<encrypt>",
            "trustServerCertificate": false,
            "authenticationType": "UserAssignedManagedIdentity",
            "credential": {
                "referenceName": "credential1",
                "type": "CredentialReference"
            }
        },
        "connectVia": {
            "referenceName": "<name of Integration Runtime>",
            "type": "IntegrationRuntimeReference"
        }
    }
}

旧版本

应用旧版本时，SQL Server 链接服务支持以下通用属性：

属性	描述	必需
类型	type 属性必须设置为 SqlServer。	是
alwaysEncryptedSettings	指定所需的 alwaysencryptedsettings 信息来启用 Always Encrypted，以使用托管标识或服务主体保护 SQL Server 中存储的敏感数据。有关详细信息，请参阅使用 Always Encrypted 部分。如果不指定此属性，将禁用默认的 Always Encrypted 设置。	否
connectVia	此集成运行时用于连接到数据存储。从先决条件部分了解更多信息。如果未指定，则使用默认Azure集成运行时。	否

此 SQL Server 连接器支持以下身份验证类型。有关详细信息，请参阅相应部分。

旧版本的 SQL 身份验证
旧版 Windows 身份验证

旧版本的 SQL 身份验证

若要使用 SQL 身份验证，除了前面部分所述的通用属性，还指定以下属性：

属性	描述	必需
connectionString	指定连接到SQL Server数据库所需的connectionString信息。指定登录名作为用户名，并确保要连接的数据库映射到此登录名。	是
密码	如果要在Azure Key Vault中输入密码，请将 `password` 配置从connection string拉出。有关详细信息，请参阅在 Azure Key Vault 中存储凭据。	否

旧版本的Windows 认证

若要使用 Windows authentication，除了前面部分所述的泛型属性外，还指定以下属性：

属性	描述	必需
connectionString	指定连接到SQL Server数据库所需的connectionString信息。	是
userName	指定用户名。例如 domainname\username。	是
密码	为您已指定的用户名的用户帐户设置密码。将此字段标记为 SecureString 以安全存储它。或者，可以引用存储在 Azure Key Vault 中的机密。	是

数据集属性

有关可用于定义数据集的各部分和属性的完整列表，请参阅数据集一文。本部分提供SQL Server数据集支持的属性列表。

若要向SQL Server数据库复制数据，支持以下属性：

属性	描述	必需
类型	数据集的 type 属性必须设置为 SqlServerTable。	是
架构	架构的名称。	对于源为“否”，对于接收器为“是”
表	表/视图的名称。	对于源为“否”，对于接收器为“是”
tableName	具有架构的表/视图的名称。此属性支持后向兼容性。对于新的工作负荷，请使用 `schema` 和 `table`。	对于源为“否”，对于接收器为“是”

示例

{
    "name": "SQLServerDataset",
    "properties":
    {
        "type": "SqlServerTable",
        "linkedServiceName": {
            "referenceName": "<SQL Server linked service name>",
            "type": "LinkedServiceReference"
        },
        "schema": [ < physical schema, optional, retrievable during authoring > ],
        "typeProperties": {
            "schema": "<schema_name>",
            "table": "<table_name>"
        }
    }
}

复制活动属性

有关可用于定义活动的节和属性的完整列表，请参阅管道一文。本部分提供SQL Server源和接收器支持的属性列表。

SQL Server作为源

提示

若想通过数据分区高效地从SQL Server加载数据，请参阅从SQL数据库并行复制以获取更多详细信息。

若要从SQL Server复制数据，请将复制活动中的源类型设置为 SqlSource。复制活动的 source 节支持以下属性：

属性	描述	必需
类型	复制活动 source 节的 type 属性必须设置为 SqlSource。	是
sqlReaderQuery	使用自定义 SQL 查询读取数据。例如 `select * from MyTable`。	否
sqlReaderStoredProcedureName	此属性是从源表读取数据的存储过程的名称。最后一个 SQL 语句必须是存储过程中的 SELECT 语句。	否
storedProcedureParameters	这些参数用于存储过程。允许的值为名称或值对。参数的名称和大小写必须与存储过程参数的名称和大小写匹配。	否
隔离级别	指定 SQL 源的事务锁定行为。允许的值为：ReadCommitted、ReadUncommitted、RepeatableRead、Serializable、Snapshot 。如果未指定，则使用数据库的默认隔离级别。请参阅此文档了解更多详细信息。	否
分区选项	指定用于从SQL Server加载数据的数据分区选项。允许值包括：None（默认值）、PhysicalPartitionsOfTable 和 DynamicRange 。启用分区选项（即，不是 `None`）时，从 SQL Server 并发加载数据的并行度由复制活动中的 `parallelCopies` 设置所控制。	否
分区设置	指定数据分区的设置组。当分区选项不是 `None` 时适用。	否
在 `partitionSettings` 之下：
partitionColumnName	以整数类型、日期类型或日期/时间类型（、`int`、`smallint`、`bigint`、`date`、`smalldatetime`、`datetime` 或 `datetime2`）指定源列的名称，范围分区将使用它进行并行复制。如果未指定，系统会自动检测表的索引或主键并将其用作分区列。当分区选项是 `DynamicRange` 时适用。如果使用查询来检索源数据，请在 WHERE 子句中挂接 `?DfDynamicRangePartitionCondition` 。有关示例，请参阅从 SQL 数据库进行并行复制部分。	否
partitionUpperBound	分区范围拆分的分区列的最大值。此值用于决定分区步幅，不用于筛选表中的行。将对表或查询结果中的所有行进行分区和复制。如果未指定，复制活动会自动检测该值。当分区选项是 `DynamicRange` 时适用。有关示例，请参阅从 SQL 数据库进行并行复制部分。	否
partitionLowerBound	分区范围拆分的分区列的最小值。此值用于决定分区步幅，不用于筛选表中的行。将对表或查询结果中的所有行进行分区和复制。如果未指定，复制活动会自动检测该值。当分区选项是 `DynamicRange` 时适用。有关示例，请参阅从 SQL 数据库进行并行复制部分。	否

请注意以下几点：

如果为 SqlSource1 指定了 sqlReaderQuery，则复制活动将针对SQL Server源运行此查询以获取数据。也可通过指定 sqlReaderStoredProcedureName 和 storedProcedureParameters 来指定存储过程，前提是存储过程使用参数。
在源中使用存储过程检索数据时，请注意，如果存储过程旨在当传入不同的参数值时返回不同的架构，则从 UI 导入架构时，或通过自动创建表的功能将数据复制到 SQL 数据库时，可能会遇到故障或出现意外的结果。

示例：使用 SQL 查询

"activities":[
    {
        "name": "CopyFromSQLServer",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<SQL Server input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlSource",
                "sqlReaderQuery": "SELECT * FROM MyTable"
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

示例：使用存储过程

"activities":[
    {
        "name": "CopyFromSQLServer",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<SQL Server input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "SqlSource",
                "sqlReaderStoredProcedureName": "CopyTestSrcStoredProcedureWithParameters",
                "storedProcedureParameters": {
                    "stringData": { "value": "str3" },
                    "identifier": { "value": "$$Text.Format('{0:yyyy}', <datetime parameter>)", "type": "Int"}
                }
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

存储过程定义

CREATE PROCEDURE CopyTestSrcStoredProcedureWithParameters
(
    @stringData varchar(20),
    @identifier int
)
AS
SET NOCOUNT ON;
BEGIN
    select *
    from dbo.UnitTestSrcTable
    where dbo.UnitTestSrcTable.stringData != stringData
    and dbo.UnitTestSrcTable.identifier != identifier
END
GO

SQL Server 作为接收器

提示

详细了解将数据加载到 SQL Server 中支持的写入行为、配置和最佳做法。

若要将数据复制到 SQL Server，请将复制活动中的接收器类型设置为 SqlSink。复制活动的 sink 节支持以下属性：

属性	描述	必需
类型	复制活动的 sink 的 type 属性必须设置为 SqlSink。	是
preCopyScript	此属性指定在将数据写入SQL Server之前要运行的复制活动的 SQL 查询。每次运行复制仅调用该查询一次。可以使用此属性清除预加载的数据。	否
tableOption	指定是否根据源架构自动创建接收器表（如果不存在）。接收器指定存储过程时不支持自动创建表。允许的值为：`none`（默认值）、`autoCreate`。	否
sqlWriterStoredProcedureName	定义如何将源数据应用于目标表的存储过程的名称。此存储过程由每个批处理调用。若要执行仅运行一次且与源数据无关的操作（例如删除或截断），请使用 `preCopyScript` 属性。请参阅调用 SQL 接收器的存储过程中的示例。	否
storedProcedureTableTypeParameterName	存储过程中指定的表类型的参数名称。	否
sqlWriterTableType	要在存储过程中使用的表类型名称。复制操作将移动的数据放在具有这种表类型的临时表中，从而使其可用。然后，存储过程代码可合并复制数据和现有数据。	否
storedProcedureParameters	存储过程的参数。允许的值为名称和值对。参数的名称和大小写必须与存储过程参数的名称和大小写匹配。	否
writeBatchSize	每批要插入到 SQL 表中的行数。允许的值为表示行数的整数。默认情况下，该服务根据行大小动态确定适当的批大小。	否
writeBatchTimeout	插入、更新插入和存储过程操作在超时前完成所需的等待时间。允许的值是指时间跨度。例如，“00:30:00”表示 30 分钟。如果未指定值，则超时默认为“00:30:00”。	否
maxConcurrentConnections (最大并发连接数)	活动运行期间与数据存储建立的并发连接的上限。仅在要限制并发连接时指定一个值。	否
WriteBehavior	指定复制活动的写入行为以将数据加载到 SQL Server 数据库中。允许的值为 Insert 和 Upsert。默认情况下，服务使用 insert 来加载数据。	否
upsertSettings	指定写入行为设置的组。当 WriteBehavior 选项为 `Upsert` 时应用。	否
在 `upsertSettings` 之下：
useTempDB	指定是将全局临时表还是物理表用作 upsert 的临时表。默认情况下，该服务使用全局临时表作为临时表。值为 `true`。	否
interimSchemaName	如果使用了物理表，则指定用于创建临时表的临时架构。注意：用户需要具有创建和删除表的权限。默认情况下，临时表将具有与接收器表相同的架构。当 useTempDB 选项为 `False` 时应用。	否
密钥	指定唯一行标识的列名称。可使用单个键，也可使用一系列键。如果未指定，将使用主键。	否

示例 1：追加数据

"activities":[
    {
        "name": "CopyToSQLServer",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<SQL Server output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "SqlSink",
                "tableOption": "autoCreate",
                "writeBatchSize": 100000
            }
        }
    }
]

示例 2：在复制过程中调用存储过程

请参阅调用 SQL 接收器的存储过程，了解更多详细信息。

"activities":[
    {
        "name": "CopyToSQLServer",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<SQL Server output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "SqlSink",
                "sqlWriterStoredProcedureName": "CopyTestStoredProcedureWithParameters",
                "storedProcedureTableTypeParameterName": "MyTable",
                "sqlWriterTableType": "MyTableType",
                "storedProcedureParameters": {
                    "identifier": { "value": "1", "type": "Int" },
                    "stringData": { "value": "str1" }
                }
            }
        }
    }
]

示例 3：更新或插入数据

"activities":[
    {
        "name": "CopyToSQLServer",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<input dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<SQL Server output dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>"
            },
            "sink": {
                "type": "SqlSink",
                "tableOption": "autoCreate",
                "writeBehavior": "upsert",
                "upsertSettings": {
                    "useTempDB": true,
                    "keys": [
                        "<column name>"
                    ]
                },
            }
        }
    }
]

从 SQL 数据库进行并行复制

复制活动中的SQL Server连接器提供内置的数据分区来并行复制数据。可以在复制活动的“源”表中找到数据分区选项。

分区选项的屏幕截图

启用分区复制时，复制活动会针对SQL Server源运行并行查询，以便按分区加载数据。可以通过复制活动中的 parallelCopies 设置来控制并行度。例如，如果将 parallelCopies 设置为 4，服务会根据指定的分区选项和设置同时生成并运行四个查询，每个查询从 SQL Server 检索一部分数据。

建议使用数据分区启用并行复制，尤其是在从SQL Server加载大量数据时。下面是适用于不同方案的建议配置。将数据复制到基于文件的数据存储中时，建议将数据作为多个文件写入文件夹（仅指定文件夹名称），在这种情况下，性能优于写入单个文件。

情景	建议的设置
从包含物理分区的大型表进行完整加载。	分区选项：表的物理分区。在执行期间，该服务将自动检测物理分区并按分区复制数据。若要检查表是否有物理分区，可参考此查询。
从大型表中进行完整加载，该表没有物理分区，但有用于数据分区的整数或日期时间列。	分区选项：动态范围分区。分区列（可选）：指定用于对数据进行分区的列。如果未指定，将使用默认主键列。分区上限和分区下限（可选）：指定是否要确定分区步长。这不适用于筛选表中的行，表中的所有行都将进行分区和复制。如果未指定，则复制活动将自动检测值，这可能需要花费很长时间，具体取决于“最小值”和“最大值”。建议提供上限和下限。例如，如果分区列“ID”的值范围为 1 至 100，并且将此值的下限设置为 20、上限设置为 80，并行复制设置为 4，服务将按 4 个分区（分区的 ID 范围分别为 <=20、[21, 50]、[51, 80] 和 >=81）检索数据。
通过使用自定义查询，在没有物理分区的情况下，利用整数或日期/日期时间列进行数据分区，加载大量数据。	分区选项：动态范围分区。查询：`SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>`。分区列：指定用于对数据进行分区的列。分区上限和分区下限（可选）：指定是否要确定分区步长。这不适用于筛选表中的行，查询结果中的所有行都将进行分区和复制。如果未指定，复制活动会自动检测该值。例如，如果分区列“ID”的值范围为 1 至 100，并且将此值的下限设置为 20、上限设置为 80，并行复制设置为 4，服务将按 4 个分区（分区的 ID 范围分别为 <=20、[21, 50]、[51, 80] 和 >=81）检索数据。下面是针对不同场景的更多示例查询： 1.查询整个表： `SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition` 2.使用列选择和附加的 where 子句筛选器从表中查询： `SELECT <column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>` 3.使用子查询进行查询： `SELECT <column_list> FROM (<your_sub_query>) AS T WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>` 4.在子查询中使用分区查询： `SELECT <column_list> FROM (SELECT <your_sub_query_column_list> FROM <TableName> WHERE ?DfDynamicRangePartitionCondition) AS T`

使用分区选项加载数据的最佳做法：

选择独特的列作为分区列（如主键或唯一键），以避免数据倾斜。
如果表具有内置分区，请使用名为“表的物理分区”分区选项来提升性能。
如果使用Azure Integration Runtime复制数据，则可以设置更大的“Data Integration Units （DIU）”（>4）以利用更多的计算资源。查看此处适用的情境。
“复制并行度”可控制分区数量，将此数字设置得太大有时会损害性能，建议将此数字设置按以下公式计算的值：（DIU 或自承载 IR 节点数）*（2 到 4）。

示例：从包含物理分区的大型表进行完整加载

"source": {
    "type": "SqlSource",
    "partitionOption": "PhysicalPartitionsOfTable"
}

示例：使用动态范围分区进行查询

"source": {
    "type": "SqlSource",
    "query": "SELECT * FROM <TableName> WHERE ?DfDynamicRangePartitionCondition AND <your_additional_where_clause>",
    "partitionOption": "DynamicRange",
    "partitionSettings": {
        "partitionColumnName": "<partition_column_name>",
        "partitionUpperBound": "<upper_value_of_partition_column (optional) to decide the partition stride, not as data filter>",
        "partitionLowerBound": "<lower_value_of_partition_column (optional) to decide the partition stride, not as data filter>"
    }
}

检查物理分区的示例查询

SELECT DISTINCT s.name AS SchemaName, t.name AS TableName, pf.name AS PartitionFunctionName, c.name AS ColumnName, iif(pf.name is null, 'no', 'yes') AS HasPartition
FROM sys.tables AS t
LEFT JOIN sys.objects AS o ON t.object_id = o.object_id
LEFT JOIN sys.schemas AS s ON o.schema_id = s.schema_id
LEFT JOIN sys.indexes AS i ON t.object_id = i.object_id 
LEFT JOIN sys.index_columns AS ic ON ic.partition_ordinal > 0 AND ic.index_id = i.index_id AND ic.object_id = t.object_id 
LEFT JOIN sys.columns AS c ON c.object_id = ic.object_id AND c.column_id = ic.column_id 
LEFT JOIN sys.partition_schemes ps ON i.data_space_id = ps.data_space_id 
LEFT JOIN sys.partition_functions pf ON pf.function_id = ps.function_id 
WHERE s.name='[your schema]' AND t.name = '[your table name]'

如果表具有物理分区，你可看到“HasPartition”为“是”，如下所示。

SQL 查询结果

将数据加载到 SQL Server 的最佳做法

将数据复制到SQL Server时，可能需要不同的写入行为：

追加：我的源数据只包含新记录。
Upsert：我的源数据同时包含插入和更新操作。
覆盖：我需要每次都重新加载整个维度表。
使用自定义逻辑进行写入：在将数据最终插入目标表之前，我需要额外的处理。

有关配置步骤和最佳做法，请参阅相应的部分。

追加数据

追加数据是此SQL Server接收器连接器的默认行为。该服务执行批量插入，以有效地在表中写入数据。可以相应地在复制活动中配置源和接收器。

更新插入数据

复制活动现在支持本机加载数据到数据库临时表中，如果键存在则更新目标表中的数据，否则插入新数据。若要了解有关复制活动中更新插入设置的详细信息，请参阅 SQL Server 作为接收器。

覆盖整个表

可以在复制活动接收器中配置 preCopyScript 属性。在这种情况下，对于运行的每个复制活动，该服务首先运行脚本。然后，运行复制操作以插入数据。例如，若要使用最新数据覆盖整个表，请指定一个脚本，以先删除所有记录，然后从源批量加载新数据。

使用自定义逻辑写入数据

使用自定义逻辑写入数据的步骤与更新插入数据部分中的描述类似。如果在将源数据最终插入目标表之前需要应用额外的处理，则可先将数据加载到临时表，然后再调用存储过程活动，或者在复制活动接收器中调用存储过程来应用数据。

调用 SQL 接收器的存储过程

将数据复制到SQL Server数据库时，还可以配置和调用用户指定的存储过程，并在源表的每个批次上使用其他参数。存储过程功能利用表值参数。请注意，该服务会自动将存储过程包装到其自己的事务中，因此在存储过程内创建的任何事务都将成为嵌套事务，并且可能会影响异常处理。

当内置复制机制无法使用时，还可使用存储过程。例如，在将源数据最终插入目标表之前应用额外的处理。额外处理的示例包括合并列、查找其他值以及将数据插入多个表。

以下示例演示如何使用存储过程在 SQL Server 数据库的表中执行插入更新（upsert）操作。假设输入数据和接收器 Marketing 表各有三列：ProfileID、State 和 Category。基于 ProfileID 列执行更新插入，并仅将其应用于名为“ProductA”的特定类别。

在数据库中，使用与 sqlWriterTableType 相同的名称定义表类型。表类型的架构与输入数据返回的架构相同。

CREATE TYPE [dbo].[MarketingType] AS TABLE(
    [ProfileID] [varchar](256) NOT NULL,
    [State] [varchar](256) NOT NULL,
    [Category] [varchar](256) NOT NULL
)

在数据库中，使用与 sqlWriterStoredProcedureName 相同的名称定义存储过程。它可处理来自指定源的输入数据，并将其合并到输出表中。存储过程中的表类型的参数名称与数据集中定义的 tableName 相同。

CREATE PROCEDURE spOverwriteMarketing @Marketing [dbo].[MarketingType] READONLY, @category varchar(256)
AS
BEGIN
MERGE [dbo].[Marketing] AS target
USING @Marketing AS source
ON (target.ProfileID = source.ProfileID and target.Category = @category)
WHEN MATCHED THEN
    UPDATE SET State = source.State
WHEN NOT MATCHED THEN
    INSERT (ProfileID, State, Category)
    VALUES (source.ProfileID, source.State, source.Category);
END

按如下所示在复制活动中定义“SQL 接收器”部分：

"sink": {
    "type": "SqlSink",
    "sqlWriterStoredProcedureName": "spOverwriteMarketing",
    "storedProcedureTableTypeParameterName": "Marketing",
    "sqlWriterTableType": "MarketingType",
    "storedProcedureParameters": {
        "category": {
            "value": "ProductA"
        }
    }
}

映射数据流属性

在映射数据流中转换数据时，可以从 SQL Server 数据库读取和写入表。有关详细信息，请参阅映射数据流中的源转换和汇聚转换。

注意

若要访问本地部署的 SQL Server，需要通过专用终结点使用 Azure Data Factory 或 Synapse 工作区的 Managed Virtual Network。有关详细步骤，请参阅此教程。

源转换

下表列出了SQL Server源支持的属性。你可以在“源选项”选项卡中编辑这些属性。

名称	描述	必需	允许的值	数据流脚本属性
表	如果你选择“表”作为输入，则数据流会从数据集中指定的表提取所有数据。	否	-	-
查询	如果你选择“查询”作为输入，请指定一个用来从源提取数据的 SQL 查询，这将替代在数据集中指定的任何表。使用查询是一个好方法，它可以减少用于测试或查找的行数。不支持 Order By 子句，但你可以设置完整的 SELECT FROM 语句。还可以使用用户定义的表函数。 select * from udfGetData() 是 SQL 中的一个 UDF，它返回你可以在数据流中使用的表。查询示例：`Select * from MyTable where customerId > 1000 and customerId < 2000`	否	字符串	查询
批大小	指定批大小，以将大型数据分成多个读取操作。	否	整数	batchSize
隔离级别	选择下列隔离级别之一： - 读取已提交的内容 - 读取未提交的内容（默认） - 可重复的读取 - 可序列化 - 无（忽略隔离级别）	否	READ_COMMITTED READ_UNCOMMITTED REPEATABLE_READ SERIALIZABLE 无	隔离级别
启用增量提取	使用此选项告知 ADF 仅处理自上次执行管道以来已更改的行。	否	-	-
增量日期列	使用增量提取功能时，必须选择要用作源表中水印的日期/时间列。	否	-	-
启用本机变更数据捕获（预览）	使用此选项将 ADF 配置为仅处理自上次管道执行以来由 SQL 变更数据捕获技术捕获的增量数据。使用此选项时，包括行插入、更新和删除在内的增量数据将自动加载，而无需任何增量日期列。在 ADF 中使用此选项之前，需要在 SQL Server 上启用更改数据捕获。有关 ADF 中的此选项的详细信息，请参阅本机变更数据捕获。	否	-	-
从头开始读取	使用增量提取设置此选项将指示 ADF 在首次执行具有增量提取的管道时读取所有行。	否	-	-

提示

在映射数据流查询模式下不支持 SQL 中的公用表表达式 (CTE)，因为使用此模式的先决条件是在 SQL 查询 FROM 子句中可以使用查询，但 CTE 无法这样做。要使用 CTE，你需要使用以下查询创建存储过程：

CREATE PROC CTESP @query nvarchar(max)
AS
BEGIN
EXECUTE sp_executesql @query;
END

然后在映射数据流的源转换中使用“存储过程”模式，并设置 @query，如示例 with CTE as (select 'test' as a) select * from CTE 所示。然后，可以按预期使用 CTE。

SQL Server源脚本示例

将SQL Server用作源类型时，关联的数据流脚本为：

source(allowSchemaDrift: true,
    validateSchema: false,
    isolationLevel: 'READ_UNCOMMITTED',
    query: 'select * from MYTABLE',
    format: 'query') ~> SQLSource

接收器转换

下表列出了SQL Server接收器支持的属性。可以在“Sink 选项”选项卡中编辑这些属性。

名称	描述	必需	允许的值	数据流脚本属性
更新方法	指定数据库目标上允许哪些操作。默认设置为仅允许插入。若要更新、更新插入或删除行，需要进行“更改行”转换才能标记这些操作的行。	是	`true` 或 `false`	deletable insertable updateable upsertable
键列	对于更新、更新插入和删除操作，必须设置键列来确定要更改的行。你选取为密钥的列名称将用于后续的更新、插入或删除操作。因此，你必须选取存在于接收器映射中的列。	否	数组	密钥
跳过写入键列	如果你不希望将值写入到键列，请选择“跳过写入键列”。	否	`true` 或 `false`	skipKeyWrites
表操作	确定在写入之前是否从目标表重新创建或删除所有行。 - 无：不会对数据表执行任何操作。 - 重新创建：将删除表并重新创建表。动态创建新表时必需。 - 截断：将删除目标表中的所有行。	否	`true` 或 `false`	recreate 截断
批大小	指定每批中写入的行数。较大的批大小可提高压缩比并改进内存优化，但在缓存数据时可能会导致内存不足异常。	否	整数	batchSize
预处理和后处理 SQL 脚本	指定在将数据写入接收器数据库之前（预处理）和之后（后处理）会执行的多行 SQL 脚本。	否	字符串	preSQLs postSQLs

提示

建议将包含多个命令的单个批处理脚本拆分为多个批处理。
只有返回简单更新计数的数据定义语言 (Data Definition Language, DDL) 和数据操作语言 (Data Manipulation Language, DML) 语句可作为批处理的一部分运行。在执行批量操作中了解详情

SQL Server接收器脚本示例

将SQL Server用作接收器类型时，关联的数据流脚本为：

IncomingStream sink(allowSchemaDrift: true,
    validateSchema: false,
    deletable:false,
    insertable:true,
    updateable:true,
    upsertable:true,
    keys:['keyColumn'],
    format: 'table',
    skipDuplicateMapInputs: true,
    skipDuplicateMapOutputs: true) ~> SQLSink

SQL Server的数据类型映射

从/向SQL Server复制数据时，以下映射用于SQL Server数据类型到Azure Data Factory临时数据类型。实现数据工厂的 Synapse 管道使用相同的映射。若要了解复制活动如何将源架构和数据类型映射到接收器，请参阅架构和数据类型映射。

SQL Server数据类型	数据工厂临时数据类型
bigint	Int64
二进制	Byte[]
位	布尔
字符型	字符串、Char[]
日期	日期/时间
日期/时间	日期/时间
datetime2	日期/时间
Datetimeoffset	DateTimeOffset
十进制	十进制
FILESTREAM 属性（varbinary（max））	Byte[]
浮点数	双精度
图像	Byte[]
整数	Int32
money	十进制
nchar	字符串、Char[]
ntext	字符串、Char[]
数字	十进制
nvarchar	字符串、Char[]
实数	单精度
rowversion	Byte[]
smalldatetime	日期/时间
smallint	Int16
smallmoney	十进制
sql_variant	对象
文本消息	字符串、Char[]
时间	TimeSpan
时间戳	Byte[]
tinyint	Int16
uniqueidentifier	Guid
varbinary	Byte[]
varchar	字符串、Char[]
xml	字符串

注意

对于映射到十进制中间类型的数据类型，目前复制活动支持的精度最高为 28。如果数据需要的精度大于 28，请考虑在 SQL 查询中将其转换为字符串。

使用Azure Data Factory从SQL Server复制数据时，位数据类型将映射到布尔临时数据类型。如果数据需要保留为位数据类型，请使用包含 T-SQL CAST 或 CONVERT 的查询。

查找活动属性

若要了解有关属性的详细信息，请查看 Lookup 活动。

GetMetadata 活动属性

若要了解有关属性的详细信息，请查看 GetMetadata 活动

使用 Always Encrypted

使用 Always Encrypted 从/向SQL Server复制数据时，请执行以下步骤：

将 Column 主密钥（CMK）存储在 Azure Key Vault 中。详细了解如何使用 Azure Key Vault 配置 Always Encrypted
确保授予对存储了列主密钥 (CMK) 的密钥保管库的访问权限。有关所需的权限，请参阅此文。
创建链接服务，以使用托管标识或服务主体连接到 SQL 数据库并启用“Always Encrypted”功能。

注意

SQL Server Always Encrypted支持以下方案：

源或接收器数据存储使用托管标识或服务主体作为密钥提供程序身份验证类型。
源和接收器数据存储都使用托管标识作为密钥提供程序身份验证类型。
源和接收器数据存储都使用同一个服务主体作为密钥提供程序身份验证类型。

注意

目前，SQL Server Always Encrypted仅支持映射数据流中的源转换。

本机变更数据捕获

Azure Data Factory 可支持 SQL Server、Azure SQL DB 和 Azure SQL MI 的原生更改数据捕获功能。可以通过 ADF 映射数据流自动检测和提取 SQL 存储中的行插入、更新和删除等变更数据。在无代码映射数据流的环境中，用户可以轻松地通过将数据库添加为目标存储，实现 SQL 存储的数据复制方案。更重要的是，用户还可以在两者之间撰写任何数据转换逻辑，以便从 SQL 存储实现增量 ETL 方案。

请确保管道和活动名称保持不变，以便 ADF 可以记录检查点，从而自动从上次运行中获取更改的数据。如果更改管道名称或活动名称，检查点将重置，进而导致从头开始或是在下一次运行中开始获取现在开始的更改数据。如果要更改管道名称或活动名称，但仍保留检查点，以自动从上次运行中获取变更的数据，请使用自己的数据流活动中的检查点密钥来实现此目的。

调试管道时，此功能以相同的方式工作。请注意，在调试运行期间刷新浏览器时，检查点将重置。若对调试运行中的管道结果感到满意，可继续发布并触发管道。首次触发已发布管道时，管道将自动从头开始重启，或者立即开始获取更改数据。

在监视部分，你可以随时重新运行管道。执行此操作时，始终可从所选管道运行的上一个检查点捕获已更改的数据。

示例 1：

当你在映射数据流中直接将引用了已启用 SQL CDC 的数据集的源转换与引用了数据库的接收器转换链接起来时，SQL 源上发生的更改将自动应用到目标数据库，这样你就可以轻松实现数据库之间的数据复制场景。可以在接收器转换中使用更新方法，以选择是否允许对目标数据库进行插入、更新或删除操作。映射数据流中的示例脚本如下所示。

source(output(
		id as integer,
		name as string
	),
	allowSchemaDrift: true,
	validateSchema: false,
	enableNativeCdc: true,
	netChanges: true,
	skipInitialLoad: false,
	isolationLevel: 'READ_UNCOMMITTED',
	format: 'table') ~> source1
source1 sink(allowSchemaDrift: true,
	validateSchema: false,
	deletable:true,
	insertable:true,
	updateable:true,
	upsertable:true,
	keys:['id'],
	format: 'table',
	skipDuplicateMapInputs: true,
	skipDuplicateMapOutputs: true,
	errorHandlingOption: 'stopOnFirstError') ~> sink1

示例 2：

如果想启用 ETL 方案，而不是通过 SQL CDC 在数据库之间复制数据，则可以使用映射数据流中的表达式，包括 isInsert(1)、isUpdate(1) 和 isDelete(1) 来区分具有不同操作类型的行。以下是一个映射数据流的示例脚本，用于派生一列，其值：1 表示插入的行，2 表示更新的行，3 表示删除的行，供下游转换处理增量数据。

source(output(
		id as integer,
		name as string
	),
	allowSchemaDrift: true,
	validateSchema: false,
	enableNativeCdc: true,
	netChanges: true,
	skipInitialLoad: false,
	isolationLevel: 'READ_UNCOMMITTED',
	format: 'table') ~> source1
source1 derive(operationType = iif(isInsert(1), 1, iif(isUpdate(1), 2, 3))) ~> derivedColumn1
derivedColumn1 sink(allowSchemaDrift: true,
	validateSchema: false,
	skipDuplicateMapInputs: true,
	skipDuplicateMapOutputs: true) ~> sink1

已知限制：

ADF 仅会通过 cdc.fn_cdc_get_net_changes_ 加载 SQL CDC 的净变更。

排查连接问题

将SQL Server实例配置为接受远程连接。启动 SQL Server Management Studio，右键单击 server，然后选择 Properties。从列表中选择“连接”，并选中“允许远程连接到此服务器”复选框。

有关详细步骤，请参阅配置远程访问服务器配置选项。
启动 SQL Server Configuration Manager。展开实例的SQL Server 网络配置，然后选择Protocols for MSSQLSERVER。协议将显示在右窗格中。右键单击“TCP/IP”并选择“启用”以启用 TCP/IP 。

有关详细信息和启用 TCP/IP 协议的其他方法，请参阅启用或禁用服务器网络协议。
在同一窗口中，双击“TCP/IP”以启动“TCP/IP 属性”窗口。
切换到“IP 地址”选项卡。向下滚动到“IPAll”部分。记下“TCP 端口”的值。默认值为 1433。
在计算机上为Windows防火墙创建 rule，以允许传入流量通过此端口。
验证连接：若要使用完全限定的名称连接到 SQL Server，请使用来自其他计算机的 SQL Server Management Studio。例如 "<machine>.<domain>.corp.<company>.com,1433"。

升级SQL Server版本

若要升级 SQL Server 版本，请在 编辑链接服务页面中，在版本下选择推荐，并通过参考推荐版本的链接服务属性来配置链接服务。

建议版本和旧版本之间的差异

下表显示了使用建议版本和旧版SQL Server之间的差异。

建议的版本	旧版本
通过 `encrypt` 以 `strict` 形式支持 TLS 1.3。	不支持 TLS 1.3。

有关复制活动支持作为源和接收器的数据存储的列表，请参阅受支持的数据存储。

Last updated on 2026-04-22