Azure SQL 托管实例的数据虚拟化

适用于：Azure SQL 托管实例

本文介绍 Azure SQL 托管实例的数据虚拟化功能。数据虚拟化允许对以 Azure Data Lake Storage Gen2 或 Azure Blob 存储中的常见数据格式存储数据的文件执行 Transact-SQL（T-SQL）查询。可以使用联接将此数据与本地存储的关系数据合并。借助数据虚拟化，可以在只读模式下以透明方式访问外部数据，同时使其保持原始格式和位置。

概述

数据虚拟化提供了两种方法来查询适用于不同方案集的文件：

OPENROWSET 语法：针对文件临时查询进行了优化。通常用于快速浏览一组新文件的内容和结构。
CREATE EXTERNAL TABLE 语法：使用相同语法对文件的重复查询进行了优化，就像将数据存储在数据库中本地一样。与 OPENROWSET 语法相比，外部表需要几个准备步骤，但允许对数据访问进行更多的控制。将外部表用于分析工作负荷和报告。

在任一情况下，都使用 CREATE EXTERNAL DATA SOURCE T-SQL 语法创建外部数据源，如本文所示。

CREATE EXTERNAL TABLE AS SELECT 语法也可用于 Azure SQL 托管实例。这是将 T-SQL SELECT 语句的结果导出到 Azure Blob 存储或 Azure 数据湖存储 (ADLS) Gen 2 中的 Parquet 或 CSV 文件，并在这些文件上创建外部表。

文件格式

直接支持 (CSV) 文件格式的 Parquet 和分隔文本。通过指定 CSV 文件格式（其中的查询以单独的行形式返回每个文档），间接支持 JSON 文件格式。可以使用 JSON_VALUE 和 OPENJSON 进一步分析行。

存储类型

将文件存储在 Azure Data Lake Storage Gen2 或 Azure Blob 存储中。若要查询文件，请以特定格式提供位置，并使用与外部源和终结点或协议的类型相对应的位置类型前缀，例如以下示例：

--Blob Storage endpoint
abs://<container>@<storage_account>.blob.core.chinacloudapi.cn/<path>/<file_name>.parquet

--Data Lake endpoint
adls://<container>@<storage_account>.dfs.core.chinacloudapi.cn/<path>/<file_name>.parquet

重要

提供的位置类型前缀用于选择通信的最佳协议，并使用特定存储类型提供的任何高级功能。禁止使用泛型 https:// 前缀。始终使用特定于终结点的前缀。

开始

如果你不熟悉数据虚拟化并想要快速测试功能，请首先查询 Azure 开放数据集中可用的公共数据集，例如允许匿名访问的必应 COVID-19 数据集。

使用以下终结点查询必应 COVID-19 数据集：

Parquet： abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet
CSV： abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.csv

要快速开始，请运行 T-SQL 查询以初步了解数据集。此查询使用 OPENROWSET 查询存储在公开可用的存储帐户中的文件：

--Quick query on a file stored in a publicly available storage account:
SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/bing_covid-19_data.parquet',
 FORMAT = 'parquet'
) AS filerows

可以通过根据第一个查询的结果集追加WHEREGROUP BY和其他子句来继续浏览数据集。

如果第一个查询在 SQL 托管实例上失败，该实例可能会限制对 Azure 存储帐户的访问权限。与网络专家交谈，在继续查询之前启用访问权限。

熟悉查询公共数据集时，请考虑切换到需要提供凭据、授予访问权限和配置防火墙规则的非公共数据集。在许多实际方案中，你主要使用专用数据集进行作。

访问非公共存储帐户

登录到 SQL 托管实例的用户必须有权访问和查询存储在非公共存储帐户中的文件。授权步骤取决于 SQL 托管实例向存储帐户进行身份验证的方式。身份验证类型和任何相关参数不会直接随每个查询一起提供。存储在用户数据库中的数据库作用域凭据对象封装了此信息。每当执行查询时，数据库都使用凭据访问存储帐户。

Azure SQL 托管实例支持以下两种身份验证类型：

托管标识
共享访问签名（SAS）

托管的标识
共享访问签名

托管标识是 Microsoft Entra ID（以前称为 Azure Active Directory）的一项功能，它通过 Microsoft Entra ID 中托管的标识提供 Azure 服务（如 Azure SQL 托管实例）。可以使用此标识来授权非公共存储帐户中的数据访问请求。 Azure SQL 托管实例等服务具有系统分配的托管标识，还可以具有一个或多个用户分配的托管标识。可以将系统分配的托管标识或用户分配的托管标识用于 Azure SQL 托管实例的数据虚拟化。

Azure 存储管理员必须先向托管标识授予访问数据的权限。向 SQL 托管实例的系统分配的托管标识授予权限的方式与向任何其他Microsoft Entra 用户授予权限的方式相同。例如：

在 Azure 门户中，在存储帐户的“访问控制(IAM)”页中，选择“添加角色分配”。
选择“存储 Blob 数据读取者”内置的 Azure RBAC 角色。此角色为必要的 Azure Blob 存储容器提供对托管标识的读取访问权限。
- 你还可以授予对一部分文件的更精细权限，而不是向托管标识授予“存储 Blob 数据读取者”Azure RBAC 角色。需要访问此数据中读取单个文件的所有用户，还必须对从根目录（容器）到所有父文件夹具有执行权限。有关详细信息，请参阅 Azure Data Lake Storage Gen2 中的设置 ACL。
在下一页上，选择“将访问权限分配到托管标识”。选择 “+ 选择成员”，然后在 “托管标识 ”下拉列表下，选择所需的托管标识。有关详细信息，请参阅使用 Azure 门户分配 Azure 角色。
然后，为托管身份认证创建数据库范围的凭据。请注意，在下面的示例中，'Managed Identity' 是硬编码的字符串。

-- Optional: Create MASTER KEY if it doesn't exist in the database:
-- CREATE MASTER KEY ENCRYPTION BY PASSWORD = '<Some Very Strong Password Here>'
GO
CREATE DATABASE SCOPED CREDENTIAL MyCredential
WITH IDENTITY = 'Managed Identity'

共享访问签名 (SAS) 提供对存储帐户中的文件的委托访问权限。 SAS 可以精细控制授予的访问权限类型，包括有效期间隔、已授予的权限和可接受的 IP 地址范围。创建后，无法撤销或删除 SAS 令牌。 SAS 令牌允许访问，直到其有效期到期。

可以通过多种方式获取 SAS 令牌：

导航到 Azure 门户 -Your_Storage_Account> -<>> 共享访问签名 -> 配置权限 -> 生成 SAS 和连接字符串。有关详细信息，请参阅生成共享访问签名。
使用 Azure 存储资源管理器创建和配置 SAS。
通过 PowerShell、Azure CLI、.NET 和 REST API 以编程方式创建 SAS 令牌。有关详细信息，请参阅使用共享访问签名 (SAS) 授予对 Azure 存储资源的有限访问权限。

通过 SAS 授予“读取”和“列表”访问外部数据的权限。目前，Azure SQL 托管实例的数据虚拟化是只读的。

生成 SAS 令牌时，它会在令牌开头包含问号（?）。若要使用令牌，请在创建凭据时删除问号（?）。例如：

-- Optional: Create MASTER KEY if it doesn't exist in the database:
-- CREATE MASTER KEY ENCRYPTION BY PASSWORD = '<Some Very Strong Password Here>'
GO
CREATE DATABASE SCOPED CREDENTIAL MyCredential
WITH IDENTITY = 'SHARED ACCESS SIGNATURE',
SECRET = 'sv=2018-03-28&ss=bfqt&srt=sco&sp=rwdlacup&se=2019-04-18T20:42:12Z&st=2019-04-18T12:42:12Z&spr=https&sig=lQHczNvrk1Ko3VYEIq78%3D'

外部数据源

外部数据源是一种抽象概念，可以在多个查询中轻松引用文件的位置。若要查询公共位置，请在创建外部数据源时指定文件位置：

CREATE EXTERNAL DATA SOURCE MyExternalDataSource
WITH (
    LOCATION = 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest'
)

若要访问非公共存储帐户，请指定位置和引用具有封装身份验证参数的数据库作用域凭据。以下脚本创建了一个外部数据源，该数据源指向文件路径，并引用了一个数据库作用域凭据：

-- Create external data source that points to the file path, and that references a database scoped credential:
CREATE EXTERNAL DATA SOURCE MyPrivateExternalDataSource
WITH (
    LOCATION = 'abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest'
        CREDENTIAL = [MyCredential];
)

使用 OPENROWSET 查询数据源

OPENROWSET语法允许即时临时查询，同时仅创建所需最少数量的数据库对象。

OPENROWSET 只需要创建外部数据源（可能还有凭据），不需要创建外部表，后者需要外部文件格式和“外部表”本身。

DATA_SOURCE参数值自动预置到 BULK 参数，以形成文件的完整路径。

使用 OPENROWSET时，提供文件的格式，例如以下示例，用于查询单个文件：

SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'bing_covid-19_data.parquet',
 DATA_SOURCE = 'MyExternalDataSource',
 FORMAT = 'parquet'
) AS filerows;

查询多个文件和文件夹

OPENROWSET命令还允许使用大容量路径中的通配符查询多个文件或文件夹。

以下示例使用纽约市黄色出租车行程记录公开数据集。

首先，创建外部数据源：

--Create the data source first:
CREATE EXTERNAL DATA SOURCE NYCTaxiExternalDataSource
WITH (LOCATION = 'abs://nyctlc@azureopendatastorage.blob.core.windows.net');

现在，可以查询文件夹中具有 .parquet 扩展名的所有文件。例如，以下查询仅适用于与名称模式匹配的文件：

--Query all files with .parquet extension in folders matching name pattern:
SELECT TOP 10 *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows;

查询多个文件或文件夹时，使用单个 OPENROWSET 访问的所有文件必须具有相同的结构(如列数和数据类型相同）。不能以递归方式遍历文件夹。

架构推理

如果你不了解文件架构，自动架构推理有助于快速编写查询，并浏览数据。架构推理仅适用于 parquet 文件。

虽然方便，但推断的数据类型可能大于实际数据类型，因为源文件中可能没有足够的信息来确保使用适当的数据类型。这可能导致查询性能不佳。例如，parquet 文件不包含有关最大字符列长度的元数据，因此实例将其推断为 varchar（8000）。

使用 sp_describe_first_results_set 存储过程检查查询的结果数据类型，如以下示例：

EXEC sp_describe_first_result_set N'
 SELECT
 vendorID, tpepPickupDateTime, passengerCount
 FROM
 OPENROWSET(
  BULK ''yellow/*/*/*.parquet'',
  DATA_SOURCE = ''NYCTaxiExternalDataSource'',
  FORMAT=''parquet''
 ) AS nyc';

了解数据类型后，使用 WITH 子句指定它们以提高性能：

SELECT TOP 100
 vendorID, tpepPickupDateTime, passengerCount
FROM
OPENROWSET(
 BULK 'yellow/*/*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT='PARQUET'
 )
WITH (
vendorID varchar(4), -- we're using length of 4 instead of the inferred 8000
tpepPickupDateTime datetime2,
passengerCount int
) AS nyc;

由于 CSV 文件的架构无法自动确定，因此始终使用 WITH 子句指定列：

SELECT TOP 10 id, updated, confirmed, confirmed_change
FROM OPENROWSET(
 BULK 'bing_covid-19_data.csv',
 DATA_SOURCE = 'MyExternalDataSource',
 FORMAT = 'CSV',
 FIRSTROW = 2
)
WITH (
 id int,
 updated date,
 confirmed int,
 confirmed_change int
) AS filerows;

文件元数据函数

查询多个文件或文件夹时，可以使用 filepath() 和 filename() 函数读取文件元数据，并获取结果集中的行所源自的文件的部分路径或完整路径和文件名称：

--Query all files and project file path and file name information for each row:
SELECT TOP 10 filerows.filepath(1) as [Year_Folder], filerows.filepath(2) as [Month_Folder],
filerows.filename() as [File_name], filerows.filepath() as [Full_Path], *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet') AS filerows;
--List all paths:
SELECT DISTINCT filerows.filepath(1) as [Year_Folder], filerows.filepath(2) as [Month_Folder]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet') AS filerows;

如果在不使用参数的情况下调用 filepath() 函数，此函数将返回行的来源文件的路径。在 DATA_SOURCE 中使用 OPENROWSET 时，它返回相对于 DATA_SOURCE 的路径，否则返回完整文件路径。

如果在使用参数的情况下调用此函数，此函数将返回与该参数中指定的位置上的通配符相匹配的路径部分。例如，参数值 1 返回与第一个通配符匹配的路径的一部分。

filepath()函数还可用于筛选和聚合行：

SELECT
 r.filepath() AS filepath
 ,r.filepath(1) AS [year]
 ,r.filepath(2) AS [month]
 ,COUNT_BIG(*) AS [rows]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
DATA_SOURCE = 'NYCTaxiExternalDataSource',
FORMAT = 'parquet'
 ) AS r
WHERE
 r.filepath(1) IN ('2017')
 AND r.filepath(2) IN ('10', '11', '12')
GROUP BY
 r.filepath()
 ,r.filepath(1)
 ,r.filepath(2)
ORDER BY
 filepath;

基于 OPENROWSET 创建视图

你可以创建和使用视图来包装 OPENROWSET 查询，以便可以轻松地重复使用基础查询：

CREATE VIEW TaxiRides AS
SELECT *
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows

还可以使用 filepath() 函数轻松将带有文件位置数据的列添加到视图中，以便进行更简单、更高效的筛选。使用视图可以减少文件数和数据量，视图顶部的查询需要在按其中任何列进行筛选时读取和处理：

CREATE VIEW TaxiRides AS
SELECT *
 , filerows.filepath(1) AS [year]
 , filerows.filepath(2) AS [month]
FROM OPENROWSET(
 BULK 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = 'NYCTaxiExternalDataSource',
 FORMAT = 'parquet'
) AS filerows

视图还启用报表和分析工具（如 Power BI）来使用 OPENROWSET 的结果。

外部表

外部表封装对文件的访问，因此查询它们感觉与查询存储在用户表中的本地关系数据几乎相同。若要创建外部表，需要准备好外部数据源和外部文件格式对象：

--Create external file format
CREATE EXTERNAL FILE FORMAT DemoFileFormat
WITH (
 FORMAT_TYPE=PARQUET
)
GO

--Create external table:
CREATE EXTERNAL TABLE tbl_TaxiRides(
 vendorID VARCHAR(100) COLLATE Latin1_General_BIN2,
 tpepPickupDateTime DATETIME2,
 tpepDropoffDateTime DATETIME2,
 passengerCount INT,
 tripDistance FLOAT,
 puLocationId VARCHAR(8000),
 doLocationId VARCHAR(8000),
 startLon FLOAT,
 startLat FLOAT,
 endLon FLOAT,
 endLat FLOAT,
 rateCodeId SMALLINT,
 storeAndFwdFlag VARCHAR(8000),
 paymentType VARCHAR(8000),
 fareAmount FLOAT,
 extra FLOAT,
 mtaTax FLOAT,
 improvementSurcharge VARCHAR(8000),
 tipAmount FLOAT,
 tollsAmount FLOAT,
 totalAmount FLOAT
)
WITH (
 LOCATION = 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = NYCTaxiExternalDataSource,
 FILE_FORMAT = DemoFileFormat
);
GO

创建外部表后，可以像查询任何其他表一样对其进行查询：

SELECT TOP 10 *
FROM tbl_TaxiRides;

同样 OPENROWSET，外部表支持使用通配符查询多个文件和文件夹。但是，外部表不支持架构推理。

性能注意事项

文件数或可以查询的数据量没有硬性限制，但查询性能取决于数据量、数据格式、数据组织方式以及查询和联接的复杂性。

查询分区数据

数据通常组织在子文件夹中，也称为分区。可以指示 SQL 托管实例仅查询特定文件夹和文件。此操作可减少查询需要读取和处理的文件数量和数据量，从而提高性能。这种类型的查询优化称为分区修剪或分区清除。可以使用查询子句中的filepath()元数据函数WHERE消除查询执行的分区。

下面的示例查询仅读取 2017 年最后三个月纽约市黄色出租车的数据文件：

SELECT
    r.filepath() AS filepath
    ,r.filepath(1) AS [year]
    ,r.filepath(2) AS [month]
    ,COUNT_BIG(*) AS [rows]
FROM OPENROWSET(
        BULK 'yellow/puYear=*/puMonth=*/*.parquet',
        DATA_SOURCE = 'NYCTaxiExternalDataSource',
        FORMAT = 'parquet'
    )
WITH (
    vendorID INT
) AS [r]
WHERE
    r.filepath(1) IN ('2017')
    AND r.filepath(2) IN ('10', '11', '12')
GROUP BY
    r.filepath()
    ,r.filepath(1)
    ,r.filepath(2)
ORDER BY
    filepath;

如果存储的数据未分区，请考虑将数据分区以提高查询性能。

如果使用的是外部表，filepath() 和 filename() 函数是支持的，但不支持在 WHERE 子句中使用。你仍然可以通过使用计算列中的 filename 或 filepath 进行筛选，如以下示例所示：

CREATE EXTERNAL TABLE tbl_TaxiRides (
 vendorID VARCHAR(100) COLLATE Latin1_General_BIN2,
 tpepPickupDateTime DATETIME2,
 tpepDropoffDateTime DATETIME2,
 passengerCount INT,
 tripDistance FLOAT,
 puLocationId VARCHAR(8000),
 doLocationId VARCHAR(8000),
 startLon FLOAT,
 startLat FLOAT,
 endLon FLOAT,
 endLat FLOAT,
 rateCodeId SMALLINT,
 storeAndFwdFlag VARCHAR(8000),
 paymentType VARCHAR(8000),
 fareAmount FLOAT,
 extra FLOAT,
 mtaTax FLOAT,
 improvementSurcharge VARCHAR(8000),
 tipAmount FLOAT,
 tollsAmount FLOAT,
 totalAmount FLOAT,
 [Year]  AS CAST(filepath(1) AS INT), --use filepath() for partitioning
 [Month]  AS CAST(filepath(2) AS INT) --use filepath() for partitioning
)
WITH (
 LOCATION = 'yellow/puYear=*/puMonth=*/*.parquet',
 DATA_SOURCE = NYCTaxiExternalDataSource,
 FILE_FORMAT = DemoFileFormat
);
GO

SELECT *
      FROM tbl_TaxiRides
WHERE
      [year]=2017
      AND [month] in (10,11,12);

如果存储的数据未分区，请考虑将数据分区以提高查询性能。

统计信息

收集外部数据的统计信息对于查询优化而言是最重要的操作之一。实例对数据了解得越多，执行查询的速度就越快。 SQL 引擎查询优化器是基于成本的优化器。此优化器会对各种查询计划的成本进行比较，并选择成本最低的计划。在大多数情况下，所选计划也是执行速度最快的计划。

自动创建统计信息

Azure SQL 托管实例会分析传入的用户查询，确定是否缺少统计信息。如果缺少统计信息，查询优化器会在查询谓词或联接条件中各个列上自动创建统计信息，以改进查询计划的基数估计。自动创建统计信息的过程是以同步方式完成的，因此，如果列中缺少统计信息，查询性能可能会轻微下降。为单个列创建统计信息所耗用的时间取决于目标文件的大小。

OPENROWSET 手动统计信息

可以使用存储过程OPENROWSET为路径创建单列统计信息，方法是通过将仅包含一个列的选择查询作为参数传递：

EXEC sys.sp_create_openrowset_statistics N'
SELECT pickup_datetime
FROM OPENROWSET(
 BULK ''abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/*.parquet'',
 FORMAT = ''parquet'') AS filerows
';

默认情况下，实例使用数据集中提供的 100% 的数据创建统计信息。你可以选择使用 TABLESAMPLE 选项指定样本大小作为百分比。若要为多个列创建单列统计信息，请为每个列执行 sys.sp_create_openrowset_statistics。不能为 OPENROWSET 路径创建多列统计信息。

若要更新现有统计信息，请先使用 sys.sp_drop_openrowset_statistics 存储过程将其删除，然后使用 sys.sp_create_openrowset_statistics 重新创建：

EXEC sys.sp_drop_openrowset_statistics N'
SELECT pickup_datetime
FROM OPENROWSET(
 BULK ''abs://public@pandemicdatalake.blob.core.windows.net/curated/covid-19/bing_covid-19_data/latest/*.parquet'',
 FORMAT = ''parquet'') AS filerows
';

外部表手动统计信息

用于在外部表上创建统计信息的语法与用于普通用户表的语法相似。若要基于某个列创建统计信息，需要提供统计信息对象的名称和列的名称：

CREATE STATISTICS sVendor
ON tbl_TaxiRides (vendorID)
WITH FULLSCAN, NORECOMPUTE;

WITH选项是必需的，对于示例大小，允许的选项为百分之 FULLSCAN 和 SAMPLE n。

若要为多个列创建单列统计信息，请为每个列执行 CREATE STATISTICS。
不支持多列统计信息。

疑难解答

当 SQL 托管实例无法访问文件位置时，查询执行通常会出现问题。相关的错误消息可能会报告访问权限不足、不存在的位置、其他进程正在使用的文件或无法列出该目录。在大多数情况下，这些错误表示网络流量控制策略阻止访问文件或用户缺少访问权限。检查以下项：

错误或错误键入的位置路径。
SAS 密钥有效性。它可能已过期，包含拼写错误，或以问号开头。
允许的 SAS 密钥权限。至少读取，如果使用了通配符，则需要列出。
阻止了存储帐户上的入站流量。有关详细信息，请查看管理 Azure 存储的虚拟网络规则，并确保允许从 SQL 托管实例 VNet 进行访问。
托管身份访问权限。确保实例的托管身份标识有权限访问存储帐户。
数据库的兼容级别必须为 130 或更高级别，数据虚拟化查询才能正常工作。

创建外部表作为 SELECT（CETAS）

CREATE EXTERNAL TABLE AS SELECT （CETAS）允许将数据从 SQL 托管实例导出到外部存储帐户。可以使用 CETAS 在 Azure Blob 存储或 Azure Data Lake Storage （ADLS） Gen2 中的 Parquet 或 CSV 文件的基础上创建外部表。 CETAS 还可以将 T-SQL SELECT 语句的结果并行导出到创建的外部表中。由于这些功能存在数据外泄风险，因此 Azure SQL 托管实例默认禁用 CETAS。若要启用，请参阅 CREATE EXTERNAL TABLE AS SELECT (CETAS)。

限制

外部表不支持行级别安全功能。
无法为外部表中的列定义动态数据掩码规则。

已知问题

在 SQL Server Management Studio (SSMS) 中启用 Always Encrypted 参数化时，数据虚拟化查询将失败，并显示“Incorrect syntax near 'PUSHDOWN'”错误消息。

Last updated on 2026-01-07