如何将历史数据引入 Azure 数据资源管理器

载入Azure 数据资源管理器时常见的情况是引入历史数据，有时称为回填。此过程涉及将数据从现有存储系统引入到表中，该表是由区段组成的集合。

通过使用 creationTime 引入属性引入历史数据，将盘区创建时间设置为创建数据的时间。通过将创建时间用作引入分区标准，数据可以按照缓存和保留策略老化，并使时间筛选器更高效。

默认情况下，盘区创建时间设置为引入数据的时间，这可能不产生预期的行为。例如，假设你有一个表，其缓存期为 30 天，保留期为 2 年。在正常流中，生成的数据会缓存 30 天，然后移动到冷存储。两年后，旧数据会根据其创建时间逐日删除。但是，如果你引入两年的历史数据，默认情况下，数据会被标记为创建时间，即数据被引入的时间。此行为可能不会产生所需的结果，因为：

所有数据都进入缓存并保留 30 天，使用的缓存比预期的要多。
较旧的数据不会一天移除一次；因此，数据在群集中保留的时间超过必要时间，并且在两年后一次性全部移除。
以前按源系统中的日期分组的数据现在可能在同一范围内进行批处理，从而导致查询效率低下。

该图显示使用默认创建时间引入历史数据的预期结果与实际结果。

在本文中，你将学习如何对历史数据进行分区：

creationTime在引入期间使用引入属性（建议）

如果可能，通过使用 creationTime 摄取属性摄取历史数据，可以利用该属性从文件或 Blob 路径中提取信息，以设置盘区的创建时间。如果文件夹结构不使用创建日期模式，请重构文件或 Blob 路径以反映创建时间。使用此方法可将数据引入到具有正确创建时间的表中，并正确应用缓存和保留期。

注意

默认情况下，分片按其创建（引入）时间进行分区，在大多数情况下，不需要设置数据分区策略。
在引入后使用分区策略

如果无法使用 creationTime 引入属性，例如，如果使用无法控制创建时间的 Azure Cosmos DB 连接器引入数据，或者无法重新构造文件夹结构，则可以使用分区策略对引入后的表进行重新分区，以实现相同的效果。但是，此方法可能需要一些试用和错误来优化策略属性，并且效率低于使用 creationTime 引入属性。仅在无法使用 creationTime 引入属性时才使用此方法。

先决条件

Microsoft 帐户或 Microsoft Entra 用户标识。不需要 Azure 订阅。
Azure 数据资源管理器集群和数据库。创建群集和数据库。
一个存储帐户。
如需在引入期间使用 creationTime 引入属性的建议方法，请安装 LightIngest。

引入历史数据

在引入期间使用引入属性对 creationTime 历史数据进行分区。如果无法使用该方法，可以使用分区策略在导入后重新分区表。

引入期间（建议）
摄取后

LightIngest 可用于将历史数据从现有存储系统加载到 Azure 数据资源管理器。虽然可以使用命令行参数列表生成自己的命令，但本文介绍如何通过引入向导自动生成此命令。除了创建命令，还可以使用此过程创建新表并创建架构映射。此工具从数据集推断架构映射。

目标

在 Azure 数据资源管理器 Web UI 中，从左侧菜单中选择Query。
右键单击要在其中引入数据的数据库，然后选择 LightIngest。

“引入数据”窗口随即打开，其中的“目标”选项卡处于选中状态。系统会自动填充“群集”和“数据库”字段。
选择目标表。若要将数据引入新表，请选择“ 新建表”，然后输入表名称。

注意

表名最多可包含 1,024 个字符，包括空格、字母数字字符、连字符和下划线。不支持特殊字符。
选择“下一步: 源”。

Source

在“选择源”下，选择“添加 URL”或“选择容器”。
- 添加 URL 时，在 “链接到源”下，将帐户密钥或 SAS URL 指定到容器。可以手动或自动创建 SAS URL。
- 从存储帐户中选择容器时，请从下拉菜单中选择 存储订阅、 存储帐户和容器。
注意

引入支持的最大文件大小为 6 GB。建议引入 100 MB 到 1 GB 的文件。
选择 “高级设置” ，使用 LightIngest 为引入过程定义其他设置。

在“高级配置”面板中，根据下表定义 LightIngest 设置。

高级配置窗格的屏幕截图，其中显示了涉及工具 LightIngest 的引入处理的其他设置。

属性	说明
创建时间模式	指定要使用一种模式覆盖所创建区段的引入时间属性，例如根据容器的文件夹结构应用日期。另请参阅创建时间模式。
Blob 名称模式	指定用于识别要引入的文件的模式。引入与给定容器中的 blob 名称模式匹配的所有文件。支持通配符。将模式括在双引号中。
标记	分配给引入数据的标记。标记可以是任意字符串。
限制文件数量	指定要引入的文件数。导入符合 blob 名称模式的首批 `n` 文件，最多至指定数量。
不要等待摄取完成	如果设置此属性，则在不监视引入过程的情况下将 blob 排队引入。如果未设置，LightIngest 将继续持续检查引入进度，直到引入完成。
仅显示所选项目	列出容器中的文件，但不引入这些文件。

选择“完成”，返回到“源”选项卡。
1. 根据需要，选择“文件筛选器”筛选数据，以仅引入特定文件夹路径中的文件或带有特定文件扩展名的文件。
  
  默认情况下，会随机选择容器中的其中一个文件，用于生成表的架构。
2. （可选）在 架构定义文件下，指定要使用的文件。
选择“下一步: 架构”以查看和编辑表列配置。

架构

“架构”选项卡提供数据的预览。

要生成 LightIngest 命令，请选择“下一步: 开始引入”。

（可选）您可以：

通过从下拉菜单中选择所需格式来更改自动推断的数据格式。
更改自动推断的映射名称。可以使用字母数字字符和下划线。不支持空格、特殊字符和连字符。
使用现有表时，如果表架构与所选格式匹配，可以保留当前表架构。
选择“命令查看器”以查看和复制基于输入生成的自动命令。
编辑列。在“部分数据预览”下，选择列下拉菜单以更改表的各个方面。

以下参数决定了你可在表中进行的更改：

表类型为“新”或“现有”
映射类型为“新”或“现有”

表类型	映射类型	可进行的调整
新建表	新映射	更改数据类型，重命名列，新建列，删除列，更新列，升序排序，降序排序
现有表	新映射	新建列（你随后可在其上更改数据类型、进行重命名和更新），更新列，升序排序，降序排序
	现有映射	升序排序，降序排序

注意

添加新列或更新列时，可更改映射转换。有关详细信息，请参阅映射转换

引入

当表、映射和 LightIngest 命令显示绿色复选标记时，选择“生成”命令框右上角的复制图标以复制生成的 LightIngest 命令。

注意

如果需要，可以通过选择“下载 LightIngest”来下载 LightIngest 工具。
要完成引入过程，必须使用此复制的命令运行 LightIngest。

步骤 1：准备重新分区

调整保留策略以保留旧数据。在以下示例中，将表 MyTable 的保留策略设置为 10 年。
```
.alter-merge table MyTable policy retention softdelete = 3650d recoverability = enabled
```
调整缓存策略，使所有数据在重新分区时都位于热缓存中，因为只有在被引入后进入热缓存的数据才能进行重新分区。在以下示例中，将表 MyTable 的缓存设置为 10 年。
```
.alter table MyTable policy caching hot = 3650d
```
重要

增加缓存策略可能会使用比正常作更多的热缓存，并可能导致成本增加。

步骤 2：启动重新分区

创建分区策略，按名为 Timestamp 的列对数据进行分区。在以下示例中，将表 MyTable 的分区策略设置为按命名 Timestamp列进行分区。
```
.alter table MyTable policy partitioning
```
{
  "EffectiveDateTime" : "1970-01-01T00:00:00",
  "PartitionKeys": [
    {
      "ColumnName": "Timestamp",
      "Kind": "UniformRange",
      "Properties": {
        "Reference": "1970-01-01T00:00:00",
        "RangeSize": "1.00:00:00",
        "OverrideCreationTime": true
      }
    }
  ]
}
```
```
有关分区策略属性的信息，请参阅分区属性。对于历史引入，如何设置以下属性非常重要：
- 将 EffectiveDateTime 属性设置为早于引入开始日期以触发重新分区。
- 将 RangeSize 设置为一天，以便将数据重新分区到一天的存储桶中。但是，将此值设置为与数据保持一致。例如，如果每天的数据量少于几个 GB，请考虑设置更大的值。
- 将 OverrideCreationTime 设置为 true ，以便在将数据重新分区为日存储桶后，将数据范围标记为该日的创建时间。
设置合并策略以允许合并所有盘区，包括超过 14 天的盘区。设置此策略是因为重新分区过程会创建超过 14 天的区段，而默认情况下合并过程会排除这些区段。
```
.alter table MyTable policy merge
```
{
  "Lookback": {
    "Kind": "HotCache"
  }
}
```
```
使用 .show 数据库分区统计信息命令监视重新分区进度。在返回的结果中，查找要重新分区的表，并监视 PartitionedRowPercentage 列。当 PartitionedRowPercentage 列的值为 100时，表示重新分区已完成。

步骤 3：在重新分区后进行清理

重新分区完成后，清理在前面的步骤中设置的策略。

移除分区策略。

.delete table MyTable policy partitioning

移除合并策略。
```
.delete table MyTable policy merge
```

移除或设置缓存策略。

// Remove the caching policy
.delete table MyTable policy caching
// OR set the caching policy to your desired value
.alter table MyTable policy caching hot = 90d

移除或设置保留策略。

// Remove the retention policy
.delete table MyTable policy retention
// OR set the retention policy to your desired value
.alter-merge table MyTable policy retention softdelete = 30d recoverability = enabled

在 Azure 数据资源管理器中查询数据

Last updated on 2026-05-06

如何将历史数据引入 Azure 数据资源管理器

先决条件

引入历史数据

目标

Source

架构

引入

相关内容

其他资源