在 Azure AI 搜索中为复杂数据类型建模

注意

Azure AI 搜索可通过Azure门户、REST API 和Azure SDK获取。

用于填充Azure AI 搜索索引的外部数据集可以采用许多形状。有时它们包含分层或嵌套的子结构。示例包括单个客户的多个地址、单个产品的多个颜色和大小、一本书籍的多位作者等等。在建模术语中，这些结构可能称作复杂、组合、复合或聚合数据类型。 Azure AI 搜索对这一概念的术语是 复杂类型。在Azure AI 搜索中，复杂类型使用 complex 字段建模。复杂字段是包含子级（子字段）的字段，这些子级可以是任何数据类型（包括其他复杂类型）。其工作原理类似于编程语言中的结构化数据类型。

复杂字段表示文档中的单个对象，或对象的数组，具体取决于数据类型。 Edm.ComplexType 类型的字段表示单个对象，而 Collection(Edm.ComplexType) 类型的字段表示对象的数组。

Azure AI 搜索原生支持复杂类型和集合。这些类型允许在Azure AI 搜索索引中对几乎任何 JSON 结构建模。在以前版本的 Azure AI 搜索 API 中，只能导入平展行集。在最新版本中，索引可以更密切地对应于源数据。换言之，如果源数据使用复杂类型，则索引也可以使用复杂类型。

若要开始，我们建议使用 Azure 门户中的 “导入向导” 加载 “hotels 数据集”。该向导会检测源中的复杂类型，并根据检测到的结构建议一个索引架构。

注意

从 api-version=2019-05-06 开始正式提供对复杂类型的支持。

如果你的搜索解决方案是基于以前的解决方法（集合中的平展数据集）生成的，应更改索引，使之包含最新 API 版本支持的复杂类型。有关升级 API 版本的详细信息，请参阅 Upgrade 升级到最新的 REST API 版本或 Upgrade 到最新的 .NET SDK 版本。

复杂结构的示例

以下 JSON 文档由简单字段和复杂字段构成。复杂字段（例如 Address 和 Rooms）包含子字段。 Address 包含这些子字段的单一值集，因为它是文档中的单个对象。相反，Rooms 包含其子字段的多个值集，集合中的每个对象各有一个值集。

{
  "HotelId": "1",
  "HotelName": "Stay-Kay City Hotel",
  "Description": "Ideally located on the main commercial artery of the city in the heart of Beijing.",
  "Tags": ["Free wifi", "on-site parking", "indoor pool", "continental breakfast"],
  "Address": {
    "StreetAddress": "677 5th Ave",
    "City": "Beijing",
    "StateProvince": "NY"
  },
  "Rooms": [
    {
      "Description": "Budget Room, 1 Queen Bed (Cityside)",
      "RoomNumber": 1105,
      "BaseRate": 96.99,
    },
    {
      "Description": "Deluxe Room, 2 Double Beds (City View)",
      "Type": "Deluxe Room",
      "BaseRate": 150.99,
    }
    . . .
  ]
}

创建复杂字段

与任何索引定义一样，可以使用 Azure 门户、REST API 或 .NET SDK创建包含复杂类型的架构。

其他Azure SDK提供 Python、Java 和 JavaScript 中的示例。

Azure 门户
REST
C#

在 Azure 门户中，转到你的搜索服务。
在搜索服务概述页上，选择“索引”选项卡。
打开现有索引或创建新索引。
选择“字段”选项卡，然后选择“添加字段”。添加一个空字段。如果您正在处理已存在的字段集合，请向下滚动以进行字段设置。
为字段命名，并将类型设置为 Edm.ComplexType 或 Collection(Edm.ComplexType)。
选择最右边的省略号，然后选择“添加字段”或“添加子字段”，然后分配属性。

请使用创建索引 (REST API) 以定义架构。

以下示例演示了包含简单字段、集合与复杂类型的 JSON 索引架构。在复杂类型中，每个子字段都有一个类型，并且可以具有属性，就像顶级字段一样。架构对应于以上示例数据。 Address 是一个非集合的复杂字段（一家酒店只有一个地址）。 Rooms 是复杂集合字段（一家酒店有多间客房）。

{
  "name": "hotels",
  "fields": [
    { "name": "HotelId", "type": "Edm.String", "key": true, "filterable": true },
    { "name": "HotelName", "type": "Edm.String", "searchable": true, "filterable": false },
    { "name": "Description", "type": "Edm.String", "searchable": true, "analyzer": "en.lucene" },
    { "name": "Address", "type": "Edm.ComplexType",
      "fields": [
        { "name": "StreetAddress", "type": "Edm.String", "filterable": false, "sortable": false, "facetable": false, "searchable": true },
        { "name": "City", "type": "Edm.String", "searchable": true, "filterable": true, "sortable": true, "facetable": true },
        { "name": "StateProvince", "type": "Edm.String", "searchable": true, "filterable": true, "sortable": true, "facetable": true }
      ]
    },
    { "name": "Rooms", "type": "Collection(Edm.ComplexType)",
      "fields": [
        { "name": "Description", "type": "Edm.String", "searchable": true, "analyzer": "en.lucene" },
        { "name": "Type", "type": "Edm.String", "searchable": true },
        { "name": "BaseRate", "type": "Edm.Double", "filterable": true, "facetable": true }
      ]
    }
  ]
}

使用搜索索引类以定义索引架构。

以下代码片段来自 search-dotnet-getting-started/DotNetHowTo。

在 hotels-sample 索引中， Address 是一个不是集合的复杂字段（酒店有一个地址）。 Rooms 是复杂集合字段（一家酒店有多间客房）。 Address 和 Room 均定义为类。

using Azure.Search.Documents.Indexes;

namespace AzureSearch.SDKHowTo
{
    public partial class Address
    {
        [SearchableField(IsFilterable = true)]
        public string StreetAddress { get; set; }

        [SearchableField(IsFilterable = true, IsSortable = true, IsFacetable = true)]
        public string City { get; set; }

        [SearchableField(IsFilterable = true, IsSortable = true, IsFacetable = true)]
        public string StateProvince { get; set; }

        [SearchableField(IsFilterable = true, IsSortable = true, IsFacetable = true)]
        public string PostalCode { get; set; }

        [SearchableField(IsFilterable = true, IsSortable = true, IsFacetable = true)]
        public string Country { get; set; }
    }
}

在 Hotel.cs 中，地址和房间都是 Hotel 的成员属性。

using System;
using Microsoft.Spatial;
using System.Text.Json.Serialization;
using Azure.Search.Documents.Indexes;
using Azure.Search.Documents.Indexes.Models;

namespace AzureSearch.SDKHowTo
{
    public partial class Hotel
    {
        [SimpleField(IsKey = true, IsFilterable = true)]
        public string HotelId { get; set; }

        [SearchableField(IsSortable = true)]
        public string HotelName { get; set; }

        // Removed multiple fields for brevity

        // Address is declared as type Address
        [SearchableField]
        public Address Address { get; set; }

        // Room array is declared as type Room
        public Room[] Rooms { get; set; }
    }
}

复杂集合限制

在编制索引期间，单个文档中的所有复杂集合总共最多可包含 3,000 个元素。复杂集合的元素为该集合的成员。对于“房间”（酒店示例中唯一的复杂集合），每个房间都是一个元素。在上面的示例中，如果“Stay-Kay 城市酒店”有 500 个客房，酒店文档将包含 500 个客房元素。对于嵌套的复杂集合，除了外部（父）元素之外，还计入每个嵌套元素。

此限制仅适用于复杂集合，不适用于复杂类型（如地址）或字符串集合（如标记）。

更新复杂字段

一般情况下，应用于字段的所有重建索引规则仍会应用于复杂字段。在复杂类型中添加新字段不需要重建索引，但大多数其他修改都需要重建索引。

对定义的结构更新

随时可以将新的子字段添加到复杂字段，而无需索引重建。例如，允许将“ZipCode”添加到 Address或者将“Amenities”添加到 Rooms，就如同将顶级字段添加到索引一样。在通过更新数据显式填充新字段之前，现有文档将对这些字段使用 null 值。

在复杂类型中，每个子字段都有一个类型，并且可以具有属性，就像顶级字段一样。

数据更新

对于复杂字段和简单字段而言，使用 upload 操作更新索引中现有文档的过程是相同的：将替换所有字段。然而，merge（当应用于现有文档时使用 mergeOrUpload）在所有字段的作用并不相同。具体而言，merge 不支持合并集合中的元素。基元类型集合与复杂集合存在此限制。要更新集合，需要检索整个集合值，进行更改，然后在索引 API 请求中包含新的集合。

在文本查询中搜索复杂字段

自由形式的搜索表达式可在复杂类型中正常运作。如果文档中任何位置的任何可搜索字段或子字段匹配，则文档本身就是匹配项。

如果使用多个字词或运算符，并且某些字词指定了字段名（可以使用 Lucene 语法来指定），则查询会变得更微妙。例如，此查询尝试将两个字词“Portland”和“OR”与 Address 字段的两个子字段相匹配：

search=Address/City:Portland AND Address/State:OR

此类查询对于全文搜索是不相关联的，这与筛选器不同。在筛选器中，使用 any 或 all 中的范围变量来关联复杂集合子字段上的查询。上述 Lucene 查询返回包含“Portland, Maine”和“Portland, Oregon”以及 Oregon 中其他城市的文档。之所以会发生这种情况，是因为每个子句都应用于整个文档中其字段的所有值，因此没有“当前子文档”的概念。有关详细信息，请参阅 Understanding OData 集合筛选器中的 Azure AI 搜索。

在 RAG 查询中搜索复杂字段

RAG 模式将搜索结果传递到用于生成式 AI 和聊天搜索的聊天模型。默认情况下，传递给 LLM 的搜索结果是扁平化的行集。不过，如果索引具有复杂类型，那么只要先将搜索结果转换为 JSON，然后将 JSON 传递给 LLM，查询就可以提供这些字段。

一个部分示例说明了该技术：

在提示符或查询中指示所需的字段。
请确保这些字段在索引中可搜索和检索。
选择搜索结果的字段。
将结果格式化为 JSON。
将聊天完成请求发送到模型提供程序。

有关端到端示例，请参阅 Azure AI 搜索中的经典 RAG。

选择复杂字段

$select 参数用于选择要在搜索结果中返回哪些字段。要使用此参数选择复杂字段的特定子字段，请包括父字段和用斜线 (/) 分隔的子字段。

$select=HotelName, Address/City, Rooms/BaseRate

如果希望这些字段在搜索结果中出现，必须在索引中将其标记为可检索。只有标记为可检索的字段才能在 $select 语句中使用。

用作筛选和带字段搜索的 OData 路径语法同样也可用于分面、排序和选择搜索请求中的字段。对于复杂类型，有规则控制哪些子字段可以标记为可排序或可面向。有关这些规则的详细信息，请参阅创建索引 API 参考。

分面子字段

任何子字段都可以标记为可分面，除非其类型为 Edm.GeographyPoint 或 Collection(Edm.GeographyPoint)。

分面结果中返回的文档计数是根据父文档（酒店）计算的，而不是根据复杂集合中的子文档（客房）计算的。例如，假设某家酒店有 20 间“套房”类型的客房。如果此分面参数为 facet=Rooms/Type，则分面计数为 1 家酒店，而不是 20 间客房。

排序复杂字段

排序操作将应用于文档（酒店）而不是子文档（客房）。在使用复杂类型集合（例如客房）时，您必须意识到您无法对“客房”进行排序。事实上，无法按任何集合进行排序。

当每个文档中的字段只有一个值时，无论字段是简单字段还是复杂类型中的子字段，排序操作都会正常运行。例如，允许 Address/City 可排序，因为每家酒店只有一个地址，因此 $orderby=Address/City 会按城市对酒店排序。

根据复杂字段进行筛选

可以在筛选表达式中引用复杂字段的子字段。只需使用与分面、排序和选择字段相同的 OData 路径语法。例如，以下筛选器会返回位于加拿大的所有酒店：

$filter=Address/Country eq 'Canada'

若要根据复杂集合字段进行筛选，可以使用 lambda 表达式与和运算符结合使用。在这种情况下，Lambda 表达式的范围变量是具有子字段的对象。可以使用标准 OData 路径语法来引用这些子字段。例如，以下筛选器会返回至少有一间豪华客房，且所有客房都禁止吸烟的所有酒店：

$filter=Rooms/any(room: room/Type eq 'Deluxe Room') and Rooms/all(room: not room/SmokingAllowed)

与顶级简单字段一样，仅当已在索引定义中将复杂字段的简单子字段的 filterable 属性设置为 true 时，才能在筛选器中包含这些子字段。有关详细信息，请参阅创建索引 API 参考。

复杂集合限制的解决方法

回想一下，Azure AI 搜索将集合中的复杂对象限制为每个文档 3,000 个对象。超出此限制会导致以下消息：

A collection in your document exceeds the maximum elements across all complex collections limit.
The document with key '1052' has '4303' objects in collections (JSON arrays).
At most '3000' objects are allowed to be in collections across the entire document.
Remove objects from collections and try indexing the document again."

如果需要超过 3,000 个项，可以使用竖线 (|) 或使用任何形式的分隔符来分隔值、连接这些值并将其存储为分隔字符串。数组中存储的字符串数没有限制。将复杂值存储为字符串会绕过复杂集合限制。

为了说明这一点，假设你有一个 "searchScope" 数组，其中包含超过 3,000 个元素：

"searchScope": [
  {
     "countryCode": "FRA",
     "productCode": 1234,
     "categoryCode": "C100"
  },
  {
     "countryCode": "USA",
     "productCode": 1235,
     "categoryCode": "C200"
  }
  . . .
]

将值存储为带分隔符字符串的解决方法可能如下所示：

"searchScope": [
        "|FRA|1234|C100|",
        "|FRA|*|*|",
        "|*|1234|*|",
        "|*|*|C100|",
        "|FRA|*|C100|",
        "|*|1234|C100|"
]

在搜索场景中，如果希望搜索仅包含“FRA”或“1234”或数组中其他组合的项，将所有搜索变体存储在带分隔符字符串中会有所帮助。

下面是一个用 C# 编写的筛选器格式设置代码片段，可将输入转换为可搜索字符串：

foreach (var filterItem in filterCombinations)
        {
            var formattedCondition = $"searchScope/any(s: s eq '{filterItem}')";
            combFilter.Append(combFilter.Length > 0 ? " or (" + formattedCondition + ")" : "(" + formattedCondition + ")");
        }

以下列表并排提供输入和搜索字符串（输出）：

对于“FRA”县代码和“1234”产品代码，格式化输出为 |FRA|1234|*|。
对于“1234”产品代码，格式化输出为 |*|1234|*|。
对于“C100”类别代码，格式化输出为 |*|*|C100|。

只有在实施字符串数组解决方法时才提供通配符 (*)。否则，如果使用复杂类型，筛选器可能如以下示例所示：

var countryFilter = $"searchScope/any(ss: search.in(countryCode ,'FRA'))";
var catgFilter = $"searchScope/any(ss: search.in(categoryCode ,'C100'))";
var combinedCountryCategoryFilter = "(" + countryFilter + " and " + catgFilter + ")";

如果实现解决方法，请务必广泛测试。

后续步骤

将导入向导与示例数据配合使用，指导你完成创建、加载和查询索引：

Quickstart：Azure 门户中的全文搜索

Last updated on 2026-07-27

在 Azure AI 搜索 中为复杂数据类型建模