在知识存储中定义投影

注意

Azure AI 搜索可通过Azure门户、REST API 和Azure SDK获取。

注意

知识存储 是 Azure 存储中存在的辅助存储，包含 Azure AI 搜索技能集的输出。它们独立于在代理检索工作流中使用的知识源和知识库。

投影是知识存储定义的组件，用于确定 AI 扩充内容如何存储在 Azure 存储中。投影决定了包含内容的数据结构的类型、数量和组成。

本文介绍每种投影类型的语法：

表投影
对象投影
文件投影

记住，投影是在技能集的knowledgeStore属性中定义的。

"knowledgeStore" : {
    "storageConnectionString": "DefaultEndpointsProtocol=https;AccountName=<Acct Name>;AccountKey=<Acct Key>;",
    "projections": [
      {
        "tables": [ ],
        "objects": [ ],
        "files": [ ]
      }
    ]
}

如果在入门之前需要更多背景知识，请查看此检查列表，了解提示和工作流。

提示

开发投影时，请启用扩充缓存（预览版），以便在编辑投影定义时重用现有扩充。扩充缓存是一项预览功能，请务必对索引器请求使用预览版 REST API。如果不进行缓存，对投影的简单编辑将导致完全重新处理丰富的内容。通过缓存增强功能，可以在不产生任何技能集处理费用的情况下循环访问投影映射。

要求

所有投影都有源属性和目标属性。源始终是技能组执行期间创建的扩充树中的内部内容。目标对象是在 Azure 存储中创建并进行填充的外部对象的名称和类型。

除仅接受二进制图像的文件投影外，源必须是：

有效的 JSON
在扩展树中到达节点的路径（例如，"source": "/document/objectprojection"）

虽然节点可以解析为单个字段，但更常见的表示形式是引用复杂形状。复杂形状是通过整形方法（整形程序技能或内联整形定义）创建的，但通常是通过整形程序技能创建。形状的字段或元素决定了容器和表格中的字段。

整形程序技能之所以受欢迎，是因为它输出 JSON，而大多数技能本身不会输出有效的 JSON。在许多情况下，由 Shaper 技能创建的数据形状可以同样适用于表投影和对象投影。

根据给定的源输入要求，了解如何修整数据成为了投影定义的实际要求，尤其是在使用表时。

定义表投影

建议为需要数据探索的场景定义表投影，例如使用 Power BI 进行分析或处理数据帧的工作负载。投影数组的表部分是想要投影的表的列表。

要定义表投影，请在投影属性中使用 tables 数组。表投影具有三个必需属性：

属性	说明
表名称	决定在 Azure 表存储中创建的新表名称。
生成的密钥名称	可唯一标识每个行的键的列名。值由系统生成。如果省略此属性，则会自动创建一个列，该列使用表名和“key”作为命名约定。
源	扩展树中通向节点的路径。节点应该是对复杂形状的引用，该形状决定了将在表中创建的列。

在表投影中，“源”通常是定义表形状的Shaper 技能的输出。表具有行和列，整形是指定行和列的机制。可以使用塑形技能或内联形状。整形程序技能可生成有效的 JSON，但源可以是任何技能的输出，只要是有效的 JSON 即可。

注意

表投影受限于 Azure 存储施加的存储限制。实体大小不能超过 1 MB，单个属性不能大于 64 KB。这些约束使得表成了用于存储大量小型实体的适当解决方案。

单个表格示例

表的架构部分由投影（表名和键）以及提供表形状（列）的源指定。此示例只显示一个表，以便你可以专注于定义的详细信息。

"projections" : [
  {
    "tables": [
      { "tableName": "Hotels", "generatedKeyName": "HotelId", "source": "/document/tableprojection" }
    ]
  }
]

列派生自“来源”。包含 HotelId、HotelName、Category 和 Description 的以下数据形状将导致在表中创建这些列。

{
    "@odata.type": "#Microsoft.Skills.Util.ShaperSkill",
    "name": "#3",
    "description": null,
    "context": "/document",
    "inputs": [
    {
        "name": "HotelId",
        "source": "/document/HotelId"
    },
    {
        "name": "HotelName",
        "source": "/document/HotelName"
    },
    {
        "name": "Category",
        "source": "/document/Category"
    },
    {
        "name": "Description",
        "source": "/document/Description"
    },
    ],
    "outputs": [
    {
        "name": "output",
        "targetName": "tableprojection"
    }
    ]
}

多表（切片）示例

表投影的常见模式是具有多个相关的表，其中创建了系统生成的 partitionKey 和 rowKey 列，以支持同一个投影组下所有表的跨表关系。

如果要控制如何聚合相关数据，则创建多个表非常有用。如果扩充内容具有无关或独立的组件，例如，从文档中提取的关键字可能与同一文档中识别的实体无关，则可以将这些字段拆分为相邻表。

投影到多个表时，完整形状将被投影到每个表中，除非子节点是同组中另一个表的源。添加投影时，如果源路径是现有投影的子路径，将导致子节点从父节点中提取出来，并投影到新的相关表中。使用此方法，可以定义一个Shaper技能中的单个节点，该节点即可作为所有投影的源。

多个表的模式包括：

一个表，作为父表或主表
用于包含扩充内容切片的其他表

例如，假设Shaper技能输出一个包含酒店信息的“EnrichedShape”，以及关键短语、位置和组织等扩展内容。主表将包括描述酒店的字段（ID、名称、说明、地址和类别）。关键短语将生成关键短语列。实体将生成实体列。

"projections" : [
  {
    "tables": [
    { "tableName": "MainTable", "generatedKeyName": "HotelId", "source": "/document/EnrichedShape" },
    { "tableName": "KeyPhrases", "generatedKeyName": "KeyPhraseId", "source": "/document/EnrichedShape/*/KeyPhrases/*" },
    { "tableName": "Entities", "generatedKeyName": "EntityId", "source": "/document/EnrichedShape/*/Entities/*" }
    ]
  }
]

命名关系

generatedKeyName 和 referenceKeyName 属性用于关联表之间的数据，甚至可以关联投影类型之间的数据。子表中的每一行都有一个指向父表的属性。子级中的列或属性名称由父级的 referenceKeyName 指定。如果未提供 referenceKeyName，服务默认使用来自父级的 generatedKeyName。

Power BI 依赖于这些生成的键来发现表中的关系。如果需要以不同的方式命名子表中的列，请在父表中设置 referenceKeyName 属性。例如，将 generatedKeyName 设置为 tblDocument 表的 ID，并将 referenceKeyName 设置为 DocumentID。这会导致包含文档 ID 的 tblEntities 和 tblKeyPhrases 表中的列被命名为 DocumentID。

定义对象投影

对象投影是可以从任何节点获取的增益树的 JSON 表现形式。与表投影相比，对象投影的定义更简单，并且在投影整个文档时使用。对象投影限制为容器中的单个投影，并且无法切片。

要定义对象投影，请在投影属性中使用 objects 数组。对象投影具有三个必需属性：

属性	说明
存储容器	决定在 Azure 存储中创建的新容器的名称。
生成的密钥名称	可唯一标识每个行的键的列名。值由系统生成。如果省略此属性，则会自动创建一个列，该列使用表名和“key”作为命名约定。
源	扩充树中作为投影根的节点的路径。此节点通常是对决定 Blob 结构的复杂数据形状的引用。

以下示例将各个酒店文档投影到名为 hotels 的容器（每个 Blob 一个酒店文档）中。

"knowledgeStore": {
  "storageConnectionString": "an Azure storage connection string",
  "projections" : [
    {
      "tables": [ ]
    },
    {
      "objects": [
        {
        "storageContainer": "hotels",
        "source": "/document/objectprojection",
        }
      ]
    },
    {
        "files": [ ]
    }
  ]
}

源是Shaper技能"objectprojection" 的输出。每个 Blob 都有每个字段输入的 JSON 表示形式。

    {
      "@odata.type": "#Microsoft.Skills.Util.ShaperSkill",
      "name": "#3",
      "description": null,
      "context": "/document",
      "inputs": [
        {
          "name": "HotelId",
          "source": "/document/HotelId"
        },
        {
          "name": "HotelName",
          "source": "/document/HotelName"
        },
        {
          "name": "Category",
          "source": "/document/Category"
        },
        {
          "name": "keyPhrases",
          "source": "/document/HotelId/keyphrases/*"
        },
      ],
      "outputs": [
        {
          "name": "output",
          "targetName": "objectprojection"
        }
      ]
    }

定义文件投影

文件投影始终是经过标准化处理的二进制图像，其中标准化是指为了实现特定技能集而可能进行的调整（如大小重设和旋转）。文件投影与对象投影类似，在 Azure 存储中创建为 blob，并且包含二进制数据（而不是 JSON）。

要定义文件投影，请在投影属性中使用 files 数组。文件投影具有三个必需属性：

属性	说明
存储容器	决定在 Azure 存储中创建的新容器的名称。
生成的密钥名称	可唯一标识每个行的键的列名。值由系统生成。如果省略此属性，则会自动创建一个列，该列使用表名和“key”作为命名约定。
源	扩充树中作为投影根的节点的路径。对于图像文件，源始终为 `/document/normalized_images/*`。文件投影仅作用于 `normalized_images` 集合。索引器和技能集都无法处理原始的非规范化图像。

目标总是一个 blob 容器，其中文件夹前缀为文档 ID 的 base64 编码值。如果有多个图像，它们将放在同一文件夹中。文件投影不能与对象投影共享同一个容器，需要将其投影到不同的容器。

以下示例将从已扩充文档的文档节点提取的所有规范化图像投影到名为 myImages 的容器。

"projections": [
    {
        "tables": [ ],
        "objects": [ ],
        "files": [
            {
                "storageContainer": "myImages",
                "source": "/document/normalized_images/*"
            }
        ]
    }
]

测试预测

可以执行以下步骤来处理投影：

将知识存储的 storageConnectionString 属性设置为有效的 V2 常规用途存储帐户连接字符串。
通过在技能组的主体中使用投影定义发出 PUT 请求来更新技能组。
运行索引器，使技能集开始执行。
监视索引器执行，以检查进度并捕获任何错误。
使用 Azure 门户验证 Azure 存储中的对象创建。
如果要投影表，请将它们导入到 Power BI 中进行表操作和可视化。在大多数情况下，Power BI 会自动发现表之间的关系。

常见问题

忽略以下的任一步骤可能会导致意外的结果。如果输出看起来不正确，请检查是否存在以下情况。

字符串扩展未转换为有效的 JSON。扩充字符串后（例如，使用关键短语扩充 merged_content），扩充的属性将表示为扩充树中 merged_content 的子级。默认的表示形式不是适当格式的 JSON。在投影时，请确保将扩充转换为包含名称和值的有效 JSON 对象。使用 Shaper 技能或定义内联形状有助于解决这一问题。
省略源路径末尾的 /*。如果投影的源是 /document/projectionShape/keyPhrases，则关键字短语数组将投影为单个对象/行。请改为将源路径设置为 /document/projectionShape/keyPhrases/*，以便为每个关键短语生成单个行或对象。
路径语法错误。路径选择器是区分大小写的，如果不使用选择器的确切大小写，可能会触发“缺少输入”警告。

后续步骤

后续步骤将指导你对丰富的技能组的输出进行修整和投影。如果你的技能组很复杂，以下文章提供了形状和投影的示例。

形状和投影的详细示例

Last updated on 2026-07-27