Azure 视觉多模式嵌入技能

重要

根据补充使用条款，此技能以公共预览版提供。 2024-05-01-Preview REST API 和较新的预览 API 支持此功能。

Azure 视觉多模式嵌入技能使用来自 Foundry Tools 中的 Azure Vision 的多模式嵌入 API 来生成文本或图像输入的嵌入。

对于每天超过 20 个文档的事务，此技能要求将可计费的 Azure Foundry 资源附加到技能组。执行内置技能按现有的 Foundry 工具标准价格收费。 Azure AI 搜索也可以计费图像提取。

资源的位置是计费的一个考虑因素。由于使用预览版 REST API 版本创建包含预览技能的技能集，因此可以使用无键连接绕过同一区域要求。但是，对于基于密钥的连接，Azure AI 搜索和 Foundry 必须位于同一区域。确保区域兼容性：

查找支持多模式嵌入的区域。
验证区域是否提供 AI 扩充。

Foundry 资源仅用于计费目的。内容处理发生在同一地理位置的 Azure AI 搜索管理和维护的单独资源上。数据在部署资源的地理位置中进行处理。

@odata.type

Microsoft.Skills.Vision.VectorizeSkill

数据限制

有关图像和文本的 Azure 视觉文档中可以找到技能的输入限制。如果需要对文本输入进行数据分块，请考虑使用文本拆分技能。

适用的输入包括：

图像输入文件大小必须小于 20 兆字节（MB）。图像大小必须大于 10 x 10 像素，并且小于 16,000 x 16,000 像素。
文本输入字符串必须介于一个单词和 70 个单词之间。

技能参数

参数区分大小写。

输入说明

输入	说明
`modelVersion`	（必需）要传递给 Azure Vision 多模式嵌入 API 以生成嵌入的模型版本（`2023-04-15`）。仅当矢量嵌入来自同一模型类型时，才能进行比较和匹配。由一个模型矢量化的图像无法通过不同的模型进行搜索。最新的图像分析 API 提供两种模型：版本 `2023-04-15` 支持多种语言的文本搜索。 Azure AI 搜索使用此版本。仅支持英语的旧 `2022-04-11` 模型。

modelVersion

（必需）要传递给 Azure Vision 多模式嵌入 API 以生成嵌入的模型版本（2023-04-15）。仅当矢量嵌入来自同一模型类型时，才能进行比较和匹配。由一个模型矢量化的图像无法通过不同的模型进行搜索。最新的图像分析 API 提供两种模型：

版本 2023-04-15 支持多种语言的文本搜索。 Azure AI 搜索使用此版本。
仅支持英语的旧 2022-04-11 模型。

技能输入

技能定义输入包括名称、源和输入。下表提供输入名称的有效值。还可以指定递归输入。有关详细信息，请参阅 REST API 参考和创建技能集。

输入	说明
`text`	要矢量化的输入文本。如果使用数据分块，则源可能是 `/document/pages/*`。
`image`	复杂类型。当前仅适用于“/document/normalized_images”字段，当 `imageAction` 设置为非 `none` 值时由 Azure Blob 索引器生成。
`url`	下载要矢量化的图像的 URL。
`queryString`	下载要矢量化的图像的 URL 的查询字符串。如果将 URL 和 SAS 令牌存储在不同的路径中，则很有用。

只能为技能的单个实例配置 text、image 或 url/queryString 之一。如果想在同一个技能组中同时矢量化图像和文本，请在技能组定义中包含该技能的两个实例，每个实例对应你想要使用的一种输入类型。

技能输出

输出	说明
`vector`	输出输入文本或图像的浮点嵌入数组。

示例定义

对于文本输入，请考虑具有以下内容的 Blob：

{
    "content": "Forests, grasslands, deserts, and mountains are all part of the Patagonian landscape that spans more than a million square  kilometers of South America."
}

对于文本输入，技能定义可能如下所示：

{ 
    "@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill", 
    "context": "/document", 
    "modelVersion": "2023-04-15", 
    "inputs": [ 
        { 
            "name": "text", 
            "source": "/document/content" 
        } 
    ], 
    "outputs": [ 
        { 
            "name": "vector",
            "targetName": "text_vector"
        } 
    ] 
}

对于图像输入，同一技能集中的第二个技能定义可能如下所示：

{
    "@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
    "context": "/document/normalized_images/*",
    "modelVersion": "2023-04-15", 
    "inputs": [
        {
            "name": "image",
            "source": "/document/normalized_images/*"
        }
    ],
    "outputs": [
        {
            "name": "vector",
            "targetName": "image_vector"
        }
    ]
}

如果想要直接从 Blob 存储数据源向量图像，而不是在编制索引期间提取图像，技能定义应指定 URL，并且可能需要根据存储安全性指定 SAS 令牌。对于此方案，技能定义可能如下所示：

{
    "@odata.type": "#Microsoft.Skills.Vision.VectorizeSkill",
    "context": "/document",
    "modelVersion": "2023-04-15", 
    "inputs": [
        {
            "name": "url",
            "source": "/document/metadata_storage_path"
        },
        {
            "name": "queryString",
            "source": "/document/metadata_storage_sas_token"
        }
    ],
    "outputs": [
        {
            "name": "vector",
            "targetName": "image_vector"
        }
    ]
}

示例输出

对于给定的输入，将生成矢量化嵌入输出。输出为 1,024 个维度，这是 Azure 视觉多模式 API 支持的维度数。

{
  "text_vector": [
        0.018990106880664825,
        -0.0073809814639389515,
        .... 
        0.021276434883475304,
      ]
}

输出驻留在内存中。若要将此输出发送到搜索索引中的字段，必须定义一个 outputFieldMapping，用于将矢量化的嵌入输出（即数组）映射到一个矢量字段。假设技能输出驻留在文档的矢量节点中， 并且content_vector 是搜索索引中的字段，则索引器中的 outputFieldMapping 应如下所示：

  "outputFieldMappings": [
    {
      "sourceFieldName": "/document/vector/*",
      "targetFieldName": "content_vector"
    }
  ]

若要将图像嵌入映射到索引，请使用索引投影。其有效负载 indexProjections 可能类似于以下示例。 image_content_vector是索引中的字段，它填充了normalized_images数组向量中找到的内容。

"indexProjections": {
    "selectors": [
        {
            "targetIndexName": "myTargetIndex",
            "parentKeyFieldName": "ParentKey",
            "sourceContext": "/document/normalized_images/*",
            "mappings": [
                {
                    "name": "image_content_vector",
                    "source": "/document/normalized_images/*/vector"
                }
            ]
        }
    ]
}

另请参阅

Last updated on 2025-12-15

通过