文本合并认知技能

项目
2024/06/14

“文本合并”技能会将字符串数组中的文本合并到单个字段中。

备注

此技能不会绑定到 Azure AI 服务。它不可计费，并且没有 Azure AI 服务密钥要求。

@odata.type

Microsoft.Skills.Text.MergeSkill

技能参数

参数区分大小写。

参数名称	说明
`insertPreTag`	每次插入之前要包含的字符串。默认值为 `" "`。要忽略空格，请将值设置为 `""`。
`insertPostTag`	每次插入后要包含的字符串。默认值为 `" "`。要忽略空格，请将值设置为 `""`。

技能输入

输入名称	说明
`itemsToInsert`	要合并的字符串数组。
`text`	（可选）要插入的主文本正文。如果未提供 `text`，则将串联 `itemsToInsert` 的元素。
`offsets`	（可选）`text` 中应插入 `itemsToInsert` 的位置数组。如果提供，则 `text` 的元素数目必须等于 `textToInsert` 的元素数目。否则，所有项都将追加到 `text` 的末尾。

技能输出

输出名称	说明
`mergedText`	生成的合并文本。
`mergedOffsets`	`mergedText` 中应插入 `itemsToInsert` 元素的位置数组。

示例输入

为此技能提供可用输入的 JSON 文档有：

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "text": "The brown fox jumps over the dog",
        "itemsToInsert": ["quick", "lazy"],
        "offsets": [3, 28]
      }
    }
  ]
}

示例输出

此示例显示之前输入的输出，假设将 insertPreTag 设置为 " "并将 insertPostTag 设置为 ""。

{
  "values": [
    {
      "recordId": "1",
      "data":
      {
        "mergedText": "The quick brown fox jumps over the lazy dog"
      }
    }
  ]
}

扩展的示例技能集定义

使用文本合并的一个常见场景是将图像的文本表示形式（OCR 技能中的文本或图像的描述文字）合并到文档的内容字段中。

以下示例技能使用 OCR 技能从文档中嵌入的图像中提取文本。接下来，它会创建 merged_text 字段以包含每个图像的原始和 OCRed 文本。可在此处了解有关 OCR 技能的详细信息。

{
  "description": "Extract text from images and merge with content text to produce merged_text",
  "skills":
  [
    {
      "description": "Extract text (plain and structured) from image.",
      "@odata.type": "#Microsoft.Skills.Vision.OcrSkill",
      "context": "/document/normalized_images/*",
      "defaultLanguageCode": "en",
      "detectOrientation": true,
      "inputs": [
        {
          "name": "image",
          "source": "/document/normalized_images/*"
        }
      ],
      "outputs": [
        {
          "name": "text"
        }
      ]
    },
    {
      "@odata.type": "#Microsoft.Skills.Text.MergeSkill",
      "description": "Create merged_text, which includes all the textual representation of each image inserted at the right location in the content field.",
      "context": "/document",
      "insertPreTag": " ",
      "insertPostTag": " ",
      "inputs": [
        {
          "name":"text", 
          "source": "/document/content"
        },
        {
          "name": "itemsToInsert", 
          "source": "/document/normalized_images/*/text"
        },
        {
          "name":"offsets", 
          "source": "/document/normalized_images/*/contentOffset" 
        }
      ],
      "outputs": [
        {
          "name": "mergedText", 
          "targetName" : "merged_text"
        }
      ]
    }
  ]
}

以上示例假设存在规范化的图像字段。要获取规范化的图像字段，请将索引器定义中的 imageAction 配置设置为 generateNormalizedImages，如下所示：

{
  //...rest of your indexer definition goes here ...
  "parameters":{
    "configuration":{
        "dataToExtract":"contentAndMetadata",
        "imageAction":"generateNormalizedImages"
    }
  }
}

未来属于你

通过

@odata.type

技能参数

技能输入

技能输出

示例输入

示例输出

扩展的示例技能集定义

另请参阅

通过

文本合并认知技能

@odata.type

技能参数

技能输入

技能输出

示例输入

示例输出

扩展的示例技能集定义

另请参阅

其他资源