在索引编制期间要进行额外处理的技能(Azure AI 搜索)

本文介绍 Azure AI 搜索中的技能,可将这些技能包含在技能组中以便访问外部处理。

技能提供了以某种方式转换内容的原子操作。 该操作通常为识别或提取文字,但也可以是一种重新定义已经创建的扩充的实用工具技能。 通常,输出是基于文本的,因此它可以用于全文搜索矢量搜索中使用的矢量。

技能被整理为不同类别:

  • 内置技能将 API 调用包装到 Azure AI 资源中,以便于用户理解输入、输出和处理步骤。 对于调用 Azure AI 资源的技能,可以通过内部网络建立连接。 对于调用 Azure OpenAI 的技能,可以提供搜索服务用于连接到资源的连接信息。 如果只是少量处理,那么是免费的,但如果是大量处理,则需要收费。 内置技能基于 Microsoft 的预先训练模型,这意味着你无法使用自己的训练数据来训练模型。

  • 自定义技能提供了自定义代码,以在搜索服务外部执行。 可以通过 URI 访问自定义代码。 自定义代码通常通过 Azure 函数应用提供。 若要附加开源或第三方矢量化模型,请使用自定义技能。

  • 实用工具的 Azure AI 搜索内部的内部功能,不依赖于外部资源或出站连接。 大多数实用工具都是免费的。

Azure AI 资源技能

附加 AI 服务资源时,调用 Azure AI 的技能按标准预付费套餐费率计费。

OData 类型 说明 计费方式
Microsoft.Skills.Text.CustomEntityLookupSkill 在用户自定义的单词和短语列表中查找文本。 Azure AI 搜索(定价)
Microsoft.Skills.Text.KeyPhraseExtractionSkill 此技能使用预定型模型来检测基于术语放置、语言规则、与其他术语的接近度以及该术语在源数据内的异常程度的重要短语。 Azure AI 服务(定价)
Microsoft.Skills.Text.LanguageDetectionSkill 该技能使用预定型模型来检测使用语言的语言类型(每个文档一个语言 ID)。 在同一文本段中使用多种语言时,输出是主要使用的语言的 LCID。 Azure AI 服务(定价)
Microsoft.Skills.Text.V3.EntityLinkingSkill 此技能使用预先训练的模型为已识别的实体生成指向 Wikipedia 文章的链接。 Azure AI 服务(定价)
Microsoft.Skills.Text.V3.EntityRecognitionSkill 此技能使用预定型模型为一组固定的类别构建实体:"Person""Location""Organization""Quantity""DateTime""URL""Email""PersonType""Event""Product""Skill""Address""Phone Number""IP Address" 字段。 Azure AI 服务(定价)
Microsoft.Skills.Text.PIIDetectionSkill 此技能使用预先训练的模型从给定文本中提取个人信息。 此技能还提供了用于筛选文本中检测到的个人信息实体的各种选项。 Azure AI 服务(定价)
Microsoft.Skills.Text.V3.SentimentSkill 此技能使用预先训练的模型,从而根据服务在句子和文档级别逐条记录找到的最高置信度分数来分配情绪标签(例如“消极”、“中立”和“积极”)。 Azure AI 服务(定价)
Microsoft.Skills.Text.TranslationSkill 此技能使用预先训练的模型将输入文本转换为各种语言,以用于规范化或本地化用例。 Azure AI 服务(定价)
Microsoft.Skills.Vision.ImageAnalysisSkill 此技能使用图像检测算法来识别图像的内容并生成文本说明。 Azure AI 服务(定价)
Microsoft.Skills.Vision.OcrSkill 光学字符识别。 Azure AI 服务(定价)
Microsoft.Skills.Vision.VectorizeSkill 多模式图像和文本矢量化。 Azure AI 服务(定价)

Azure OpenAI 技能

调用 Azure OpenAI 上部署的模型的技能按标准预付费套餐费率计费。

OData 类型 说明 计费方式
Microsoft.Skills.Text.AzureOpenAIEmbeddingSkill 连接到 Azure OpenAI 上已部署的嵌入模型,以便进行集成矢量化。 Azure OpenAI(定价)

实用工具技能

仅在 Azure AI 搜索上执行的技能,主要在扩充缓存中的节点上循环访问,并且大部分是免费的。

OData 类型 说明 计费方式
Microsoft.Skills.Util.ConditionalSkill 允许根据条件进行筛选、分配默认值和合并数据。 不适用
Microsoft.Skills.Util.DocumentExtractionSkill 从扩充管道内的文件中提取内容。 用于图像提取的 Azure AI 搜索(定价)
Microsoft.Skills.Text.MergeSkill 将字段集合中的文本合并到单个字段中。 不适用
Microsoft.Skills.Util.ShaperSkill 将输出映射到复杂类型(多部分数据类型,可用于全名、多行地址或姓氏和个人标识符的组合)。 不适用
Microsoft.Skills.Text.SplitSkill 将文本拆分为多页,以便以增量方式扩充或增加内容。 不适用

自定义技能

自定义技能可包装外部代码,你可以设计和开发外部代码并将其部署到 Web。 然后你可以从技能组内调用模块作为自定义技能。

类型 说明 计费方式
Microsoft.Skills.Custom.WebApiSkill 通过对自定义 Web API 执行 HTTP 调用,实现 AI 扩充管道的可扩展性 无,除非你的解决方案使用计费的 Azure 服务
Microsoft.Skills.Custom.AmlSkill 允许使用 Azure 机器学习模型扩展 AI 扩充管道 无,除非你的解决方案使用计费的 Azure 服务

有关创建自定义技能的指导,请参阅定义自定义界面示例:为 AI 扩充创建自定义技能

另请参阅