共用方式為

快速入门:在 Azure 门户中创建技能集

在本快速入门中,你将了解Azure AI Search技能集如何添加光学字符识别(OCR)、图像分析、语言检测、文本合并和实体识别,以在索引中生成文本可搜索的内容。

可以在Azure门户中运行 Import 数据向导,以应用在索引编制过程中创建和转换文本内容的技能。 输入是原始数据,通常是 Azure Storage 中的 blob。 输出是包含 AI 生成的图像文本、标题和实体的可搜索索引。 然后,可以使用 Search explorer 在 Azure 门户中查询生成的内容。

在运行向导之前,请创建一些资源并上传示例文件。

先决条件

注意事项

本快速入门使用 Azure AI services 进行 AI 扩充。 由于工作负荷很小,因此在后台使用 Azure AI 服务,可免费处理多达 20 个事务。 因此,无需创建Azure AI services资源。

准备示例数据

在本部分中,你将创建一个Azure Storage容器,用于存储包含各种文件类型的示例数据,包括不能以本机格式搜索的全文文件和应用程序文件。

若要为此快速入门准备示例数据,请执行以下操作:

  1. Azure 门户中转到 Azure Storage 帐户。

  2. 在左窗格中,选择Data storage>Containers

  3. 创建容器,然后将 sample 数据上传到容器。

运行向导

运行向导:

  1. Azure 门户中,转到你的搜索服务。

  2. 在“ 概述 ”页上,选择“ 导入数据”。

    显示如何在 Azure 门户中打开导入向导的截图。

  3. 为数据源选择 Azure Blob Storage

    在 Azure 门户中 Azure Blob Storage 数据源选项的屏幕截图。

  4. 选择 关键字搜索

    Azure 门户中的关键字搜索磁贴的截图。

步骤 1:创建数据源

Azure AI Search需要连接到数据源才能进行内容引入和索引编制。 在这种情况下,数据源是Azure Storage帐户。

创建数据源:

  1. 连接到数据页上,选择Azure订阅。

  2. 选择“存储帐户”,然后选择您创建的容器。

    Azure 门户中连接到您的数据页面的屏幕截图。

  3. 选择“下一步”。

如果收到 Error detecting index schema from data source,则为向导提供支持的索引器无法连接到数据源。 数据源很可能具有安全保护。 请尝试以下解决方案,然后重新运行向导。

安全功能 解决方案
资源需要Azure角色或其访问密钥处于禁用状态。 以受信任的服务身份连接使用托管标识进行连接
资源位于 IP 防火墙后面。 为Azure AI Search和Azure门户创建入站规则
资源需要专用终结点连接。 连接专用终结点

步骤 2:添加认知技能

下一步是配置 AI 扩充以调用 OCR、图像分析和实体识别。

OCR 和图像分析适用于 Azure Blob Storage 和 Azure Data Lake Storage (ADLS) Gen2 中的 blob 以及 Microsoft OneLake 中的图像内容。 图像可以是独立文件,也可以是 PDF 或其他文件中嵌入的图像。

添加技能:

  1. 选择 “提取实体”,然后选择齿轮图标。

  2. 选中并保存以下复选框:

    • 人员

    • 位置

    • 组织

    在 Azure 门户中提取实体选项的截图。

  3. 选择 “从图像中提取文本”,然后选择齿轮图标。

  4. 选中并保存以下复选框:

    • 生成标记

    • 对内容进行分类

    Azure 门户中提取图像中文字选项的屏幕截图。

  5. 请保持选中“使用免费 Azure AI 服务资源(限制扩充)”复选框。

    示例数据由 14 个文件组成,因此 Azure AI 服务提供的 20 个事务的免费配额就足够了。

  6. 选择“下一步”。

步骤 3:配置索引

索引包含可搜索的内容。 向导通常可以通过采样数据源来创建架构。 在此步骤中,你将查看生成的架构并可能修改任何设置。

对于本快速入门,向导设置合理的默认值:

  • 默认字段基于现有 Blob 的元数据属性,以及用于扩充输出的新字段,例如 personslocationsorganizations。 数据类型从元数据和数据采样推断。

    索引定义页的屏幕截图。

  • 默认的文档键是 metadata_storage_path,因为该字段包含唯一值,因此被选中。

  • 默认字段属性基于所选技能。 例如,实体识别技能(personslocationsorganizations)创建的字段是可检索可筛选可分面可搜索。 若要查看和更改这些属性,请选择一个字段,然后选择“ 配置”字段

    可以在结果中返回可检索字段,而可搜索字段支持全文搜索。 如果要在筛选器表达式中使用字段,请使用 Filterable

    将字段标记为 “可检索 ”并不意味着该字段 必须 出现在搜索结果中。 可以使用select查询参数来控制返回的具体字段。

查看索引架构后,选择“ 下一步”。

步骤 4:跳过高级设置

该向导提供语义排名和索引计划的高级设置,这些设置超出了本快速入门的范围。 通过选择 “下一步”跳过此步骤。

步骤 5:查看和创建对象

最后一步是在search service上查看配置并创建索引、索引器和数据源。 索引器自动执行从数据源提取内容、加载索引和驱动技能集执行的过程。

要查看和创建对象:

  1. 接受默认 的对象名称前缀

  2. 查看对象配置。

    Azure 门户中对象配置页面的屏幕截图。

    AI 扩充、语义排名器和索引器计划被禁用或设置为其默认值,因为你跳过了其向导步骤。

  3. 选择“ 创建 ”以同时创建对象并运行索引器。

监视状态

可以在Azure门户中监视索引器的创建。 基于技能编制索引耗时长于基于文本编制索引,尤其是 OCR 和图像分析。

查看索引器的进度:

  1. 在左窗格中,选择 “索引器”。

  2. 从列表中选择索引器。

  3. 选择 “成功 ”(或 “失败”)以查看执行详细信息。

    索引器状态页的屏幕截图。

在本快速入门中,有一些警告,包括 Could not execute skill because one or more skill input was invalid. 此警告告知数据源中的 PNG 文件不提供实体识别的文本输入。 之所以发生这种情况,是因为上游 OCR 技能无法识别图像中的任何文本,并且无法向下游实体识别技能提供文本输入。

技能执行过程中常会出现警告。 随着你熟悉技能如何迭代处理数据,你可能会开始发现一些模式,并了解哪些警告是可以安全忽略的。

在搜索资源管理器中进行查询

查询索引:

  1. 在左窗格中,选择 “索引”。

  2. 从列表中选择索引。 如果索引包含零个文档或存储,请等待Azure门户刷新。

  3. “搜索资源管理器 ”选项卡上,输入搜索字符串,例如 satya nadella

搜索栏接受关键字、带引号的短语和运算符。 例如:"Satya Nadella" +"Bill Gates" +"Steve Ballmer"

随后会返回详细的 JSON 格式的结果,这些结果可能难以阅读,尤其是在大型文档中。 下面是在此工具中搜索的提示:

  • 切换到 JSON 视图以指定形状结果的参数。
  • 添加 select 以限制结果中的字段。
  • 添加 count 以显示匹配项数。
  • 使用 Ctrl-F 在 JSON 中搜索特定属性或术语。

“搜索资源管理器”页的屏幕截图。

以下是您可以粘贴到视图中的 JSON 数据:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "merged_content, persons"
}

提示

查询字符串区分大小写,因此如果收到“未知字段”消息,请检查“字段”或“索引定义(JSON)”以验证名称和大小写。

要点

你已创建第一个技能集,并学习了基于技能的索引的基本步骤。

我们希望你掌握的一些关键概念包括依赖关系。 技能集绑定到索引器,而索引器是与Azure相关且特定于源的。 尽管本快速入门使用 Azure Blob Storage,其他 Azure 数据源也可用。 有关详细信息,请参阅 Azure AI Search 中的 Indexers

另一个重要概念是技能作用于各种内容类型,在使用异构内容时,某些输入会被跳过。 而且,大型文件或字段可能会超出服务层级的索引器限制。 正常情况下,在发生这些事件时会看到警告。

输出将被发送到搜索索引,并且在索引过程中创建的名称-值对与索引中的单个字段之间存在映射。 向导会在内部设置扩充树并定义技能集,从而建立操作顺序和常规流。 这些步骤隐藏在向导中,但开始编写代码后,这些概念非常重要。

最后,你已了解可以通过查询索引来验证内容。 归根结底,Azure AI Search 提供了一个可搜索索引,可以使用 简单查询语法完整扩展查询语法进行查询。 包含扩充字段的索引与其他任何索引类似。 可以合并标准或自定义分析器评分配置文件同义词分面导航、地理搜索和其他 Azure AI Search 功能。

清理资源

在您自己的订阅计划中工作时,最好通过删除不再需要的资源来完成项目。 持续运行的资源可能会产生费用。

在Azure门户中,从左窗格中选择“所有资源资源组以查找和管理资源。 可以单独删除资源,也可以删除资源组以一次性删除所有资源。

如果使用免费的搜索服务,请记住,您最多只能使用三个索引、索引器和数据源。 可以 删除门户中的各个项 ,以保持在限制之下。

下一步

可以使用Azure门户、REST API 或Azure SDK来创建技能集。 使用 REST 客户端和更多示例数据试用 REST API: