Compartir a través de

快速入门:在 Azure 门户中创建技能组

重要

导入数据(新建)向导现在支持关键字搜索,该关键字搜索以前仅在导入数据向导中可用。 建议使用新向导来改进搜索体验。 有关如何合并向导的详细信息,请参阅 Azure 门户中的导入数据向导

在本快速入门中,你将了解 Azure AI 搜索中的技能集如何添加光学字符识别(OCR)、图像分析、语言检测、文本合并和实体识别,以在索引中生成文本可搜索的内容。

可以在 Azure 门户中运行 导入数据(新) 向导,以应用在编制索引期间创建和转换文本内容的技能。 输入是原始数据,通常是 Azure 存储中的 Blob。 输出是包含 AI 生成的图像文本、标题和实体的可搜索索引。 然后,可以使用 搜索资源管理器在 Azure 门户中查询生成的内容。

在运行向导之前,请创建一些资源并上传示例文件。

先决条件

  • 具有活动订阅的 Azure 帐户。 创建试用版订阅

  • Azure AI 搜索服务。 创建服务或在当前订阅中查找现有服务。 可以使用免费服务来完成这个快速入门。

  • 一个 Azure 存储帐户。 在标准性能(常规用途 v2)帐户上使用 Azure Blob 存储。 若要避免带宽费用,请使用与 Azure AI 搜索相同的区域。

注意

本快速入门使用 Azure AI 服务 进行 AI 扩充。 由于工作负荷很小,因此在后台利用 Azure AI 服务,免费处理多达 20 个事务。 因此,无需创建 Azure AI 服务多服务资源。

准备示例数据

在本部分中,您将创建一个 Azure 存储容器,用于存储示例数据,这些数据包含各种文件类型,例如图像和无法在其本机格式中全文搜索的应用程序文件。

若要为此快速入门准备示例数据,请执行以下操作:

  1. 登录到 Azure 门户 并选择 Azure 存储帐户。

  2. 在左窗格中,选择 “数据存储>容器”。

  3. 创建容器,然后将 示例数据 上传到容器。

运行向导

运行向导:

  1. 登录到 Azure 门户 并选择搜索服务。

  2. 在“概述”页上,选择“导入数据”(新)。

    显示如何在 Azure 门户中打开新导入向导的屏幕截图。

  3. 为数据源选择 Azure Blob 存储

    Azure 门户中 Azure Blob 存储数据源选项的屏幕截图。

  4. 选择 关键字搜索

    Azure 门户中关键字搜索磁贴的屏幕截图。

步骤 1:创建数据源

Azure AI 搜索需要连接到数据源才能进行内容引入和索引编制。 在这种情况下,数据源是 Azure 存储帐户。

创建数据源:

  1. 连接到您的数据 页上,选择您的 Azure 订阅。

  2. 选择存储帐户,然后选择创建的容器。

    Azure 门户中“连接到数据”页的屏幕截图。

  3. 选择“下一步”。

如果收到 Error detecting index schema from data source,则为向导提供支持的索引器无法连接到数据源。 数据源很可能具有安全保护。 请尝试以下解决方案,然后重新运行向导。

安全功能 解决方案
资源需要 Azure 角色或其访问密钥被禁用。 作为受信任的服务进行连接 或使用 托管身份进行连接
资源位于 IP 防火墙后面。 为 Azure AI 搜索和 Azure 门户创建入站规则
资源需要专用终结点连接。 通过专用终结点进行连接

步骤 2:添加认知技能

下一步是配置 AI 扩充以调用 OCR、图像分析和实体识别。

OCR 和图像分析适用于 Azure Blob 存储和 Azure Data Lake Storage (ADLS) Gen2 中的 Blob 以及 OneLake 中的图像内容。 图像可以是独立文件,也可以是 PDF 或其他文件中嵌入的图像。

添加技能:

  1. 选择 “提取实体”,然后选择齿轮图标。

  2. 选中并保存以下复选框:

    • 人员

    • 位置

    • 组织

    Azure 门户中“提取实体”选项的屏幕截图。

  3. 选择 “从图像中提取文本”,然后选择齿轮图标。

  4. 选中并保存以下复选框:

    • 生成标记

    • 对内容进行分类

    Azure 门户中“从图像中提取文本”选项的屏幕截图。

  5. 请保持选中使用免费 AI 服务(有限扩充)复选框。

    示例数据由 14 个文件组成,因此在 Azure AI 服务上免费分配的 20 个事务已足够。

  6. 选择“下一步”。

步骤 3:配置索引

索引包含可搜索的内容。 向导通常可以通过采样数据源来创建架构。 在此步骤中,你将查看生成的架构并可能修改任何设置。

对于本快速入门,向导设置合理的默认值:

  • 默认字段基于现有 Blob 的元数据属性,以及用于扩充输出的新字段,例如 personslocationsorganizations。 数据类型从元数据和数据采样推断。

    索引定义页的屏幕截图。

  • 默认的文档键是 metadata_storage_path,因为该字段包含唯一值,因此被选中。

  • 默认字段属性基于所选技能。 例如,实体识别技能(personslocationsorganizations)创建的字段是可检索可筛选可分面可搜索。 若要查看和更改这些属性,请选择一个字段,然后选择“ 配置”字段

    可以在结果中返回可检索字段,而可搜索字段支持全文搜索。 如果要在筛选器表达式中使用字段,请使用 Filterable

    将字段标记为 “可检索 ”并不意味着该字段 必须 出现在搜索结果中。 可以使用select查询参数来控制返回的具体字段。

查看索引架构后,选择“ 下一步”。

步骤 4:跳过高级设置

该向导提供语义排名和索引计划的高级设置,这些设置超出了本快速入门的范围。 通过选择 “下一步”跳过此步骤。

步骤 5:查看和创建对象

最后一步是在搜索服务上查看配置并创建索引、索引器和数据源。 索引器自动执行从数据源提取内容、加载索引和驱动技能集执行的过程。

要查看和创建对象:

  1. 接受默认 的对象名称前缀

  2. 查看对象配置。

    Azure 门户中对象配置页的屏幕截图。

    AI 扩充、语义排名器和索引器计划被禁用或设置为其默认值,因为你跳过了其向导步骤。

  3. 选择“ 创建 ”以同时创建对象并运行索引器。

监视状态

可以在 Azure 门户中监视索引器的创建。 基于技能编制索引耗时长于基于文本编制索引,尤其是 OCR 和图像分析。

查看索引器的进度:

  1. 在左窗格中,选择 “索引器”。

  2. 从列表中选择索引器。

  3. 选择 “成功 ”(或 “失败”)以查看执行详细信息。

    索引器状态页的屏幕截图。

在本快速入门中,有一些警告,包括 Could not execute skill because one or more skill input was invalid. 此警告告知数据源中的 PNG 文件不提供实体识别的文本输入。 之所以发生这种情况,是因为上游 OCR 技能无法识别图像中的任何文本,并且无法向下游实体识别技能提供文本输入。

警告在技能组执行中很常见。 随着你熟悉技能循环访问数据的方式,你可能开始发现规律并了解哪些警告是可以安全忽略的。

搜索浏览器中的查询

查询索引:

  1. 在左窗格中,选择 “索引”。

  2. 从列表中选择索引。 如果索引包含零个文档或存储,请等待 Azure 门户刷新。

  3. “搜索资源管理器 ”选项卡上,输入搜索字符串,例如 satya nadella

搜索栏接受关键字、带引号的短语和运算符。 例如:"Satya Nadella" +"Bill Gates" +"Steve Ballmer"

随后会返回详细的 JSON 格式的结果,这些结果可能难以阅读,尤其是在大型文档中。 下面是在此工具中搜索的提示:

  • 切换到 JSON 视图以指定形状结果的参数。
  • 添加 select 以限制结果中的字段。
  • 添加 count 以显示匹配项数。
  • 使用 Ctrl-F 在 JSON 中搜索特定属性或术语。

“搜索资源管理器”页的屏幕截图。

下面是可以粘贴到视图中的一些 JSON:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "merged_content, persons"
}

提示

查询字符串区分大小写,因此如果收到“未知字段”消息,请检查“字段”或“索引定义(JSON)”以验证名称和大小写。

重要

导入数据向导最终将弃用。 导入 数据(新) 向导中提供了大部分功能,我们建议在大多数搜索方案中使用此功能。 有关详细信息,请参阅 Azure 门户中的导入数据向导

在本快速入门中,你将了解 Azure AI 搜索中的技能集如何添加光学字符识别(OCR)、图像分析、语言检测、文本合并和实体识别,以在索引中生成文本可搜索的内容。

你可以在 Azure 门户中运行“导入数据”向导,以应用在索引期间创建和转换文本内容的技能。 输入是原始数据,通常是 Azure 存储中的 Blob。 输出是包含 AI 生成的图像文本、标题和实体的可搜索索引。 然后,可以使用 搜索资源管理器在 Azure 门户中查询生成的内容。

在运行向导之前,请创建一些资源并上传示例文件。

先决条件

  • 具有活动订阅的 Azure 帐户。 创建试用版订阅

  • Azure AI 搜索服务。 创建服务或在当前订阅中查找现有服务。 可以使用免费服务来完成这个快速入门。

  • 一个 Azure 存储帐户。 在标准性能(常规用途 v2)帐户上使用 Azure Blob 存储。 若要避免带宽费用,请使用与 Azure AI 搜索相同的区域。

注意

本快速入门使用 Azure AI 服务 进行 AI 扩充。 由于工作负荷很小,因此在后台利用 Azure AI 服务,免费处理多达 20 个事务。 因此,无需创建 Azure AI 服务多服务资源。

准备示例数据

在本部分中,您将创建一个 Azure 存储容器,用于存储示例数据,这些数据包含各种文件类型,例如图像和无法在其本机格式中全文搜索的应用程序文件。

若要为此快速入门准备示例数据,请执行以下操作:

  1. 登录到 Azure 门户 并选择 Azure 存储帐户。

  2. 在左窗格中,选择 “数据存储>容器”。

  3. 创建容器,然后将 示例数据 上传到容器。

运行向导

运行向导:

  1. 登录到 Azure 门户 并选择搜索服务。

  2. 在“ 概述 ”页上,选择“ 导入数据”。

    “导入数据”命令的屏幕截图。

步骤 1:创建数据源

Azure AI 搜索需要连接到数据源才能进行内容引入和索引编制。 在这种情况下,数据源是 Azure 存储帐户。

创建数据源:

  1. “连接到您的数据” 页上,选择 “数据源” 下拉列表,然后选择 “Azure Blob Storage”

  2. 选择存储帐户的现有连接字符串,然后选择创建的容器。

  3. 输入数据源的名称。

    数据源定义页的屏幕截图。

  4. 选择“下一步:添加认知技能”(可选)。

如果收到 Error detecting index schema from data source,则为向导提供支持的索引器无法连接到数据源。 数据源很可能具有安全保护。 请尝试以下解决方案,然后重新运行向导。

安全功能 解决方案
资源需要 Azure 角色或其访问密钥被禁用。 作为受信任的服务进行连接 或使用 托管身份进行连接
资源位于 IP 防火墙后面。 为 Azure AI 搜索和 Azure 门户创建入站规则
资源需要专用终结点连接。 通过专用终结点进行连接

步骤 2:添加认知技能

下一步是配置 AI 扩充以调用 OCR、图像分析和自然语言处理。

OCR 和图像分析适用于 Azure Blob 存储和 Azure Data Lake Storage (ADLS) Gen2 中的 Blob 以及 OneLake 中的图像内容。 图像可以是独立文件,也可以是 PDF 或其他文件中嵌入的图像。

添加技能:

  1. 展开 “附加认知服务 ”部分。

  2. 选择 “免费”(有限扩充) 以使用免费的 Azure AI 服务多服务资源。

    “附加 Azure AI 服务”选项卡的屏幕截图。

    示例数据由 14 个文件组成,因此在 Azure AI 服务上免费分配的 20 个事务已足够。

  3. 展开 “添加增强功能” 部分。

  4. 请选择“启用 OCR 并将所有文本合并到 merged_content 字段”复选框

  5. “文本认知技能”下,选中以下复选框:

    • 提取人名

    • 提取组织名称

    • 提取位置名称

  6. “图像认知技能”下,选中以下复选框:

    • 从图像生成标记

    • 从图像生成标题

    技能集定义页的屏幕截图。

  7. 选择 “下一步:客户目标索引”。

步骤 3:配置索引

索引包含可搜索的内容。 向导通常可以通过采样数据源来创建架构。 在此步骤中,你将查看生成的架构并可能修改任何设置。

对于本快速入门,向导设置合理的默认值:

  • 默认字段基于现有 Blob 的元数据属性,以及用于扩充输出的新字段,例如 peopleorganizationslocations。 数据类型从元数据和数据采样推断。

  • 默认的文档键是 metadata_storage_path,因为该字段包含唯一值,因此被选中。

  • 默认属性为可检索可搜索。 可以在结果中返回可检索字段,而可搜索字段支持全文搜索。 向导假设你希望这些字段可检索且可搜索,因为它们是通过技能集创建的。 如果要在筛选表达式中使用字段,请选择“可筛选”。

    索引定义页的屏幕截图。

    将字段标记为 “可检索 ”并不意味着该字段 必须 出现在搜索结果中。 可以使用select查询参数来控制返回的具体字段。

查看索引架构后,选择“ 下一步:创建索引器”。

步骤 4:配置索引器

索引器驱动索引过程,并指定数据源名称、目标索引和执行频率。 在此步骤中,向导会创建多个对象,包括可重复重置和运行的索引器。

配置索引器:

  1. “创建索引器 ”页上,接受默认名称。

  2. 为计划选择 一次

    索引器定义页的屏幕截图。

  3. 选择 “提交 ”以同时创建并运行索引器。

监视状态

可以在 Azure 门户中监视索引器的创建。 基于技能编制索引耗时长于基于文本编制索引,尤其是 OCR 和图像分析。

查看索引器的进度:

  1. 在左窗格中,选择 “索引器”。

  2. 从列表中选择索引器。

  3. 选择 “成功 ”(或 “失败”)以查看执行详细信息。

    索引器状态页的屏幕截图。

在本快速入门中,有一些警告,包括 Could not execute skill because one or more skill input was invalid. 此警告告知数据源中的 PNG 文件不提供实体识别的文本输入。 之所以发生这种情况,是因为上游 OCR 技能无法识别图像中的任何文本,并且无法向下游实体识别技能提供文本输入。

警告在技能组执行中很常见。 随着你熟悉技能循环访问数据的方式,你可能开始发现规律并了解哪些警告是可以安全忽略的。

搜索浏览器中的查询

查询索引:

  1. 在左窗格中,选择 “索引”。

  2. 从列表中选择索引。 如果索引包含零个文档或存储,请等待 Azure 门户刷新。

  3. “搜索资源管理器 ”选项卡上,输入搜索字符串,例如 satya nadella

搜索栏接受关键字、带引号的短语和运算符。 例如:"Satya Nadella" +"Bill Gates" +"Steve Ballmer"

随后会返回详细的 JSON 格式的结果,这些结果可能难以阅读,尤其是在大型文档中。 下面是在此工具中搜索的提示:

  • 切换到 JSON 视图以指定形状结果的参数。
  • 添加 select 以限制结果中的字段。
  • 添加 count 以显示匹配项数。
  • 使用 Ctrl-F 在 JSON 中搜索特定属性或术语。

“搜索资源管理器”页的屏幕截图。

下面是可以粘贴到视图中的一些 JSON:

{
"search": "\"Satya Nadella\" +\"Bill Gates\" +\"Steve Ballmer\"",
"count": true,
"select": "content, people"
}

提示

查询字符串区分大小写,因此如果收到“未知字段”消息,请检查“字段”或“索引定义(JSON)”以验证名称和大小写。

要点

你已创建第一个技能集,并学习了基于技能的索引的基本步骤。

我们希望你选取的一些关键概念包括依赖项。 技能集绑定到索引器,索引器特定于 Azure 和源。 尽管本快速入门使用 Azure Blob 存储,您也可以使用其他 Azure 数据源。 有关详细信息,请参阅 Azure AI 搜索中的索引器

另一个重要概念是技能作用于各种内容类型,在使用异构内容时,某些输入会被跳过。 而且,大型文件或字段可能会超出服务层级的索引器限制。 正常情况下,在发生这些事件时会看到警告。

输出将被发送到搜索索引,并且在索引过程中创建的名称-值对与索引中的单个字段之间存在映射。 向导会在内部设置扩充树并定义技能集,从而建立操作顺序和常规流。 这些步骤隐藏在向导中,但开始编写代码后,这些概念非常重要。

最后,你已了解可以通过查询索引来验证内容。 最终,Azure AI 搜索提供了一个可搜索索引,可以使用 简单完全扩展的查询语法进行查询。 包含扩充字段的索引与其他任何索引类似。 可以合并标准或自定义分析器计分概要文件同义词分面导航、异地搜索和其他任何 Azure AI 搜索功能。

清理资源

在自己的订阅中操作时,最好在项目结束时确定是否仍需要已创建的资源。 持续运行资源可能会产生费用。 可以逐个删除资源,也可以删除资源组以删除整个资源集。

可以通过从左窗格中选择 “所有资源 ”或 “资源组 ”,在 Azure 门户中查找和管理资源。

如果使用免费服务,请记住只能设置三个索引、索引器和数据源。 可以在 Azure 门户中删除单个项目,以不超出此限制。

下一步

可以使用 Azure 门户、REST API 或 Azure SDK 创建技能集。 使用 REST 客户端和更多示例数据试用 REST API: