共用方式為

Azure门户中的导入数据向导

Azure门户中的 Import 数据向导提供了一种无需编码即可创建可查询搜索索引的路径。 它连接到支持的数据源、配置可选的 AI 扩充和矢量化、推断索引架构并将内容加载到索引中。 可以使用向导工具进行关键字搜索、RAG 和多模式 RAG。

向导支持:

  • 索引器管道创建,包括索引、索引器、数据源和技能集。
  • 内置索引器和Azure Logic Apps连接器。
  • 基于技能的 AI 扩充。
  • 数据分块和集成向量化,包括多模式嵌入。
  • 语义排名配置。
  • 知识库的创建。

向导支持的功能

本部分介绍向导中提供的功能。

内置示例数据

酒店示例索引的内置示例数据不再可用。 但是,可以通过遵循 Quickstart:Azure 门户中的全文搜索来创建相同的索引

数据源

该向导通过 内置索引器连接到以下数据源。

数据源 支持 连接
ADLS Gen2 内置索引器
Azure Blob Storage 内置索引器
Azure Table Storage 内置索引器
Azure SQL 数据库 和 托管实例 内置索引器
适用于 NoSQL 的 Cosmos DB 内置索引器
Cosmos DB for MongoDB 内置索引器
Cosmos DB for Apache Gremlin 内置索引器
MySQL 不適用
虚拟机上的 SQL Server 内置索引器

小窍门

可以使用搜索服务 REST API 以编程方式为来自这些源的数据编制索引,而不是使用用于Azure文件存储或SharePoint的逻辑应用连接器。 有关详细信息,请参阅 Azure Files 中的索引数据。

技能

以下技能可能出现在向导生成的技能集中。 创建技能集后,可以修改其 JSON 定义以添加或删除技能。

技能 支持 说明
Azure 视觉多模式嵌入 仅适用于 RAG 和多模式 RAG。
文档布局 仅适用于 RAG 和多模式 RAG。
实体识别 仅适用于关键字搜索。
图像分析 适用于 Azure Storage blob 和 Microsoft OneLake 文件,假设采用默认分析模式。 使用图像内容类型(如 PNG 或 JPG)或应用程序文件中的嵌入图像,例如 PDF。
关键短语提取 仅适用于关键字搜索。
语言检测 仅适用于关键字搜索。 技能集包括实体识别、关键短语提取或文本拆分时自动添加。 不可用户配置。
文本翻译 不適用。
光学字符识别 适用于 Azure Storage blob 和 Microsoft OneLake 文件,假设采用默认分析模式。 使用图像内容类型(如 PNG 或 JPG)或应用程序文件中的嵌入图像,例如 PDF。
PII 检测 不適用。
情绪 不適用。
刨床 不適用。
文本合并 为选择嵌入模型时添加了数据分块功能。 对于非嵌入技能,当你将源字段的粒度设置为页面或句子时,会添加它。

语义排名

语义排名适用于所有向导方案:关键字搜索、RAG 和多模式 RAG。 如果启用,向导会将 语义配置 添加到索引。

知识存储

知识存储 创建仅适用于多模式 RAG 方案。 向导从文档中提取图像,并将其作为 blob 存储在您指定的 Azure 存储容器中。

向导创建的内容

完成向导后,它会在搜索服务上创建多个对象。 确切的对象取决于所选的选项。 例如,如果应用基于技能的扩充,则会创建技能集。

物体 说明
索引 用于全文搜索、矢量搜索和其他查询的物理数据结构。 如果启用语义排名,可以包含语义配置。
索引器 通过按可选计划从数据源拉取到目标索引来驱动数据导入。 还可以参考技能集。
技能集 (可选)在编制索引期间,有关 AI 扩充、数据分块和集成向量化的说明集。
知识存储 (可选)技能集输出的Azure Storage中的辅助存储,例如提取的图像。

在向导运行后查看这些对象:

  1. Azure 门户中,转到你的搜索服务。
  2. 在左窗格中,选择 “搜索管理 ”以查找索引、索引器、数据源和技能集的页面。

优点和限制

本部分讨论向导体验的优缺点。 使用此信息可以决定何时使用向导以及何时考虑使用替代方法,例如使用 REST API 或Azure SDKs的编程方法。

好处

在编写任何代码之前,可以使用向导进行原型制作和概念证明测试。 该向导连接到外部数据源,对数据采样以创建初始索引,然后将数据导入并选择性地将数据作为 JSON 文档导入到Azure AI Search的索引中。

如果要评估技能集,向导将处理输出字段映射,并添加帮助程序函数来创建可用对象。 选择图像分析时,会新增文本合并功能,使得向导能够将文本说明与图像内容重新关联。 所有这些任务都带有学习曲线。 如果你不熟悉扩充,请为你处理这些步骤,这样就可以测量技能的价值,而无需投入大量时间和精力。

采样是推断索引架构的过程,它具有一些限制。 创建数据源时,向导会选取一个随机的文档示例,以确定哪些列是数据源的一部分。 并非所有文件都被读取,因为对大型数据源执行此操作可能需要几个小时。 给定文档的选择,源元数据(如字段名称或类型)用于在索引架构中创建字段集合。 根据源数据的复杂性,可能需要编辑初始架构以获取准确性或将其扩展为完整性。 可以直接在索引定义页上进行更改。

总的来说,向导的优点是明确的:只要满足要求,就可以在几分钟内创建可查询索引。 向导处理索引的某些复杂性,例如将数据序列化为 JSON 文档。

限制

  • 向导不支持迭代或重复使用。 通过向导的每一次处理都会创建索引、技能集和索引器配置。 完成向导后,可以使用其他门户工具、REST API 或Azure SDKs编辑创建的对象。

  • 源内容必须位于受支持的数据源中。

  • 用于推断初步索引架构的采样发生在源数据的子集上。 对于大型数据源,向导可能会遗漏字段。 如果采样不足,可能需要手动将字段添加到索引或更正推断的数据类型。

  • AI 扩充集成向量化(如向导中所显示)仅限于内置技能的子集。

安全连接

网络保护会影响门户到终结点的连接;同时也影响门户操作期间的终结点到外部资源的连接。

门户连接到搜索服务

使用客户端 IP 地址建立到受网络保护的终结点的门户连接。

小窍门

门户会检测客户端 IP 地址,并提示你将其添加到search service防火墙。

与外部资源的门户连接

向导程序连接到外部资源进行以下操作:

  • 索引期间的数据检索。
  • 用于 和<集成向量化>的 AI 处理由 Azure AI 服务资源或模型执行。

从向导中,几乎每个受网络保护的数据和 AI 处理的出站请求都是使用客户端的 IP 地址进行的。

本部分介绍出站请求的连接要求。

配置门户对外部资源的访问

  • 受 IP 保护的资源:将客户端 IP 地址添加到外部资源的 allowList地址。 如果受支持,请列出 Microsoft.Search/searchServices 作为受信任的服务。 例如,在 Azure Storage 中,可以将 Microsoft.Search/searchServices 列为受信任的服务。

  • 专用连接:向导使用 共享专用链接。 验证搜索服务是否满足等级和区域要求。 验证你的外部数据源是否支持共享专用链接。

如果向导无法连接,你将看到 "Access denied due to Virtual Network/Firewall rules"。 请考虑使用脚本化或编程方法作为替代方法。

Workflow

该向导遵循高级工作流:

  1. 连接到受支持的Azure数据源。

  2. (可选)添加技能以提取或生成内容和结构。

  3. 创建索引架构,通过对源数据采样进行推断。

  4. 运行向导以创建对象、(可选)向量化数据、将数据加载到索引中、设置计划以及配置其他选项。

工作流是单向管道。 无法使用向导编辑创建的任何对象,但可以使用其他门户工具(如索引设计器或 JSON 编辑器)进行允许的更新。

启动向导

  1. Azure 门户中,转到你的搜索服务。

  2. 在“ 概述 ”页上,选择“ 导入数据”。

    导入向导选项的屏幕截图。

    向导将在浏览器窗口中全屏展开,让你有更多的工作空间。

  3. 选择方案: 关键字搜索RAG多模式 RAG

    选择的方案决定了可用的数据源和技能,以及向导创建的索引架构和索引器配置。

  4. 按照其余步骤创建索引、索引器和其他适用对象。

配置数据源

该向导使用索引器提供的内部逻辑连接到外部 supported 数据源,这些逻辑可用于对源进行采样、读取元数据、破解文档以读取内容和结构,并将内容序列化为 JSON,以便后续导入到Azure AI Search。

并非所有预览数据源都保证在向导中可用。 由于每个数据源都有可能在下游引入更改,因此仅当预览数据源完全支持向导的所有体验(如技能组定义和索引架构推理)时才添加。

只能从单个表、数据库视图或等效数据结构导入。 但是,该结构可以包括分层或嵌套的子结构。 有关详细信息,请参阅如何为复杂类型建模

配置技能集

技能组配置发生在数据源定义之后,因为数据源的类型将指示某些内置技能的可用性。 例如,如果要从Azure Blob Storage为文件编制索引,则为这些文件选择的分析模式决定了情绪分析是否可用。

向导不仅会添加您选择的技能,还会添加成功所需的技能。

技能组是可选项;如果不需要 AI 扩充,可以单击页面底部的按钮跳过此步骤。

配置索引架构

向导会采样数据源以检测字段和字段类型。 根据数据源,它还可能提供用于索引元数据的字段。

由于采样是一项不精确的工作,因此查看索引时要考虑以下因素:

  1. 字段列表是否准确? 如果数据源包含未在采样中选取的字段,则可以手动添加错过的字段。 还可以删除不向搜索体验添加值的字段,或者不会在 筛选器表达式计分配置文件中使用。

  2. 数据类型是否适合传入的数据? Azure AI Search支持 entity 数据模型(EDM)数据类型。 对于 Azure SQL 数据,有一个 映射表 列出等效值。 有关详细信息,请参阅 字段映射和转换

  3. 是否有一个可用作键的字段? 此字段必须是唯一标识文档的 Edm.String。 对于关系数据,它可能会映射到主键。 对于 blob,它可能是 metadata-storage-path。 如果字段值包括空格或短划线,则必须在“创建索引器”步骤中设置 Base-64 编码键选项(在“高级”选项下)取消对这些字符的验证检查。

  4. 设置属性以确定如何在索引中使用该字段。

    请花些时间来完成此步骤,因为属性确定了索引中字段的物理表达式。 如果以后想要更改属性,即使是以编程方式,你几乎总是需要删除并重新生成索引。 SearchableRetrievable 等核心属性对存储的影响微不足道。 启用筛选器和建议器会增加存储要求。

    • “可搜索”启用全文搜索 。 自由格式查询或查询表达式中使用的每个字段都必须具有此属性。 为标记为“可搜索”的每个字段创建反向索引 。

    • 在搜索结果中,“可检索”将返回该字段。 用于提供内容以搜索结果的每个字段必须有此属性。 设置此字段不会明显影响索引大小。

    • “可筛选”允许在筛选表达式中引用该字段 。 在 $filter 表达式中使用的每个字段必须有此属性。 筛选表达式用于进行精确匹配。 由于文本字符串保持不变,因此需要更多的存储来容纳逐字内容。

    • 启用该字段以便于进行分面导航。 只有也标记为“可筛选”的字段可标记为“可查找” 。

    • “可排序”允许在排序中使用该字段 。 在 $Orderby 表达式中使用的每个字段必须有此属性 。

  5. 是否需要词法分析? 对于 可搜索的 Edm.String 字段,如果需要语言增强索引和查询,可以设置 分析器

    默认值为 Standard Lucene,但如果想要使用 Microsoft 的分析器进行高级词法处理(例如解析不规则的名词和谓词形式),可以选择 Microsoft 英语。 只能在Azure门户中指定语言分析器。 如果要使用自定义分析器或非语言分析器(如关键字或模式),则必须以编程方式创建它。 有关详细信息,请参阅 “添加语言分析器”。

  6. 需要在表单中实现自动完成或建议结果形式的提前输入功能吗? 选中 “建议器”复选框以启用所选字段的 提前查询建议和自动完成功能。 建议器会增加在你的索引中标记化术语的数量,从而消耗更多存储。

配置索引器

向导的最后一页将收集用于索引器配置的用户输入。 可以 指定计划 并设置其他因数据源类型而异的选项。

在内部,向导设置了以下定义,这些定义在创建索引器之后才会在索引器中显示。

尝试向导

了解向导的优点和限制的最佳方式就是逐步运行导入向导。 以下快速入门基于向导。