Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
重要
我们正在合并 Azure AI Search 向导工具。 关键更改包括:
- 导入和矢量化数据向导现在称为“导入数据”(新)。
- 导入数据工作流现已在导入数据(新)中提供。
即将弃用 导入数据 向导。 目前,你仍然可以使用此向导,但我们建议使用新向导来改进使用最新框架的搜索体验。
向导没有相同的关键字搜索工作流。 某些技能和功能仅在旧向导中可用。 有关其相似性和差异的详细信息,请继续阅读本文。
Azure AI Search有两个向导,可在不同的搜索场景中自动化地处理索引、扩充和对象创建:
导入数据向导支持关键字(非函数)搜索。 可以从原始文档中提取文本和数字。 还可以配置应用的 AI 和内置技能,以推断结构,并从图像文件和非结构化数据生成可搜索文本。
导入数据(新建)向导支持关键字搜索、RAG 和多模态 RAG。 对于关键字搜索,它将实现 导入数据 工作流的现代化,但缺少某些功能,例如自动创建元数据字段。 对于 RAG 和多模式 RAG,它将连接到嵌入模型部署,发送请求,并从文本或图像生成矢量。
尽管它们存在差异,但向导在内容引入和索引编制时遵循类似的工作流。 下表汇总了其功能。
| 能力 | 导入数据向导 | 导入数据(新建)向导 |
|---|---|---|
| 索引创建 | ✅ | ✅ |
| 创建索引器管道 | ✅ | ✅ |
| Azure Logic Apps连接器 | ❌ | ✅ |
| 内置示例数据 | ❌ | ❌ |
| 基于技能的提升 | ✅ | ✅ |
| 矢量和多模式支持 | ❌ | ✅ |
| 语义排名支持 | ❌ | ✅ |
| 知识存储支持 | ✅ | ❌ |
不再提供酒店样本索引的内置样本数据,但可以按照快速入门中的步骤创建相同的快速入门:为关键字搜索创建索引。
本文介绍向导如何帮助你完成概念证明测试。 有关分步说明,请参阅 “试用向导”。
支持的数据源和方案
本部分介绍每个向导中的可用选项。
数据源
向导支持以下数据源,其中大多数都使用 内置索引器。 表格的脚注中注明了例外情况。
| 数据源 | 导入数据向导 | 导入数据(新建)向导 |
|---|---|---|
| ADLS Gen2 | ✅ | ✅ |
| Azure Blob Storage | ✅ | ✅ |
| Azure表存储 | ✅ | ✅ |
| Azure SQL 数据库和托管实例 | ✅ | ✅ |
| Cosmos DB for NoSQL | ✅ | ✅ |
| Cosmos DB for MongoDB | ✅ | ✅ |
| Cosmos DB for Apache Gremlin | ✅ | ✅ |
| MySQL | ❌ | ❌ |
| SQL Server on virtual machines | ✅ | ✅ |
技能
每个向导根据选择的选项生成技能集并输出字段映射。 创建技能集后,可以修改其 JSON 定义以添加或删除技能。
以下技能可能出现在向导生成的技能集中。
| 技能 | 导入数据向导 | 导入数据(新建)向导 |
|---|---|---|
| Azure Vision多模式 | ❌ | ✅ 1 |
| Azure OpenAI 嵌入服务 | ❌ | ✅ 1 |
| Azure Machine Learning(Azure AI Foundry模型目录) | ❌ | ✅ 1 |
| 文档布局 | ❌ | ✅ 1 |
| 实体识别 | ✅ | ✅ |
| 图像分析2 | ✅ | ✅ |
| 关键短语提取 | ✅ | ✅ |
| 语言检测 | ✅ | ✅ |
| 文本翻译 | ✅ | ❌ |
| OCR2 | ✅ | ✅ |
| PII 检测 | ✅ | ❌ |
| 情绪分析 | ✅ | ❌ |
| 整形程序3 | ✅ | ❌ |
| 文本拆分4 | ✅ | ✅ |
| 文本合并4 | ✅ | ✅ |
1 此技能仅适用于 RAG 和多模式 RAG 工作流。 不支持关键字搜索。
2 此技能可用于Azure Storage blob 和 OneLake 文件,假设采用默认分析模式。 图像可以是图像内容类型(如 PNG 或 JPG),也可以是应用程序文件中嵌入的图像(如 PDF)。
3 配置知识存储时会添加此技能。
4 选择嵌入模型时,会为数据分块添加此技能。 对于非嵌入技能,当你将源字段的粒度设置为页面或句子时,会添加它。
语义排序器
可以 配置语义排名 以提高搜索结果的相关性。
| 能力 | 导入数据向导 | 导入数据(新建)向导 |
|---|---|---|
| 语义排序器 | ❌ | ✅ |
知识存储
你可以生成一个知识存储用于存储经过丰富处理(技能生成)的内容。 知识存储对于不需要搜索引擎的信息检索工作流非常有用。
| 能力 | 导入数据向导 | 导入数据(新建)向导 |
|---|---|---|
| 知识存储 | ✅ | ❌ |
向导创建的内容
下表列出了向导创建的对象。 创建对象后,可以在Azure portal中查看其 JSON 定义,或从代码调用它们。
| 物体 | 说明 |
|---|---|
| 索引器 | 用于指定错误处理和 base-64 编码的数据源、目标索引、可选技能集、可选计划和可选配置设置的配置对象。 |
| 数据源 | 将连接信息持久化到 Azure 上的 受支持的数据源。 某个数据源对象专用于索引器。 |
| 索引 | 用于全文搜索、矢量搜索和其他查询的物理数据结构。 |
| 技能集 | (可选)用于作、转换和调整内容的完整指令集,包括分析和提取图像文件中的信息。 技能组还可用于集成矢量化。 如果每天的工作量超过每个索引器 20 个事务,技能集必须包含对提供扩充的 Foundry 资源的引用。 对于集成的向量化,可以使用 Azure Vision 或 Foundry 模型目录中的嵌入模型。 |
| 知识存储 | (可选)将表和 blob 的扩充技能集输出存储在Azure Storage中,以便在非搜索方案中进行独立分析或下游处理。 仅在“导入数据”向导中可用。 |
要在向导运行后查看这些对象,请执行以下步骤:
- 登录到 Azure portal 并选择您的 Search Service。
- 在左窗格中,选择 “搜索管理 ”以查找索引、索引器、数据源和技能集的页面。
好处
在编写任何代码之前,可以使用向导进行原型制作和概念证明测试。 向导连接到外部数据源,对数据进行采样以创建初始索引,然后将数据作为 JSON 文档导入 Azure AI Search 的索引,并可选择将数据向量化。
如果要评估技能集,向导将处理输出字段映射,并添加辅助函数来创建可用对象。 指定分析模式时会添加文本拆分。 选择图像分析时,会添加文本合并功能,以便工具助手可以将文本说明与图像内容重新合并。 选择知识存储选项时,整形器被添加以支持有效的投影。 所有这些任务都带有学习曲线。 如果你不熟悉扩充,请为你处理这些步骤,这样就可以测量技能的价值,而无需投入大量时间和精力。
采样是推断索引架构的过程,它具有一些限制。 创建数据源时,向导会选取一个随机的文档示例,以确定哪些列是数据源的一部分。 并非所有文件都被完全读取,因为对于大型数据源来说,这样做可能需要数小时。 给定文档的选择,源元数据(如字段名称或类型)用于在索引架构中创建字段集合。 根据源数据的复杂性,可能需要编辑初始架构以获取准确性或将其扩展为完整性。 可以直接在索引定义页上进行更改。
总的来说,向导的优点是显而易见的:只要满足要求,您就可以在几分钟内创建一个可查询的索引。 向导处理索引的某些复杂性,例如将数据序列化为 JSON 文档。
限制
向导具有以下限制:
向导不支持迭代或重用。 每次通过向导都会创建索引、技能集和索引器配置。 只能在 导入数据 向导中重复使用数据源。 完成向导后,可以使用其他门户工具、REST API 或Azure SDK 编辑创建的对象。
源内容必须位于受支持的数据源中。
用于推断初步索引架构的采样发生在源数据的子集上。 对于大型数据源,向导程序可能会错过字段。 如果采样不足,可能需要手动将字段添加到索引或更正推断的数据类型。
只能通过旧版导入数据向导获取的知识存储仅局限于几个默认投影且使用默认命名约定。 若要自定义投影和名称,必须通过 REST API 或Azure SDK 创建知识存储。
安全连接
网络保护会影响门户到终结点的连接;同时也影响门户操作期间的终结点到外部资源的连接。
门户连接到搜索服务
使用客户端 IP 地址建立到受网络保护的终结点的门户连接。
对于受防火墙保护的搜索服务,将客户端 IP 地址添加到入站规则中。
对于为 专用终结点配置的搜索服务,请使用列入白名单的虚拟机中的浏览器打开门户页面并运行向导。
对于集成到网络安全边界的搜索服务,将您的客户端 IP 地址添加到入站规则中。
小窍门
门户会检测客户端 IP 地址,并提示你将其添加到search service防火墙。
与外部资源的门户连接
门户向导连接到外部资源,用于:
在门户向导中,网络数据保护和 AI 处理的几乎所有出站请求都使用客户端的 IP 地址,但以下情况除外:
- 旧版导入数据向导工具
- 连接到 Azure Cosmos DB 或 Azure SQL
本部分介绍出站请求的连接要求,以及如何处理异常。
配置门户访问外部资源
受 IP 保护的资源:将客户端 IP 地址添加到外部资源的
allowList地址。 如果受支持,请列出Microsoft.Search/searchServices为受信任的服务。 例如,在 Azure Storage 中,可以将Microsoft.Search/searchServices列为受信任的服务。私有连接:向导使用共享的私有链接。 验证搜索服务是否满足等级和区域要求。 验证你的外部数据源是否支持共享专用链接。
异常:带有 Cosmos DB 和 Azure SQL 的旧版本向导
旧的向导通过一个具有自己 IP 地址的门户控制器进行连接。 必须使用公共端点(不支持私有链接),将门户控制器 IP 添加到入站规则。
可以使用 导入数据(新) 向导来避免此限制。
如果向导无法连接,您将在新向导中看到 "Access denied due to Virtual Network/Firewall rules",或者技能集在旧向导中悄无声息地无法创建。 请考虑使用脚本化或编程方法作为替代方法。
Workflow
这两个向导都遵循着类似的高级工作流:
连接到受支持的Azure数据源。
(可选)添加技能以提取或生成内容和结构。
创建索引架构,通过对源数据采样进行推断。
运行向导以创建对象、(可选)向量化数据、将数据加载到索引中、设置计划以及配置其他选项。
工作流是单向管道。 无法使用向导编辑创建的任何对象,但可以使用其他门户工具(如索引设计器或 JSON 编辑器)进行允许的更新。
启动向导
若要启动多个向导,请按一下相关按钮。
登录到 Azure portal 并选择您的 Search Service。
在“概述”页上,选择“导入数据”或“导入数据”(新)。
向导界面将在浏览器窗口中完全展开,提供更多的工作空间。
按照其余步骤创建索引、索引器和其他适用对象。
还可以从其他 Azure 服务启动 Import Data,包括 Azure Cosmos DB、Azure SQL Database、SQL Managed Instance 和 Azure Blob Storage。 在服务概述页上的左窗格中查找 Add Azure AI Search。
向导中的数据源配置
向导使用索引器提供的内部逻辑连接到外部支持的数据源,这些逻辑能够对源进行采样、读取元数据、解析文档以读取内容和结构,并将内容序列化为 JSON,以便后续导入到 Azure AI Search。
在 “导入数据 向导”中,可以将连接粘贴到其他订阅或区域中支持的数据源,但 “选择现有连接 选取器”的范围限定为活动订阅。
无法保证所有预览数据源都在向导中可用。 由于每个数据源都有可能在下游引入更改,因此仅当预览数据源完全支持向导的所有体验(如技能组定义和索引架构推理)时才添加。
只能从单个表、数据库视图或等效数据结构导入。 但是,该结构可以包括分层或嵌套的子结构。 有关详细信息,请参阅如何为复杂类型建模。
向导中的技能组配置
技能组配置发生在数据源定义之后,因为数据源的类型将指示某些内置技能的可用性。 例如,如果要从Azure Blob Storage为文件编制索引,则为这些文件选择的分析模式决定了情绪分析是否可用。
向导不仅会添加你选择的技能,还可以添加成功结果所需的技能。 例如,如果在导入数据向导中指定知识存储,向导会添加一个 Shaper技能 来支持数据投影或物理数据结构。
技能组是可选项;如果不需要 AI 扩充,可以单击页面底部的按钮跳过此步骤。
向导中的索引架构配置
向导对数据源进行采样以检测字段和字段类型。 根据数据源,它们还可以提供用于索引元数据的字段。
由于采样是一项不精确的工作,因此查看索引时要考虑以下因素:
字段列表是否准确? 如果数据源包含未在采样中选取的字段,则可以手动添加错过的字段。 还可以删除不向搜索体验添加值的字段,或者不会在 筛选器表达式 或 计分配置文件中使用。
数据类型是否适合传入的数据? Azure AI Search支持 entity 数据模型(EDM)数据类型。 对于Azure SQL数据,有一个映射图表用于布局等效值。 有关详细信息,请参阅 字段映射和转换。
是否有一个可用作键的字段? 此字段必须是唯一标识文档的 Edm.String。 对于关系数据,它可能会映射到主键。 对于 blob,它可能是
metadata-storage-path。 如果字段值包括空格或短划线,则必须在“创建索引器”步骤中设置 Base-64 编码键选项(在“高级”选项下)取消对这些字符的验证检查。设置属性以确定如何在索引中使用该字段。
请花些时间来完成此步骤,因为属性确定了索引中字段的物理表达式。 如果以后想要更改属性,即使是以编程方式,你几乎总是需要删除并重新生成索引。 Searchable 和 Retrievable 等核心属性对存储的影响微不足道。 启用筛选器和建议器会增加存储要求。
“可搜索”启用全文搜索 。 自由格式查询或查询表达式中使用的每个字段都必须具有此属性。 为标记为“可搜索”的每个字段创建反向索引 。
在搜索结果中,“可检索”将返回该字段。 用于提供内容以搜索结果的每个字段必须有此属性。 设置此字段不会明显影响索引大小。
“可筛选”允许在筛选表达式中引用该字段 。 在 $filter 表达式中使用的每个字段必须有此属性。 筛选表达式用于进行精确匹配。 由于文本字符串保持不变,因此需要更多的存储来容纳逐字内容。
启用该字段以便于进行分面导航。 只有也标记为“可筛选”的字段可标记为“可查找” 。 “可排序”允许在排序中使用该字段 。 在 $Orderby 表达式中使用的每个字段必须有此属性 。
是否需要词法分析? 对于 可搜索的 Edm.String 字段,如果需要语言增强索引和查询,可以设置 分析器 。
默认值为 Standard Lucene,但如果想要使用 Microsoft 的分析器进行高级词法处理,例如解析不规则的名词和动词形式,则可以选择 Microsoft英语 。 只能在Azure portal中指定语言分析器。 如果要使用自定义分析器或非语言分析器(如关键字或模式),则必须以编程方式创建它。 有关详细信息,请参阅 “添加语言分析器”。
需要在表单中实现自动完成或建议结果形式的提前输入功能吗? 选中 “建议器”复选框以启用所选字段的 提前查询建议和自动完成功能。 建议器会增加在你的索引中标记化术语的数量,从而消耗更多存储。
向导中的索引器配置
向导的最后一页将收集用于索引器配置的用户输入。 可以 指定计划 并设置其他因数据源类型而异的选项。
在内部,向导设置了以下定义,这些定义在创建索引器之后才会在索引器中显示。
尝试向导
了解向导的优点和限制的最佳方式就是逐步运行向导。 以下快速入门基于向导。