重要
我们正在合并 Azure AI 搜索向导。 关键更改包括:
- 导入和矢量化数据向导现在称为“导入数据”(新)。
- 导入数据工作流现已在导入数据(新)中提供。
导入数据向导最终将弃用。 目前,你仍然可以使用此向导,但我们建议使用新向导来改进使用最新框架的搜索体验。
向导没有相同的关键字搜索工作流。 某些技能和功能仅在旧向导中可用。 有关其相似性和差异的详细信息,请继续阅读本文。
Azure AI 搜索有两个向导,可自动化用于各种搜索场景的索引、丰富和对象创建。
- 导入数据向导支持关键字(非函数)搜索。 可以从原始文档中提取文本和数字。 还可以配置应用的 AI 和内置技能,以推断结构,并从图像文件和非结构化数据生成可搜索文本。 
- 导入数据(新建)向导支持关键字搜索、RAG 和多模态 RAG。 对于关键字搜索,它将实现 导入数据 工作流的现代化,但缺少某些功能,例如自动创建元数据字段。 对于 RAG 和多模式 RAG,它将连接到嵌入模型部署,发送请求,并从文本或图像生成矢量。 
尽管它们存在差异,但向导在内容引入和索引编制时遵循类似的工作流。 下表汇总了其功能。
| 能力 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| 索引创建 | ✅ | ✅ | 
| 创建索引器管道 | ✅ | ✅ | 
| Azure 逻辑应用连接器 | ❌ | ✅ | 
| 示例数据 | ✅ | ❌ | 
| 基于技能的提升 | ✅ | ✅ | 
| 矢量和多模式支持 | ❌ | ✅ | 
| 语义排名支持 | ❌ | ✅ | 
| 知识存储支持 | ✅ | ❌ | 
本文介绍向导如何帮助你完成概念证明测试。 有关使用示例数据的分步说明,请参阅 “试用向导”。
支持的数据源和方案
本部分介绍每个向导中的可用选项。
数据源
向导支持以下数据源,其中大多数都使用 内置索引器。 表格的脚注中注明了例外情况。
| 数据源 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| ADLS Gen2 | ✅ | ✅ | 
| Azure Blob 存储 | ✅ | ✅ | 
| Azure 表存储 | ✅ | ✅ | 
| Azure SQL 数据库和托管实例 | ✅ | ✅ | 
| Cosmos DB for NoSQL | ✅ | ✅ | 
| Cosmos DB for MongoDB | ✅ | ✅ | 
| Cosmos DB for Apache Gremlin | ✅ | ✅ | 
| MySQL | ❌ | ❌ | 
| 虚拟机上的 SQL Server | ✅ | ✅ | 
示例数据
Azure 托管以下示例数据,以便跳过数据源配置的向导步骤。
| 示例数据 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| 旅馆 | ✅ | ❌ | 
| 房地产 | ✅ | ❌ | 
技能
每个向导根据选择的选项生成技能集并输出字段映射。 创建技能集后,可以修改其 JSON 定义以添加或删除技能。
以下技能可能出现在向导生成的技能集中。
| 技能 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| Azure AI 视觉多模态 | ❌ | ✅ 1 | 
| Azure OpenAI 嵌入 | ❌ | ✅ 1 | 
| Azure 机器学习 (Azure AI Foundry 模型目录) | ❌ | ✅ 1 | 
| 文档布局 | ❌ | ✅ 1 | 
| 实体识别 | ✅ | ✅ | 
| 图像分析2 | ✅ | ✅ | 
| 关键短语提取 | ✅ | ✅ | 
| 语言检测 | ✅ | ✅ | 
| 文本翻译 | ✅ | ❌ | 
| OCR2 | ✅ | ✅ | 
| PII 检测 | ✅ | ❌ | 
| 情绪分析 | ✅ | ❌ | 
| 整形程序3 | ✅ | ❌ | 
| 文本拆分4 | ✅ | ✅ | 
| 文本合并4 | ✅ | ✅ | 
1 此技能仅适用于 RAG 和多模式 RAG 工作流。 不支持关键字搜索。
2 此技能适用于 Azure 存储 Blob 和 OneLake 文件,假设采用默认分析模式。 图像可以是图像内容类型(如 PNG 或 JPG),也可以是应用程序文件中嵌入的图像(如 PDF)。
3 配置知识存储时会添加此技能。
4 选择嵌入模型时,会为数据分块添加此技能。 对于非嵌入技能,当你将源字段的粒度设置为页面或句子时,会添加它。
语义排序器
可以 配置语义排名 以提高搜索结果的相关性。
| 能力 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| 语义排序器 | ❌ | ✅ | 
知识存储
可以为扩充(技能生成的)内容的辅助存储器生成知识存储。 知识存储对于不需要搜索引擎的信息检索工作流非常有用。
| 能力 | 导入数据向导 | 导入数据(新建)向导 | 
|---|---|---|
| 知识存储 | ✅ | ❌ | 
向导创建的内容
下表列出了向导创建的对象。 创建对象后,你可以在 Azure 门户中查看其 JSON 定义或从代码中调用它们。
| 物体 | 说明 | 
|---|---|
| 索引器 | 用于指定错误处理和 base-64 编码的数据源、目标索引、可选技能集、可选计划和可选配置设置的配置对象。 | 
| 数据源 | 将支持的数据源的连接信息持久保存到 Azure。 某个数据源对象专用于索引器。 | 
| 索引 | 用于全文搜索、矢量搜索和其他查询的物理数据结构。 | 
| 技能集 | (可选)用于作、转换和调整内容的完整指令集,包括分析和提取图像文件中的信息。 技能组还可用于集成矢量化。 如果每天的工作量超过每个索引器 20 个事务,技能集必须包含对提供扩充的 Azure AI 服务多服务资源的引用。 对于集成矢量化,可以使用 Azure AI 视觉或使用 Azure AI Foundry 模型目录中的嵌入模型。 | 
| 知识存储 | (可选)将经过丰富处理的技能集输出存储在 Azure 存储的表和 Blob 中,以便在非搜索场景中进行独立分析或下游处理。 仅在“导入数据”向导中可用。 | 
要在向导运行后查看这些对象,请执行以下步骤:
- 登录到 Azure 门户 并选择搜索服务。
- 在左窗格中,选择 “搜索管理 ”以查找索引、索引器、数据源和技能集的页面。
好处
在编写任何代码之前,可以使用向导进行原型制作和概念证明测试。 向导将连接到外部数据源,对数据进行采样以创建初始索引,然后将数据作为 JSON 文档导入并根据需要矢量化到 Azure AI 搜索中的索引。
如果要评估技能集,向导将处理输出字段映射,并添加辅助函数来创建可用对象。 指定分析模式时会添加文本拆分。 选择图像分析时,会添加文本合并功能,以便工具助手可以将文本说明与图像内容重新合并。 选择知识存储选项时,整形器被添加以支持有效的投影。 所有这些任务都带有学习曲线。 如果你不熟悉扩充,请为你处理这些步骤,这样就可以测量技能的价值,而无需投入大量时间和精力。
采样是推断索引架构的过程,它具有一些限制。 创建数据源时,向导会选取一个随机的文档示例,以确定哪些列是数据源的一部分。 并非所有文件都被完全读取,因为对于大型数据源来说,这样做可能需要数小时。 给定文档的选择,源元数据(如字段名称或类型)用于在索引架构中创建字段集合。 根据源数据的复杂性,可能需要编辑初始架构以获取准确性或将其扩展为完整性。 可以在索引定义页上以内联方式进行更改。
总的来说,向导的优点是显而易见的:只要满足要求,您就可以在几分钟内创建一个可查询的索引。 向导处理索引的某些复杂性,例如将数据序列化为 JSON 文档。
限制
向导具有以下限制:
- 向导不支持迭代或重用。 每次通过向导都会创建索引、技能集和索引器配置。 只能在 导入数据 向导中重复使用数据源。 完成向导后,可以使用其他门户工具、REST API 或 Azure SDK 编辑创建的对象。 
- 源内容必须位于受支持的数据源中。 
- 对源数据的子集进行采样。 对于大型数据源,向导程序可能会错过字段。 如果采样不足,可能需要扩展架构或更正推断的数据类型。 
- Azure 门户中公开的 AI 扩充限制为几个内置技能。 
- 知识存储仅通过导入数据向导提供,限制为几个默认投影,并使用默认命名约定。 若要自定义投影和名称,必须通过 REST API 或 Azure SDK 创建知识存储。 
安全连接
向导使用 Azure 门户控制器和公共终结点进行出站连接。 如果通过专用连接或共享专用链接访问 Azure 资源,则无法使用向导。
可以通过受限的公共连接使用向导,但并非所有功能都可用。
- 在搜索服务中,导入内置示例数据需要公共终结点,且无需防火墙规则。 - Azure 托管特定 Azure 资源上的示例数据。 Azure 门户控制器通过公共终结点连接到这些资源。 如果搜索服务位于防火墙后面,则尝试检索示例数据时会出现以下错误: - Import configuration failed, error creating Data Source后跟- "An error has occured."。
- 在受防火墙保护的受支持 Azure 数据源上,如果已设置正确的防火墙规则,则可以检索数据。 - Azure 资源必须允许来自连接所用设备的 IP 地址的网络请求。 还应在资源的网络配置中将 Azure AI 搜索列为受信任的服务。 例如,在 Azure 存储中,可以将 - Microsoft.Search/searchServices列为受信任的服务。
- 在连接到你提供的 Azure AI 服务多服务帐户或连接到在 Azure AI Foundry 门户或 Azure OpenAI 中部署的嵌入模型时,必须启用公共 Internet 访问,除非搜索服务满足专用连接的创建日期、层和区域要求。 有关详细信息,请参阅 通过共享专用链接建立出站连接。 - 与 Azure AI 服务多服务帐户的连接是为了 计费目的。 当 API 调用内置技能(在 导入数据 向导或 导入数据(新) 向导中的关键字搜索工作流)和集成向量化(在 导入数据(新) 向导中)超过免费事务计数(每个索引器运行 20 个)时,会向你计费。 - 如果 Azure AI 搜索无法连接: - 在 导入数据(新建) 向导中,错误为 - "Access denied due to Virtual Network/Firewall rules."。
- 在“导入数据”向导中,没有错误,但不会创建技能组。 
 
如果防火墙设置阻止向导工作流成功执行,请考虑改用脚本或编程方法。
Workflow
这两个向导都遵循着类似的高级工作流:
- 连接到支持的 Azure 数据源。 
- (可选)添加技能以提取或生成内容和结构。 
- 创建索引架构,通过对源数据采样进行推断。 
- 运行向导以创建对象、(可选)向量化数据、将数据加载到索引中、设置计划以及配置其他选项。 
工作流是单向管道。 无法使用向导编辑创建的任何对象,但可以使用其他门户工具(如索引设计器、索引器设计器或 JSON 编辑器)进行允许的更新。
启动向导
若要启动多个向导,请按一下相关按钮。
- 登录到 Azure 门户 并选择搜索服务。 
- 在“概述”页上,选择“导入数据”或“导入数据”(新)。   - 向导界面将在浏览器窗口中完全展开,提供更多的工作空间。 
- 如果选择 了“导入数据”,则可以选择 “示例 ”,从支持的数据源中为Microsoft托管的数据集编制索引。   
- 按照其余步骤创建索引、索引器和其他适用对象。 
还可以通过其他 Azure 服务(包括 Azure Cosmos DB、Azure SQL 数据库、SQL 托管实例和 Azure Blob 存储)启动“导入数据”。 在服务概述页的左窗格中查找 “添加 Azure AI 搜索 ”。
向导中的数据源配置
向导使用索引器提供的内部逻辑连接到外部 支持的数据源 ,这些逻辑可用于对源进行采样、读取元数据、破解文档以读取内容和结构,并将内容序列化为 JSON,以便后续导入 Azure AI 搜索。
在 “导入数据 向导”中,可以将连接粘贴到其他订阅或区域中支持的数据源,但 “选择现有连接 选取器”的范围限定为活动订阅。
              
               
              
              
            
无法保证所有预览数据源都在向导中可用。 由于每个数据源都有可能在下游引入更改,因此仅当预览数据源完全支持向导的所有体验(如技能组定义和索引架构推理)时才添加。
只能从单个表、数据库视图或等效数据结构导入。 但是,该结构可以包括分层或嵌套的子结构。 有关详细信息,请参阅如何为复杂类型建模。
向导中的技能组配置
技能组配置发生在数据源定义之后,因为数据源的类型将指示某些内置技能的可用性。 例如,如果要从 Azure Blob 存储为文件编制索引,那么您为这些文件选择的解析模式会决定是否可以进行情绪分析。
向导不仅会添加你选择的技能,还可以添加成功结果所需的技能。 例如,如果在导入数据向导中指定知识存储,向导会添加一个 Shaper技能 来支持数据投影或物理数据结构。
技能组是可选项;如果不需要 AI 扩充,可以单击页面底部的按钮跳过此步骤。
向导中的索引架构配置
向导对数据源进行采样以检测字段和字段类型。 根据数据源,它们还可以提供用于索引元数据的字段。
由于采样是一项不精确的工作,因此查看索引时要考虑以下因素:
- 字段列表是否准确? 如果数据源包含未在采样中选取的字段,则可以手动添加错过的字段。 还可以删除不向搜索体验添加值的字段,或者不会在 筛选器表达式 或 计分配置文件中使用。 
- 数据类型是否适合传入的数据? Azure AI 搜索支持实体数据模型 (EDM) 数据类型。 对于 Azure SQL 数据,有一个 映射图表 ,用于展示等效值。 有关详细信息,请参阅 字段映射和转换。 
- 是否有一个可用作键的字段? 此字段必须是唯一标识文档的 Edm.String。 对于关系数据,它可能会映射到主键。 对于 Blob,它可能是 - metadata-storage-path。 如果字段值包括空格或短划线,则必须在“创建索引器”步骤中设置 Base-64 编码键选项(在“高级”选项下)取消对这些字符的验证检查。
- 设置属性以确定如何在索引中使用该字段。 - 请花些时间来完成此步骤,因为属性确定了索引中字段的物理表达式。 如果以后想要更改属性,即使是以编程方式,你几乎总是需要删除并重新生成索引。 “可搜索”和“可检索”等核心属性对存储的影响可以忽略不计。 启用筛选器和使用建议器会提高存储要求。 - “可搜索”启用全文搜索 。 自由格式查询或查询表达式中使用的每个字段都必须具有此属性。 为标记为“可搜索”的每个字段创建反向索引 。 
- “可检索”在搜索结果中返回该字段 。 用于提供内容以搜索结果的每个字段必须有此属性。 设置此字段不会明显影响索引大小。 
- “可筛选”允许在筛选表达式中引用该字段 。 在 $filter 表达式中使用的每个字段必须有此属性。 筛选表达式用于精确匹配项。 由于文本字符串保持不变,因此需要更多存储空间来容纳逐字内容。 
- “可查找”为分面导航启用该字段 。 只有也标记为“可筛选”的字段可标记为“可查找” 。 
- “可排序”允许在排序中使用该字段 。 在 $Orderby 表达式中使用的每个字段必须有此属性 。 
 
- 是否需要词法分析? 对于 可搜索的 Edm.String 字段,如果需要语言增强索引和查询,可以设置 分析器 。 - 默认值为 Standard Lucene,但如果想要使用 Azure 的分析器进行高级词法处理,例如解析不规则的名词和动词形式,则可以选择 Microsoft英语 。 在 Azure 门户中只能指定语言分析器。 如果要使用自定义分析器或非语言分析器(如关键字或模式),则必须以编程方式创建它。 有关详细信息,请参阅 “添加语言分析器”。 
- 是否需要自动完成或建议结果形式的自动提示功能? 选中 “建议器”复选框以启用所选字段的 提前查询建议和自动完成功能。 提示功能会增加索引中标记化术语的数量,因此占用更多的存储空间。 
向导中的索引器配置
向导的最后一页将收集用于索引器配置的用户输入。 可以 指定计划 并设置其他因数据源类型而异的选项。
在内部,向导设置了以下定义,这些定义在创建索引器之后才会在索引器中显示。
尝试向导
了解向导的优点和限制的最佳方式就是逐步运行向导。 以下快速入门基于向导。