Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
重要
我们正在合并 Azure AI 搜索向导。 关键更改包括:
- 导入和矢量化数据向导现在称为“导入数据”(新)。
- 导入数据工作流现已在导入数据(新)中提供。
导入数据向导最终将弃用。 目前,你仍然可以使用此向导,但我们建议使用新向导来改进使用最新框架的搜索体验。
向导没有相同的关键字搜索工作流。 某些技能和功能仅在旧向导中可用。 有关其相似性和差异的详细信息,请继续阅读本文。
Azure AI 搜索有两个向导,可自动化用于各种搜索场景的索引、丰富和对象创建。
导入数据向导支持关键字(非函数)搜索。 可以从原始文档中提取文本和数字。 还可以配置应用的 AI 和内置技能,以推断结构,并从图像文件和非结构化数据生成可搜索文本。
导入数据(新建)向导支持关键字搜索、RAG 和多模态 RAG。 对于关键字搜索,它将实现 导入数据 工作流的现代化,但缺少某些功能,例如自动创建元数据字段。 对于 RAG 和多模式 RAG,它将连接到嵌入模型部署,发送请求,并从文本或图像生成矢量。
尽管它们存在差异,但向导在内容引入和索引编制时遵循类似的工作流。 下表汇总了其功能。
能力 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
索引创建 | ✅ | ✅ |
创建索引器管道 | ✅ | ✅ |
Azure 逻辑应用连接器 | ❌ | ✅ |
示例数据 | ✅ | ❌ |
基于技能的提升 | ✅ | ✅ |
矢量和多模式支持 | ❌ | ✅ |
语义排名支持 | ❌ | ✅ |
知识存储支持 | ✅ | ❌ |
本文介绍向导如何帮助你完成概念证明测试。 有关使用示例数据的分步说明,请参阅 “试用向导”。
支持的数据源和方案
本部分介绍每个向导中的可用选项。
数据源
向导支持以下数据源,其中大多数都使用 内置索引器。 表格的脚注中注明了例外情况。
数据源 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
ADLS Gen2 | ✅ | ✅ |
Azure Blob 存储 | ✅ | ✅ |
Azure 表存储 | ✅ | ✅ |
Azure SQL 数据库和托管实例 | ✅ | ✅ |
Cosmos DB for NoSQL | ✅ | ✅ |
Cosmos DB for MongoDB | ✅ | ✅ |
Cosmos DB for Apache Gremlin | ✅ | ✅ |
MySQL | ❌ | ❌ |
虚拟机上的 SQL Server | ✅ | ✅ |
示例数据
Azure 托管以下示例数据,以便跳过数据源配置的向导步骤。
示例数据 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
旅馆 | ✅ | ❌ |
房地产 | ✅ | ❌ |
技能
每个向导根据选择的选项生成技能集并输出字段映射。 创建技能集后,可以修改其 JSON 定义以添加或删除技能。
以下技能可能出现在向导生成的技能集中。
技能 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
Azure AI 视觉多模态 | ❌ | ✅ 1 |
Azure OpenAI 嵌入 | ❌ | ✅ 1 |
Azure 机器学习 (Azure AI Foundry 模型目录) | ❌ | ✅ 1 |
文档布局 | ❌ | ✅ 1 |
实体识别 | ✅ | ✅ |
图像分析2 | ✅ | ✅ |
关键短语提取 | ✅ | ✅ |
语言检测 | ✅ | ✅ |
文本翻译 | ✅ | ❌ |
OCR2 | ✅ | ✅ |
PII 检测 | ✅ | ❌ |
情绪分析 | ✅ | ❌ |
整形程序3 | ✅ | ❌ |
文本拆分4 | ✅ | ✅ |
文本合并4 | ✅ | ✅ |
1 此技能仅适用于 RAG 和多模式 RAG 工作流。 不支持关键字搜索。
2 此技能适用于 Azure 存储 Blob 和 OneLake 文件,假设采用默认分析模式。 图像可以是图像内容类型(如 PNG 或 JPG),也可以是应用程序文件中嵌入的图像(如 PDF)。
3 配置知识存储时会添加此技能。
4 选择嵌入模型时,会为数据分块添加此技能。 对于非嵌入技能,当你将源字段的粒度设置为页面或句子时,会添加它。
语义排序器
可以 配置语义排名 以提高搜索结果的相关性。
能力 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
语义排序器 | ❌ | ✅ |
知识存储
可以为扩充(技能生成的)内容的辅助存储器生成知识存储。 知识存储对于不需要搜索引擎的信息检索工作流非常有用。
能力 | 导入数据向导 | 导入数据(新建)向导 |
---|---|---|
知识存储 | ✅ | ❌ |
向导创建的内容
下表列出了向导创建的对象。 创建对象后,你可以在 Azure 门户中查看其 JSON 定义或从代码中调用它们。
物体 | 说明 |
---|---|
索引器 | 用于指定错误处理和 base-64 编码的数据源、目标索引、可选技能集、可选计划和可选配置设置的配置对象。 |
数据源 | 将支持的数据源的连接信息持久保存到 Azure。 某个数据源对象专用于索引器。 |
索引 | 用于全文搜索、矢量搜索和其他查询的物理数据结构。 |
技能集 | (可选)用于作、转换和调整内容的完整指令集,包括分析和提取图像文件中的信息。 技能组还可用于集成矢量化。 如果每天的工作量超过每个索引器 20 个事务,技能集必须包含对提供扩充的 Azure AI 服务多服务资源的引用。 对于集成矢量化,可以使用 Azure AI 视觉或使用 Azure AI Foundry 模型目录中的嵌入模型。 |
知识存储 | (可选)将经过丰富处理的技能集输出存储在 Azure 存储的表和 Blob 中,以便在非搜索场景中进行独立分析或下游处理。 仅在“导入数据”向导中可用。 |
要在向导运行后查看这些对象,请执行以下步骤:
- 登录到 Azure 门户 并选择搜索服务。
- 在左窗格中,选择 “搜索管理 ”以查找索引、索引器、数据源和技能集的页面。
好处
在编写任何代码之前,可以使用向导进行原型制作和概念证明测试。 向导将连接到外部数据源,对数据进行采样以创建初始索引,然后将数据作为 JSON 文档导入并根据需要矢量化到 Azure AI 搜索中的索引。
如果要评估技能集,向导将处理输出字段映射,并添加辅助函数来创建可用对象。 指定分析模式时会添加文本拆分。 选择图像分析时,会添加文本合并功能,以便工具助手可以将文本说明与图像内容重新合并。 选择知识存储选项时,整形器被添加以支持有效的投影。 所有这些任务都带有学习曲线。 如果你不熟悉扩充,请为你处理这些步骤,这样就可以测量技能的价值,而无需投入大量时间和精力。
采样是推断索引架构的过程,它具有一些限制。 创建数据源时,向导会选取一个随机的文档示例,以确定哪些列是数据源的一部分。 并非所有文件都被完全读取,因为对于大型数据源来说,这样做可能需要数小时。 给定文档的选择,源元数据(如字段名称或类型)用于在索引架构中创建字段集合。 根据源数据的复杂性,可能需要编辑初始架构以获取准确性或将其扩展为完整性。 可以在索引定义页上以内联方式进行更改。
总的来说,向导的优点是显而易见的:只要满足要求,您就可以在几分钟内创建一个可查询的索引。 向导处理索引的某些复杂性,例如将数据序列化为 JSON 文档。
限制
向导具有以下限制:
向导不支持迭代或重用。 每次通过向导都会创建索引、技能集和索引器配置。 只能在 导入数据 向导中重复使用数据源。 完成向导后,可以使用其他门户工具、REST API 或 Azure SDK 编辑创建的对象。
源内容必须位于受支持的数据源中。
对源数据的子集进行采样。 对于大型数据源,向导程序可能会错过字段。 如果采样不足,可能需要扩展架构或更正推断的数据类型。
Azure 门户中公开的 AI 扩充限制为几个内置技能。
知识存储仅通过导入数据向导提供,限制为几个默认投影,并使用默认命名约定。 若要自定义投影和名称,必须通过 REST API 或 Azure SDK 创建知识存储。
安全连接
向导使用 Azure 门户控制器和公共终结点进行出站连接。 如果通过专用连接或共享专用链接访问 Azure 资源,则无法使用向导。
可以通过受限的公共连接使用向导,但并非所有功能都可用。
在搜索服务中,导入内置示例数据需要公共终结点,且无需防火墙规则。
Azure 托管特定 Azure 资源上的示例数据。 Azure 门户控制器通过公共终结点连接到这些资源。 如果搜索服务位于防火墙后面,则尝试检索示例数据时会出现以下错误:
Import configuration failed, error creating Data Source
后跟"An error has occured."
。在受防火墙保护的受支持 Azure 数据源上,如果已设置正确的防火墙规则,则可以检索数据。
Azure 资源必须允许来自连接所用设备的 IP 地址的网络请求。 还应在资源的网络配置中将 Azure AI 搜索列为受信任的服务。 例如,在 Azure 存储中,可以将
Microsoft.Search/searchServices
列为受信任的服务。在连接到你提供的 Azure AI 服务多服务帐户或连接到在 Azure AI Foundry 门户或 Azure OpenAI 中部署的嵌入模型时,必须启用公共 Internet 访问,除非搜索服务满足专用连接的创建日期、层和区域要求。 有关详细信息,请参阅 通过共享专用链接建立出站连接。
与 Azure AI 服务多服务帐户的连接是为了 计费目的。 当 API 调用内置技能(在 导入数据 向导或 导入数据(新) 向导中的关键字搜索工作流)和集成向量化(在 导入数据(新) 向导中)超过免费事务计数(每个索引器运行 20 个)时,会向你计费。
如果 Azure AI 搜索无法连接:
在 导入数据(新建) 向导中,错误为
"Access denied due to Virtual Network/Firewall rules."
。在“导入数据”向导中,没有错误,但不会创建技能组。
如果防火墙设置阻止向导工作流成功执行,请考虑改用脚本或编程方法。
Workflow
这两个向导都遵循着类似的高级工作流:
连接到支持的 Azure 数据源。
(可选)添加技能以提取或生成内容和结构。
创建索引架构,通过对源数据采样进行推断。
运行向导以创建对象、(可选)向量化数据、将数据加载到索引中、设置计划以及配置其他选项。
工作流是单向管道。 无法使用向导编辑创建的任何对象,但可以使用其他门户工具(如索引设计器、索引器设计器或 JSON 编辑器)进行允许的更新。
启动向导
若要启动多个向导,请按一下相关按钮。
登录到 Azure 门户 并选择搜索服务。
在“概述”页上,选择“导入数据”或“导入数据”(新)。
向导界面将在浏览器窗口中完全展开,提供更多的工作空间。
如果选择 了“导入数据”,则可以选择 “示例 ”,从支持的数据源中为Microsoft托管的数据集编制索引。
按照其余步骤创建索引、索引器和其他适用对象。
还可以通过其他 Azure 服务(包括 Azure Cosmos DB、Azure SQL 数据库、SQL 托管实例和 Azure Blob 存储)启动“导入数据”。 在服务概述页的左窗格中查找 “添加 Azure AI 搜索 ”。
向导中的数据源配置
向导使用索引器提供的内部逻辑连接到外部 支持的数据源 ,这些逻辑可用于对源进行采样、读取元数据、破解文档以读取内容和结构,并将内容序列化为 JSON,以便后续导入 Azure AI 搜索。
在 “导入数据 向导”中,可以将连接粘贴到其他订阅或区域中支持的数据源,但 “选择现有连接 选取器”的范围限定为活动订阅。
无法保证所有预览数据源都在向导中可用。 由于每个数据源都有可能在下游引入更改,因此仅当预览数据源完全支持向导的所有体验(如技能组定义和索引架构推理)时才添加。
只能从单个表、数据库视图或等效数据结构导入。 但是,该结构可以包括分层或嵌套的子结构。 有关详细信息,请参阅如何为复杂类型建模。
向导中的技能组配置
技能组配置发生在数据源定义之后,因为数据源的类型将指示某些内置技能的可用性。 例如,如果要从 Azure Blob 存储为文件编制索引,那么您为这些文件选择的解析模式会决定是否可以进行情绪分析。
向导不仅会添加你选择的技能,还可以添加成功结果所需的技能。 例如,如果在导入数据向导中指定知识存储,向导会添加一个 Shaper技能 来支持数据投影或物理数据结构。
技能组是可选项;如果不需要 AI 扩充,可以单击页面底部的按钮跳过此步骤。
向导中的索引架构配置
向导对数据源进行采样以检测字段和字段类型。 根据数据源,它们还可以提供用于索引元数据的字段。
由于采样是一项不精确的工作,因此查看索引时要考虑以下因素:
字段列表是否准确? 如果数据源包含未在采样中选取的字段,则可以手动添加错过的字段。 还可以删除不向搜索体验添加值的字段,或者不会在 筛选器表达式 或 计分配置文件中使用。
数据类型是否适合传入的数据? Azure AI 搜索支持实体数据模型 (EDM) 数据类型。 对于 Azure SQL 数据,有一个 映射图表 ,用于展示等效值。 有关详细信息,请参阅 字段映射和转换。
是否有一个可用作键的字段? 此字段必须是唯一标识文档的 Edm.String。 对于关系数据,它可能会映射到主键。 对于 Blob,它可能是
metadata-storage-path
。 如果字段值包括空格或短划线,则必须在“创建索引器”步骤中设置 Base-64 编码键选项(在“高级”选项下)取消对这些字符的验证检查。设置属性以确定如何在索引中使用该字段。
请花些时间来完成此步骤,因为属性确定了索引中字段的物理表达式。 如果以后想要更改属性,即使是以编程方式,你几乎总是需要删除并重新生成索引。 “可搜索”和“可检索”等核心属性对存储的影响可以忽略不计。 启用筛选器和使用建议器会提高存储要求。
“可搜索”启用全文搜索 。 自由格式查询或查询表达式中使用的每个字段都必须具有此属性。 为标记为“可搜索”的每个字段创建反向索引 。
“可检索”在搜索结果中返回该字段 。 用于提供内容以搜索结果的每个字段必须有此属性。 设置此字段不会明显影响索引大小。
“可筛选”允许在筛选表达式中引用该字段 。 在 $filter 表达式中使用的每个字段必须有此属性。 筛选表达式用于精确匹配项。 由于文本字符串保持不变,因此需要更多存储空间来容纳逐字内容。
“可查找”为分面导航启用该字段 。 只有也标记为“可筛选”的字段可标记为“可查找” 。
“可排序”允许在排序中使用该字段 。 在 $Orderby 表达式中使用的每个字段必须有此属性 。
是否需要词法分析? 对于 可搜索的 Edm.String 字段,如果需要语言增强索引和查询,可以设置 分析器 。
默认值为 Standard Lucene,但如果想要使用 Azure 的分析器进行高级词法处理,例如解析不规则的名词和动词形式,则可以选择 Microsoft英语 。 在 Azure 门户中只能指定语言分析器。 如果要使用自定义分析器或非语言分析器(如关键字或模式),则必须以编程方式创建它。 有关详细信息,请参阅 “添加语言分析器”。
是否需要自动完成或建议结果形式的自动提示功能? 选中 “建议器”复选框以启用所选字段的 提前查询建议和自动完成功能。 提示功能会增加索引中标记化术语的数量,因此占用更多的存储空间。
向导中的索引器配置
向导的最后一页将收集用于索引器配置的用户输入。 可以 指定计划 并设置其他因数据源类型而异的选项。
在内部,向导设置了以下定义,这些定义在创建索引器之后才会在索引器中显示。
尝试向导
了解向导的优点和限制的最佳方式就是逐步运行向导。 以下快速入门基于向导。