Azure门户中的 Import 数据向导提供了一种无需编码即可创建可查询搜索索引的路径。 它连接到支持的数据源、配置可选的 AI 扩充和矢量化、推断索引架构并将内容加载到索引中。 可以使用向导工具进行关键字搜索、RAG 和多模式 RAG。
向导支持:
- 索引器管道创建,包括索引、索引器、数据源和技能集。
- 内置索引器和Azure Logic Apps连接器。
- 基于技能的 AI 扩充。
- 数据分块和集成向量化,包括多模式嵌入。
- 语义排名配置。
- 知识库的创建。
向导支持的功能
本部分介绍向导中提供的功能。
内置示例数据
酒店示例索引的内置示例数据不再可用。 但是,可以通过遵循 Quickstart:Azure 门户中的全文搜索来创建相同的索引。
数据源
该向导通过 内置索引器连接到以下数据源。
| 数据源 | 支持 | 连接 |
|---|---|---|
| ADLS Gen2 | ✅ | 内置索引器 |
| Azure Blob Storage | ✅ | 内置索引器 |
| Azure Table Storage | ✅ | 内置索引器 |
| Azure SQL 数据库 和 托管实例 | ✅ | 内置索引器 |
| 适用于 NoSQL 的 Cosmos DB | ✅ | 内置索引器 |
| Cosmos DB for MongoDB | ✅ | 内置索引器 |
| Cosmos DB for Apache Gremlin | ✅ | 内置索引器 |
| MySQL | ❌ | 不適用 |
| 虚拟机上的 SQL Server | ✅ | 内置索引器 |
小窍门
可以使用搜索服务 REST API 以编程方式为来自这些源的数据编制索引,而不是使用用于Azure文件存储或SharePoint的逻辑应用连接器。 有关详细信息,请参阅 Azure Files 中的索引数据。
技能
以下技能可能出现在向导生成的技能集中。 创建技能集后,可以修改其 JSON 定义以添加或删除技能。
| 技能 | 支持 | 说明 |
|---|---|---|
| Azure 视觉多模式嵌入 | ✅ | 仅适用于 RAG 和多模式 RAG。 |
| 文档布局 | ✅ | 仅适用于 RAG 和多模式 RAG。 |
| 实体识别 | ✅ | 仅适用于关键字搜索。 |
| 图像分析 | ✅ | 适用于 Azure Storage blob 和 Microsoft OneLake 文件,假设采用默认分析模式。 使用图像内容类型(如 PNG 或 JPG)或应用程序文件中的嵌入图像,例如 PDF。 |
| 关键短语提取 | ✅ | 仅适用于关键字搜索。 |
| 语言检测 | ✅ | 仅适用于关键字搜索。 技能集包括实体识别、关键短语提取或文本拆分时自动添加。 不可用户配置。 |
| 文本翻译 | ❌ | 不適用。 |
| 光学字符识别 | ✅ | 适用于 Azure Storage blob 和 Microsoft OneLake 文件,假设采用默认分析模式。 使用图像内容类型(如 PNG 或 JPG)或应用程序文件中的嵌入图像,例如 PDF。 |
| PII 检测 | ❌ | 不適用。 |
| 情绪 | ❌ | 不適用。 |
| 刨床 | ❌ | 不適用。 |
| 文本合并 | ✅ | 为选择嵌入模型时添加了数据分块功能。 对于非嵌入技能,当你将源字段的粒度设置为页面或句子时,会添加它。 |
语义排名
语义排名适用于所有向导方案:关键字搜索、RAG 和多模式 RAG。 如果启用,向导会将 语义配置 添加到索引。
知识存储
知识存储 创建仅适用于多模式 RAG 方案。 向导从文档中提取图像,并将其作为 blob 存储在您指定的 Azure 存储容器中。
向导创建的内容
完成向导后,它会在搜索服务上创建多个对象。 确切的对象取决于所选的选项。 例如,如果应用基于技能的扩充,则会创建技能集。
| 物体 | 说明 |
|---|---|
| 索引 | 用于全文搜索、矢量搜索和其他查询的物理数据结构。 如果启用语义排名,可以包含语义配置。 |
| 索引器 | 通过按可选计划从数据源拉取到目标索引来驱动数据导入。 还可以参考技能集。 |
| 技能集 | (可选)在编制索引期间,有关 AI 扩充、数据分块和集成向量化的说明集。 |
| 知识存储 | (可选)技能集输出的Azure Storage中的辅助存储,例如提取的图像。 |
在向导运行后查看这些对象:
- 在 Azure 门户中,转到你的搜索服务。
- 在左窗格中,选择 “搜索管理 ”以查找索引、索引器、数据源和技能集的页面。
优点和限制
本部分讨论向导体验的优缺点。 使用此信息可以决定何时使用向导以及何时考虑使用替代方法,例如使用 REST API 或Azure SDKs的编程方法。
好处
在编写任何代码之前,可以使用向导进行原型制作和概念证明测试。 该向导连接到外部数据源,对数据采样以创建初始索引,然后将数据导入并选择性地将数据作为 JSON 文档导入到Azure AI Search的索引中。
如果要评估技能集,向导将处理输出字段映射,并添加帮助程序函数来创建可用对象。 选择图像分析时,会新增文本合并功能,使得向导能够将文本说明与图像内容重新关联。 所有这些任务都带有学习曲线。 如果你不熟悉扩充,请为你处理这些步骤,这样就可以测量技能的价值,而无需投入大量时间和精力。
采样是推断索引架构的过程,它具有一些限制。 创建数据源时,向导会选取一个随机的文档示例,以确定哪些列是数据源的一部分。 并非所有文件都被读取,因为对大型数据源执行此操作可能需要几个小时。 给定文档的选择,源元数据(如字段名称或类型)用于在索引架构中创建字段集合。 根据源数据的复杂性,可能需要编辑初始架构以获取准确性或将其扩展为完整性。 可以直接在索引定义页上进行更改。
总的来说,向导的优点是明确的:只要满足要求,就可以在几分钟内创建可查询索引。 向导处理索引的某些复杂性,例如将数据序列化为 JSON 文档。
限制
向导不支持迭代或重复使用。 通过向导的每一次处理都会创建索引、技能集和索引器配置。 完成向导后,可以使用其他门户工具、REST API 或Azure SDKs编辑创建的对象。
源内容必须位于受支持的数据源中。
用于推断初步索引架构的采样发生在源数据的子集上。 对于大型数据源,向导可能会遗漏字段。 如果采样不足,可能需要手动将字段添加到索引或更正推断的数据类型。
安全连接
网络保护会影响门户到终结点的连接;同时也影响门户操作期间的终结点到外部资源的连接。
门户连接到搜索服务
使用客户端 IP 地址建立到受网络保护的终结点的门户连接。
对于受防火墙保护的搜索服务,将客户端 IP 地址添加到入站规则中。
对于为 专用终结点配置的搜索服务,请使用允许列出的虚拟机上的浏览器打开门户页面并运行向导。
对于集成到网络安全边界的搜索服务,将您的客户端 IP 地址添加到入站规则中。
小窍门
门户会检测客户端 IP 地址,并提示你将其添加到search service防火墙。
与外部资源的门户连接
向导程序连接到外部资源进行以下操作:
- 索引期间的数据检索。
- 用于
和<集成向量化>的 AI 处理由 Azure AI 服务资源或模型执行。
从向导中,几乎每个受网络保护的数据和 AI 处理的出站请求都是使用客户端的 IP 地址进行的。
本部分介绍出站请求的连接要求。
配置门户对外部资源的访问
受 IP 保护的资源:将客户端 IP 地址添加到外部资源的
allowList地址。 如果受支持,请列出Microsoft.Search/searchServices作为受信任的服务。 例如,在 Azure Storage 中,可以将Microsoft.Search/searchServices列为受信任的服务。专用连接:向导使用 共享专用链接。 验证搜索服务是否满足等级和区域要求。 验证你的外部数据源是否支持共享专用链接。
如果向导无法连接,你将看到 "Access denied due to Virtual Network/Firewall rules"。 请考虑使用脚本化或编程方法作为替代方法。
Workflow
该向导遵循高级工作流:
连接到受支持的Azure数据源。
(可选)添加技能以提取或生成内容和结构。
创建索引架构,通过对源数据采样进行推断。
运行向导以创建对象、(可选)向量化数据、将数据加载到索引中、设置计划以及配置其他选项。
工作流是单向管道。 无法使用向导编辑创建的任何对象,但可以使用其他门户工具(如索引设计器或 JSON 编辑器)进行允许的更新。
启动向导
在 Azure 门户中,转到你的搜索服务。
在“ 概述 ”页上,选择“ 导入数据”。
向导将在浏览器窗口中全屏展开,让你有更多的工作空间。
选择方案: 关键字搜索、 RAG 或 多模式 RAG。
选择的方案决定了可用的数据源和技能,以及向导创建的索引架构和索引器配置。
按照其余步骤创建索引、索引器和其他适用对象。
配置数据源
该向导使用索引器提供的内部逻辑连接到外部 supported 数据源,这些逻辑可用于对源进行采样、读取元数据、破解文档以读取内容和结构,并将内容序列化为 JSON,以便后续导入到Azure AI Search。
并非所有预览数据源都保证在向导中可用。 由于每个数据源都有可能在下游引入更改,因此仅当预览数据源完全支持向导的所有体验(如技能组定义和索引架构推理)时才添加。
只能从单个表、数据库视图或等效数据结构导入。 但是,该结构可以包括分层或嵌套的子结构。 有关详细信息,请参阅如何为复杂类型建模。
配置技能集
技能组配置发生在数据源定义之后,因为数据源的类型将指示某些内置技能的可用性。 例如,如果要从Azure Blob Storage为文件编制索引,则为这些文件选择的分析模式决定了情绪分析是否可用。
向导不仅会添加您选择的技能,还会添加成功所需的技能。
技能组是可选项;如果不需要 AI 扩充,可以单击页面底部的按钮跳过此步骤。
配置索引架构
向导会采样数据源以检测字段和字段类型。 根据数据源,它还可能提供用于索引元数据的字段。
由于采样是一项不精确的工作,因此查看索引时要考虑以下因素:
字段列表是否准确? 如果数据源包含未在采样中选取的字段,则可以手动添加错过的字段。 还可以删除不向搜索体验添加值的字段,或者不会在 筛选器表达式 或 计分配置文件中使用。
数据类型是否适合传入的数据? Azure AI Search支持 entity 数据模型(EDM)数据类型。 对于 Azure SQL 数据,有一个 映射表 列出等效值。 有关详细信息,请参阅 字段映射和转换。
是否有一个可用作键的字段? 此字段必须是唯一标识文档的 Edm.String。 对于关系数据,它可能会映射到主键。 对于 blob,它可能是
metadata-storage-path。 如果字段值包括空格或短划线,则必须在“创建索引器”步骤中设置 Base-64 编码键选项(在“高级”选项下)取消对这些字符的验证检查。设置属性以确定如何在索引中使用该字段。
请花些时间来完成此步骤,因为属性确定了索引中字段的物理表达式。 如果以后想要更改属性,即使是以编程方式,你几乎总是需要删除并重新生成索引。 Searchable 和 Retrievable 等核心属性对存储的影响微不足道。 启用筛选器和建议器会增加存储要求。
“可搜索”启用全文搜索 。 自由格式查询或查询表达式中使用的每个字段都必须具有此属性。 为标记为“可搜索”的每个字段创建反向索引 。
在搜索结果中,“可检索”将返回该字段。 用于提供内容以搜索结果的每个字段必须有此属性。 设置此字段不会明显影响索引大小。
“可筛选”允许在筛选表达式中引用该字段 。 在 $filter 表达式中使用的每个字段必须有此属性。 筛选表达式用于进行精确匹配。 由于文本字符串保持不变,因此需要更多的存储来容纳逐字内容。
启用该字段以便于进行分面导航。 只有也标记为“可筛选”的字段可标记为“可查找” 。 “可排序”允许在排序中使用该字段 。 在 $Orderby 表达式中使用的每个字段必须有此属性 。
是否需要词法分析? 对于 可搜索的 Edm.String 字段,如果需要语言增强索引和查询,可以设置 分析器 。
默认值为 Standard Lucene,但如果想要使用 Microsoft 的分析器进行高级词法处理(例如解析不规则的名词和谓词形式),可以选择 Microsoft 英语。 只能在Azure门户中指定语言分析器。 如果要使用自定义分析器或非语言分析器(如关键字或模式),则必须以编程方式创建它。 有关详细信息,请参阅 “添加语言分析器”。
需要在表单中实现自动完成或建议结果形式的提前输入功能吗? 选中 “建议器”复选框以启用所选字段的 提前查询建议和自动完成功能。 建议器会增加在你的索引中标记化术语的数量,从而消耗更多存储。
配置索引器
向导的最后一页将收集用于索引器配置的用户输入。 可以 指定计划 并设置其他因数据源类型而异的选项。
在内部,向导设置了以下定义,这些定义在创建索引器之后才会在索引器中显示。
尝试向导
了解向导的优点和限制的最佳方式就是逐步运行导入向导。 以下快速入门基于向导。