Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
在本快速入门中,你将在 Azure portal 中使用 导入数据(新)向导并开始使用多模态搜索。 向导简化了将文本和图像提取、分块、向量化后加载到可搜索索引中的过程。
本快速入门使用来自 azure-search-sample-data 存储库的多模态 PDF。 但是,你可以使用不同的文件,这样仍然可以完成本快速入门。
小窍门
有文本密集型文档? 请参阅 Quickstart:在 Azure 门户中进行矢量搜索,用于分块和向量化内容,并支持图像的可选使用。
先决条件
具有活动订阅的Azure帐户。 创建试用版订阅。
Azure AI Search service。 对于托管标识支持和更高的限制,建议使用基本层或更高层。
Azure Storage 帐户。 在具有分层命名空间的标准性能(通用 v2)帐户上,使用 Azure Blob Storage 或 Azure Data Lake Storage Gen2。 访问层级可以是热层、温层或冷层。
熟悉向导。 请参阅 Azure portal 中的导入数据向导。
支持的提取方法
对于内容提取,可以通过 Azure AI Search 选择默认提取,也可以通过 Foundry Tools 中的 Azure 文档智能进行增强提取。 下表描述了这两种提取方法。
| 方法 | Description |
|---|---|
| 默认提取 | 仅从 PDF 图像中提取位置元数据。 不需要另一个Azure资源。 |
| 增强提取 | 从多个文档类型的文本和图像中提取位置元数据。 需要 Azure AI 多服务帐户1 进行集成。 |
1 出于计费目的,您必须将您的多服务帐户附加到Azure AI Search技能集中。 该向导要求搜索服务和多服务帐户位于 文档布局技能的同一支持区域中。
支持的嵌入方法
对于内容嵌入,请选择以下方法之一:
图像语言化: 使用 LLM 生成图像的自然语言描述,然后使用嵌入模型向量化纯文本和口头化图像。
多模式嵌入: 使用嵌入模型直接向量化文本和图像。
门户支持每个方法的以下模型。 稍后部分提供了部署说明。
| Provider | 图像语言化的模型 | 用于多模式嵌入的模型 |
|---|---|---|
| 在 Foundry 模型资源中的 Azure OpenAI1、2 | LLMs: gpt-4o gpt-4o-mini gpt-5 gpt-5-mini gpt-5-nano 嵌入模型: text-embedding-ada-002 text-embedding-3-small text-embedding-3-large |
|
| Foundry 资源4 | 嵌入模型:Azure Vision 在 Foundry Tools 多模式5中 | Azure 视觉多模态5 |
1 Azure OpenAI 资源的终结点必须具有自定义子域名,例如 https://my-unique-name.openai.azure.com。 如果在 Azure portal 中创建资源,则此子域在资源设置过程中自动生成。
2 个 Azure OpenAI 资源(具有访问嵌入模型的权限)在 Foundry 门户 中创建的不受支持。 必须在Azure portal中创建 Azure OpenAI 资源。
4 出于计费目的,必须将您的 Foundry 资源附加到 Azure AI Search 服务中的技能集。 除非使用 无键连接(预览版) 创建技能集,否则这两个资源必须位于同一区域。
5 Azure 视觉多模式嵌入 API 可在 选择区域中使用。
公共端点要求
上述所有资源都必须启用公共访问,以便 Azure 门户节点可以访问它们。 否则,向导将失败。 运行向导后,你可以为集成组件启用防火墙和专用终结点以确保安全。 有关详细信息,请参阅 导入向导中的安全连接。
如果专用终结点已存在且无法禁用它们,则替代方法是从虚拟机上的脚本或程序运行相应的端到端流。 虚拟机必须与专用终结点位于同一虚拟网络。 Here 的 Python 代码示例用于集成矢量化。 同一GitHub存储库具有其他编程语言的示例。
配置访问
在开始之前,请确保你有权访问内容和操作。 本快速入门指南使用 Microsoft Entra ID 进行身份验证,并通过基于角色的访问来进行授权。 必须是 Owner 或 User Access Administrator 才能分配角色。 如果角色设置不可行,请改用基于密钥的身份验证方式。
必需的角色
所有多模式搜索方案都需要Azure AI Search和Azure Storage。
Azure AI Search 提供多模式处理流程。 为您和搜索服务配置访问权限,以便读取数据、运行管道,并与其他 Azure 资源进行交互。
在 Azure AI 搜索服务中:
将以下角色分配给自己。
搜索服务贡献者
搜索索引数据参与者
搜索索引数据读取者
条件角色
以下选项卡涵盖适用于多模式搜索向导的资源。 仅选择应用于所选提取方法和嵌入方法的选项卡。
多服务帐户提供对多个Azure服务的访问权限,包括用于内容提取Azure文档智能,以及用于内容嵌入的Azure视觉。 您的搜索服务需要访问 Document 布局技能 和 Azure 视觉多模式嵌入技能。
在您的多服务帐户中:
- 将认知服务用户分配给您的搜索服务的托管标识。
准备示例数据
本快速入门使用示例多模式 PDF,但你也可以使用自己的文件。 如果您使用的是免费搜索服务,请使用少于 20 个文件以保持在免费配额内进行数据增强处理。
若要为此快速入门准备示例数据,请执行以下操作:
登录到 Azure portal 并选择Azure Storage帐户。
在左窗格中,选择Data storage>Containers。
创建容器,然后将 sample PDF 上传到容器。
创建另一个容器来存储从 PDF 中提取的图像。
准备模型
注释
如果使用 Azure Vision,请跳过此步骤。 多模式嵌入内置于多服务帐户中,不需要模型部署。
启动向导
若要启动多模式搜索的向导,
登录到 Azure portal 并选择Azure AI Search service。
在“概述”页上,选择“导入数据”(新)。
选择数据源:Azure Blob Storage 或 Azure Data Lake Storage Gen2。
选择“多模态 RAG”。
运行向导
向导将引导你完成多个配置步骤。 本部分按顺序介绍每个步骤。
连接到数据
Azure AI Search需要连接到数据源才能进行内容引入和索引编制。 在这种情况下,数据源是Azure Storage帐户。
若要连接到你的数据,请执行以下操作:
提取内容
根据所选 的提取方法,向导提供用于文档破解和分块的配置选项。
将您的内容嵌入
在此步骤中,向导使用所选 的嵌入方法 生成文本和图像的矢量表示形式。
向导调用一个技能为图像(图像语言化)创建描述性文本,另一个技能为文本和图像创建矢量嵌入。
对于图像语言化,GenAI 提示技能 使用您部署的 LLM 对每个提取的图像进行分析,并生成自然语言的描述。
对于嵌入,Azure OpenAI 嵌入技能或Azure AI Vision多模式嵌入技能使用已部署的嵌入模型将文本区块和语言化描述转换为高维矢量。 这些向量可实现相似性和混合检索。
若要使用图像语言化技能,请执行以下步骤:
在 “内容嵌入 ”页上,选择“ 图像语言化”。
在“ 图像语言化 ”选项卡上:
在 “文本矢量化 ”选项卡上:
选择“下一步”。
存储提取的图像
下一步是从文档中提取的图像发送到Azure Storage。 在 Azure AI Search 中,此辅助存储称为 知识存储。
若要存储已提取的图像,请执行以下操作:
添加语义排名
在“高级设置”页上,可以选择添加语义排名,以在查询执行结束时将结果重新排名。 重新排名会将在语义方面最相关的匹配项提升到顶部。
映射新字段
在 “高级设置” 页上,可以选择将字段添加到索引架构。 默认情况下,向导将生成下表中所述的字段。
| 领域 | 适用于 | Description | 特性 |
|---|---|---|---|
| content_id | 文本和图像矢量 | 字符串字段。 索引的文档键。 | 可检索、可排序和可搜索。 |
| document_title | 文本和图像矢量 | 字符串字段。 人类可读的文档标题。 | 可检索且可搜索。 |
| text_document_id | 文本向量 | 字符串字段。 标识文本区块源自的父文档。 | 可检索和筛选。 |
| image_document_id | 图像矢量 | 字符串字段。 标识图像来源的父文档。 | 可检索和筛选。 |
| content_text | 文本向量 | 字符串字段。 文本区块的人工可读版本。 | 可检索且可搜索。 |
| content_embedding | 文本和图像矢量 | Collection(Edm.Single). 文本和图像的矢量表示形式。 | 可检索且可搜索。 |
| content_path | 文本和图像矢量 | 字符串字段。 存储容器中内容的路径。 | 可检索且可搜索。 |
| locationMetadata | 图像矢量 | Edm.ComplexType. 包含有关文档中图像位置的元数据。 | 因领域而异。 |
不能修改生成的字段或其属性,但如果数据源提供字段,则可以添加字段。 例如,Azure Blob Storage提供元数据字段的集合。
向索引架构添加字段:
在 “索引”字段下,选择“ 预览”和“编辑”。
选择添加字段。
从可用字段中选择源字段,输入索引的字段名称,并接受默认数据类型(或替代)。
如果要将架构还原到其原始版本,请选择“ 重置”。
该步骤的要点:
索引架构为分块数据提供向量字段和非函数字段。
文档分析模式会创建区块(每个区块一个搜索文档)。
计划索引编制
对于基础数据不稳定的数据源,可以 计划索引 以在特定时间间隔或特定日期和时间捕获更改。
若要计划索引,请执行以下操作:
完成该向导
最后一步是查看配置并创建用于多模式搜索的必要对象。 如有必要,请返回到向导中的上一页以调整配置。
若要完成向导,请执行以下操作:
向导创建的对象
当向导完成配置时,它会创建以下对象:
| 对象 | Description |
|---|---|
| 数据源 | 表示与Azure Blob Storage的连接。 |
| 索引 | 包含文本字段、矢量字段、向量器、向量配置文件和向量算法。 无法在向导工作流期间修改默认索引。 索引符合 最新的预览版 REST API ,以便可以使用预览功能。 |
| 技能集 | 包含以下技能:
|
| Indexer | 使用字段映射和输出字段映射(如果适用)驱动索引管道。 |
小窍门
向导创建的对象具有可配置的 JSON 定义。 若要查看或修改这些定义,请从左窗格中选择 “搜索管理 ”,可在其中查看索引、索引器、数据源和技能集。
检查结果
本快速入门创建一个多模式索引,该索引支持对文本和图像进行 混合搜索 。 除非使用直接多模式嵌入,否则索引不接受图像作为查询输入,这需要具有等效向量器的Azure AI Vision多模式嵌入技能。 有关详细信息,请参阅 在搜索索引中配置向量器。
混合搜索结合了全文查询和矢量查询。 发出混合查询时,搜索引擎将计算查询与索引向量之间的语义相似性,并相应地对结果进行排名。 对于在本快速入门中创建的索引,结果中显示出 content_text 字段中的内容,这些内容与您的查询紧密对齐。
要查询您的多模态索引,请:
登录到 Azure portal 并选择Azure AI Search service。
在左窗格中,选择 “搜索管理>索引”。
选择你的索引。
选择 “查询”选项,然后选择“ 隐藏搜索结果中的矢量值”。 此步骤使结果更具可读性。
输入要搜索的文本。 我们的示例使用
energy。若要运行查询,请选择“ 搜索”。
JSON 结果应包含与索引中相关的
energy文本和图像内容。 如果启用了语义排名器,则@search.answers数组提供简洁、高置信 度语义答案 ,可帮助你快速识别相关的匹配项。"@search.answers": [ { "key": "a71518188062_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_normalized_images_7", "text": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like energy distribution, resource allocation, and environmental monitoring. **Accelerate the development of sustainability solution...", "highlights": "A vertical infographic consisting of three sections describing the roles of AI in sustainability: 1. **Measure, predict, and optimize complex systems**: AI facilitates analysis, modeling, and optimization in areas like<em> energy distribution, </em>resource<em> allocation, </em>and environmental monitoring. **Accelerate the development of sustainability solution...", "score": 0.9950000047683716 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_5", "text": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim 10.5 gigawatts (GW) of renewable energy to the grid.910.5 GWof new renewable energy capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "highlights": "...cross-laminated timber.8 Through an agreement with Brookfield, we aim <em> 10.5 gigawatts (GW) of renewable energy </em>to the<em> grid.910.5 </em>GWof new<em> renewable energy </em>capacity to be developed across the United States and Europe.Play 4 Advance AI policy principles and governance for sustainabilityWe advocated for policies that accelerate grid decarbonization", "score": 0.9890000224113464 }, { "key": "1cb0754930b6_aHR0cHM6Ly9oYWlsZXlzdG9yYWdlLmJsb2IuY29yZS53aW5kb3dzLm5ldC9tdWx0aW1vZGFsLXNlYXJjaC9BY2NlbGVyYXRpbmctU3VzdGFpbmFiaWxpdHktd2l0aC1BSS0yMDI1LnBkZg2_text_sections_50", "text": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community Solar MicrogridsDeveloping energy transition programsWe are co-innovating with communities to develop energy transition programs that align their goals with broader s.", "highlights": "ForewordAct... Similarly, we have restored degraded stream ecosystems near our datacenters from Racine, Wisconsin120 to Jakarta, Indonesia.117INNOVATION SPOTLIGHTAI-powered Community<em> Solar MicrogridsDeveloping energy transition programsWe </em>are co-innovating with communities to develop<em> energy transition programs </em>that align their goals with broader s.", "score": 0.9869999885559082 } ]
清理资源
在您自己的订阅计划中工作时,最好通过删除不再需要的资源来完成项目。 持续运行的资源可能会产生费用。
在 Azure 门户中,从左窗格中选择 “所有资源 ”或 “资源组 ”以查找和管理资源。 可以单独删除资源,也可以删除资源组以一次性删除所有资源。
后续步骤
本快速入门介绍了 导入数据(新) 向导,该向导为多模式搜索创建所有必要的对象。