在 Azure 机器学习提示流中创建矢量索引(预览版)
借助 Azure 机器学习,可以从计算机上的文件或文件夹、云存储中的位置、Azure 机器学习数据资产、Git 存储库或 SQL 数据库创建向量索引。 Azure 机器学习目前可以处理 .txt、.md、.pdf、.xls 和 .docx 格式的文件。 你还可以重复使用现有的 Azure AI 搜索(以前称为认知搜索)索引,而不用创建新的索引。
创建向量索引时,Azure 机器学习将对数据进行分块、创建嵌入项,并将嵌入项存储在 Faiss 索引或 Azure AI 搜索索引中。 此外,Azure 机器学习还会创建:
数据源的测试数据。
示例提示流,它使用所创建的向量索引。 示例提示流包括以下功能:
- 自动生成的提示变体。
- 使用生成的测试数据对每个提示变体进行评估。
- 针对每个提示变体的指标,可帮助你选择要运行的最佳变体。
可使用此示例来继续开发你的提示。
重要
此功能目前处于公开预览状态。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。
有关详细信息,请参阅适用于 Azure 预览版的补充使用条款。
先决条件
Azure 订阅。 如果没有 Azure 订阅,请创建一个试用帐户。
访问 Azure OpenAI 服务。
已在 Azure 机器学习工作区中启用了提示流。 可以在“管理预览功能”面板中启用“使用提示流生成 AI 解决方案”以启用提示流。
使用 Azure 机器学习工作室创建矢量索引
在左侧菜单中选择“提示流”。
选择“矢量索引”选项卡。
选择“创建” 。
当用于创建矢量索引的窗体打开后,为矢量索引起一个名称。
选择数据源类型。
根据所选类型,提供源的位置详细信息。 然后,选择“下一步” 。
查看向量索引的详细信息,然后选择“创建”按钮。
在显示的概述页上,可以跟踪和查看创建矢量索引的状态。 根据数据的大小,这可能需要一些时间。
向提示流添加矢量索引
创建向量索引后,可以从提示流画布将其添加到提示流。
打开现有提示流。
在提示流设计器的顶部菜单中,选择“更多工具”,然后选择“索引查找”。
索引查找工具添加到了画布。 如果没有立即看到该工具,请滚动到画布底部。
选择“mlindex_content”值框,然后选择索引。 该工具应检测到在教程的“创建矢量索引”部分中创建的索引。 填写所有必要的信息后,选择“保存”以关闭生成抽屉。
输入要针对索引执行的查询和 query_types。
在本例中可以输入的纯字符串的示例为:
How to use SDK V2?'. Here is an example of an embedding as an input:
${embed_the_question.output}`。 仅当矢量索引在创建它的工作区上被使用时,传递纯字符串才会起作用。
支持的文件类型
用于创建矢量索引作业的受支持的文件类型:.txt
、.md
、.html
、.htm
、.py
、.pdf
、.ppt
、.pptx
、.doc
、.docx
、.xls
、.xlsx
。 创建过程中将忽略任何其他文件类型。