在 Azure 机器学习提示流中创建矢量索引(预览版)

借助 Azure 机器学习,可以从计算机上的文件或文件夹、云存储中的位置、Azure 机器学习数据资产、Git 存储库或 SQL 数据库创建向量索引。 Azure 机器学习目前可以处理 .txt、.md、.pdf、.xls 和 .docx 格式的文件。 你还可以重复使用现有的 Azure AI 搜索(以前称为认知搜索)索引,而不用创建新的索引。

创建向量索引时,Azure 机器学习将对数据进行分块、创建嵌入项,并将嵌入项存储在 Faiss 索引或 Azure AI 搜索索引中。 此外,Azure 机器学习还会创建:

  • 数据源的测试数据。

  • 示例提示流,它使用所创建的向量索引。 示例提示流包括以下功能:

    • 自动生成的提示变体。
    • 使用生成的测试数据对每个提示变体进行评估。
    • 针对每个提示变体的指标,可帮助你选择要运行的最佳变体。

    可使用此示例来继续开发你的提示。

重要

此功能目前处于公开预览状态。 此预览版在提供时没有附带服务级别协议,我们不建议将其用于生产工作负荷。 某些功能可能不受支持或者受限。

有关详细信息,请参阅适用于 Azure 预览版的补充使用条款

先决条件

  • Azure 订阅。 如果没有 Azure 订阅,请创建一个试用帐户

  • 访问 Azure OpenAI 服务。

  • 已在 Azure 机器学习工作区中启用了提示流。 可以在“管理预览功能”面板中启用“使用提示流生成 AI 解决方案”以启用提示流。

使用 Azure 机器学习工作室创建矢量索引

  1. 在左侧菜单中选择“提示流”。

    显示左侧菜单上的提示流的位置的屏幕截图。

  2. 选择“矢量索引”选项卡。

    显示“矢量索引”选项卡的屏幕截图。

  3. 选择“创建” 。

  4. 当用于创建矢量索引的窗体打开后,为矢量索引起一个名称。

    显示创建矢量索引的基本设置的屏幕截图。

  5. 选择数据源类型。

  6. 根据所选类型,提供源的位置详细信息。 然后,选择“下一步” 。

  7. 查看向量索引的详细信息,然后选择“创建”按钮。

  8. 在显示的概述页上,可以跟踪和查看创建矢量索引的状态。 根据数据的大小,这可能需要一些时间。

向提示流添加矢量索引

创建向量索引后,可以从提示流画布将其添加到提示流。

  1. 打开现有提示流。

  2. 在提示流设计器的顶部菜单中,选择“更多工具”,然后选择“索引查找”。

    显示可用工具列表的屏幕截图。

    索引查找工具添加到了画布。 如果没有立即看到该工具,请滚动到画布底部。

    显示矢量索引查询工具的屏幕截图。

  3. 选择“mlindex_content”值框,然后选择索引。 该工具应检测到在教程的“创建矢量索引”部分中创建的索引。 填写所有必要的信息后,选择“保存”以关闭生成抽屉。

  4. 输入要针对索引执行的查询和 query_types。

    在本例中可以输入的纯字符串的示例为:How to use SDK V2?'. Here is an example of an embedding as an input: ${embed_the_question.output}`。 仅当矢量索引在创建它的工作区上被使用时,传递纯字符串才会起作用。

支持的文件类型

用于创建向量索引作业的受支持的文件类型:.txt.md.html.htm.py.pdf.ppt.pptx.doc.docx.xls.xlsx。 创建过程中将忽略任何其他文件类型。

后续步骤

通过 Azure 机器学习使用矢量存储(预览版)