快速入门:在 Azure 门户中创建知识存储

在本快速入门中,你将创建知识存储,以充当从 Azure AI 搜索的 AI 扩充管道中生成的输出的存储库。 知识存储使生成的内容可以在 Azure 存储中用于搜索以外的工作负载。

首先,在 Azure 存储中设置一些示例数据。 接着,运行导入数据向导以创建同样会生成知识存储的扩充管道。 知识存储会包含从数据源(客户对酒店的评论)提取的原始源内容,以及 AI 生成的内容,包括情绪标签、关键短语提取和非英语客户评论的文本翻译。

先决条件

开始之前,必须具备以下先决条件:

此快速入门还将 Azure AI 服务用于 AI 扩充。 由于工作负载很小,因此在后台使用 Azure AI 服务来免费处理事务(最多 20 个事务)。 这意味着,无需创建额外的 Azure AI 多服务资源就能完成此练习。

启动向导

  1. 使用 Azure 帐户登录到 Azure 门户

  2. 查找搜索服务,并在“概述”页中,选择命令栏上的“导入数据”,通过四个步骤创建知识存储。

    “导入数据”命令的屏幕截图

步骤 1:创建数据源

由于数据在一个 CSV 文件中包含多行,因此请设置分析模式,为每一行获取一个搜索文档。

  1. 在“连接到数据”中,选择“Azure Blob 存储” 。

  2. 对于名称,请输入“hotel-reviews-ds”。

  3. 对于“要提取的数据”,请选择“内容和元数据”。

  4. 对于“分析模式”,请选择“分隔文本”,然后选中“第一行包含标头”复选框。 确保“分隔符”是逗号 (,)。

  5. 在“连接字符串”中,如果存储帐户位于同一订阅中,请选择现有连接。 否则,请粘贴 Azure 存储账户的连接字符串。

    连接字符串可以有完全访问权限,具有以下格式:DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.chinacloudapi.cn

    连接字符串也可以引用托管标识,前提是已在 Azure 存储中为其配置并分配了角色ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};

  6. 在“容器”中,输入保存数据的 Blob 容器的名称(“hotel-reviews”)。

    页面应类似于以下屏幕截图。

    数据源定义的屏幕截图

  7. 继续转到下一页。

步骤 2:添加技能

在此向导步骤中,添加 AI 扩充技能。 源数据包括用英文和法语撰写的客户评论。 与此数据集相关的技能包括关键短语提取、情绪检测和文本翻译。 在后续步骤中,这些扩充内容会以 Azure 表的形式“投影”到知识存储。

  1. 展开“附加 Azure AI 服务”。 默认已选择“免费(受限扩充)”。 之所以可以使用此资源,是因为 HotelReviews-Free.csv 中的记录数为 19 个,并且此免费资源每天最多允许 20 个事务。

  2. 展开“添加扩充”。

  3. 对于“技能组名称”,请输入“hotel-reviews-ss”。

  4. 对于“源数据字段”,请选择“reviews_text”。

  5. 对于“扩充粒度级别”,请选择“页面(5000 个字符区块)” 。

  6. 对于“文本认知技能”,请选择以下技能:

    • 提取关键短语
    • 翻译文本
    • 语言检测
    • 检测情绪

    页面应类似于以下屏幕截图所示:

    技能组定义的屏幕截图

  7. 向下滚动并展开“将扩充内容保存到知识存储”。

  8. 选择“选择现有连接”,然后选择 Azure 存储账户。 此时会显示“容器”页,以便你为投影创建容器。 建议采用前缀命名约定(如“kstore-hotel-reviews”)来区分源内容和知识存储内容。

  9. 返回到“导入数据”向导,选择以下“Azure 表投影”。 向导始终提供“文档”投影。 会根据你选择的技能(例如关键短语)或扩充粒度(页面)提供其他投影:

    • 文档
    • 关键短语

    以下屏幕截图显示向导中的表投影选择。

    知识存储定义的屏幕截图

  10. 继续转到下一页。

步骤 3:配置索引

在此向导步骤中,为可选的全文搜索查询配置索引。 知识存储不需要搜索索引,但索引器需要才能运行。

在此步骤中,向导会对数据源进行采样,以推断字段和数据类型。 你只需为所需的行为选择属性。 例如,可检索属性允许搜索服务返回字段值,而可搜索属性对字段启用全文搜索。

  1. 对于“索引名称”,请输入“hotel-reviews-idx”。

  2. 对于属性,请接受默认选项:“可检索”和“可搜索”(对于管道正在创建的新字段) 。

    索引应与下图类似: 由于该列表很长,图像中未显示所有字段。

    索引定义的屏幕截图

  3. 继续转到下一页。

步骤 4:配置和运行索引器

在此向导步骤中,配置索引器,用于统一提取前面向导步骤中定义的数据源、技能集和索引。

  1. 对于名称,请输入“hotel-reviews-idxr”。

  2. 对于“计划”,请保留默认设置“一次”。

  3. 选择“提交”运行索引器。 数据提取、索引编制和应用认知技能的操作都在此步骤中发生。

步骤 5:检查状态

在“概述”页面中,打开页面中间的“索引器”选项卡,然后选择“hotels-reviews-idxr” 。 在一两分钟内,状态应从“正在进行”变为“成功”,且没有任何错误和警告。

<!-不适用于 MC 上的功能存储浏览器-->

清理

在自己的订阅中操作时,最好在项目结束时确定是否仍需要已创建的资源。 持续运行资源可能会产生费用。 可以逐个删除资源,也可以删除资源组以删除整个资源集。

可以使用左侧导航窗格中的“所有资源”或“资源组”链接 ,在门户中查找和管理资源。

如果使用的是免费服务,请记住只能设置三个索引、索引器和数据源。 可以在门户中删除单个项目,以不超出此限制。

提示

若要重复此练习或尝试其他 AI 扩充演练,请删除 hotel-reviews-idxr 索引器和相关对象以重新创建它们。 删除该索引器会将每日的免费事务计数器重置为零。

后续步骤

现在,你已了解知识存储,请通过切换到 REST API 演练来仔细查看每个步骤。 REST 演练中介绍了向导在内部处理的任务。