共用方式為

在 Azure AI Foundry 中标记话语

为微调任务 生成架构 后,向项目添加训练话语。 陈述应类似于用户在与项目交互时使用的内容。 添加语句时,必须指定该言语所属的意图。 添加语句后,标记语句中要提取为实体的字词。

数据标记是对话语言理解(CLU)训练的开发生命周期中的关键步骤。 训练模型时,下一步会使用此数据,以便模型可以从标记的数据中学习。 如果已标记话语,则可以将数据直接 导入项目(如果数据遵循 接受的数据格式)。 若要了解有关导入标记数据的详细信息,请参阅 创建 CLU 微调任务。 标记的数据告知模型如何解释文本,并用于训练和评估。

提示

使用 “快速部署 ”选项实现自定义 CLU 意向路由,该路由由你自己的大型语言模型部署提供支持,无需添加或标记任何训练数据。

先决条件

有关详细信息,请参阅 CLU 开发生命周期

数据标记指南

生成架构创建项目后,需要标记数据。 标记数据非常重要,以便模型知道哪些句子和字词与项目中的意向和实体相关联。 花时间标记话语来引入和优化用于训练模型的数据。

添加语句并标记它们时,请记住:

  • 机器学习模型基于你提供的标记示例进行通用化。 提供的示例越多,模型所需的数据点越多,就可以进行更好的通用化。

  • 标记数据的精度、一致性和完整性是确定模型性能的关键因素:

    • 准确标记: 始终将每个意向和实体标记为其正确的类型。 仅包括要分类和提取的内容。 避免标签中不必要的数据。
    • 标签一致: 同一实体应在所有陈述中具有相同的标签。
    • 完全标记:为每个意向提供不同的语句。 标记所有语句中实体的所有实例。

清楚地标记语句

  • 确保实体引用的概念定义清晰且可分离。 检查是否可以轻松可靠地确定差异。 如果你无法做到,这种缺乏区别可能表明学习组件存在困难。

  • 确保数据的某些方面可以在实体之间存在相似性时提供差异信号。

    例如,如果你生成了一个模型来预订航班,用户可能会使用此类语句:“我想要预订从波士顿飞往西雅图的航班。”此类语句的“出发地城市”和“目的地城市”应该类似。 区分“出发地城市”的一个信号可能是,它的前面经常出现“从”一词

  • 确保在训练数据和测试数据中标记每个实体的所有实例。 一种方法是使用搜索函数查找数据中某个字词或短语的所有实例,以检查是否正确标记。

  • 确保您为没有 已学习组件 的实体以及有 已学习组件 的实体标记测试数据。 这种做法有助于确保评估指标准确。

  • 对于 多语言项目,使用其他语言添加话语会增加模型在这些语言中的性能。 避免跨要支持的所有语言复制数据。 例如,为了提高日历机器人与用户的互动表现,开发人员可能会添加一些以英语为主的示例,还包括少量西班牙语或法语。 他们可能会添加以下言语:

    • Set a meeting with **Matt** and **Kevin** **tomorrow** at **12 PM**. (英语)
    • Reply as **tentative** to the **weekly update** meeting. (英语)
    • Cancelar mi **próxima** reunión. (西班牙语)

标记语句

使用以下步骤标记语句:

  1. 转到 Language Studio 中的项目页面。

  2. 在左窗格中,选择“ 管理数据”。 在此页上,可以添加话语并标记它们。 还可以直接从顶部菜单中选择“ 上传话语文件 ”来直接上传话语。 请确保遵循 接受的格式

  3. 通过使用顶部选项卡,可以将视图更改为 “训练集 ”或 “测试集”。 详细了解训练集和测试集以及它们如何用于模型训练和评估。

    显示用于在 Language Studio 中标记话语的页面的屏幕截图。

    提示

    如果计划使用“从训练数据中自动拆分测试集”拆分,请将所有语句添加到训练集中

  4. 在“选择意向”下拉菜单中,选择其中一个意向、语句的语言(对于多语言项目),以及语句本身。 在话语的文本框中按 Enter 键并添加话语。

  5. 有两个选项来标记语句中的实体:

    选项 说明
    使用画笔标记 选择右侧窗格中实体旁边的画笔图标,然后在要标记的话语中突出显示文本。
    使用内联菜单标记 突出显示要标记为实体的字词,随即会显示一个菜单。 选择要标记这些字词的实体。
  6. 在右侧的窗格中,在标签选项卡上,可以找到项目中的所有实体类型及每种实体类型的标记实例数量。

  7. “分发 ”选项卡上,可以查看训练集和测试集之间的分布。 可以使用以下选项查看:

    • 每个标记实体的实例总数: 可以查看特定实体的所有标记实例的计数。
    • 每个标记实体的唯一陈述: 如果每个陈述包含此实体的至少一个标记实例,则会对其进行计数。
    • 每个意向的语句数: 您可以查看每个意向的语句数量。

    一张显示 Language Studio 中实体分布的屏幕截图。

注意

数据标记页上不显示列表、正则表达式和预生成组件。 此处的所有标签仅适用于学习相关的组件。

删除标签:

  1. 从语句中,选择要从中移除标记的实体。
  2. 滚动显示的菜单,然后选择“删除标签”。

删除实体:

  1. 在右侧窗格中选择要编辑的实体旁边的垃圾箱图标。
  2. 选择“删除”以确认。