在 Language Studio 中标记语句

为项目生成架构之后,应向项目添加训练言语。 这些言语应类似于用户在与项目交互时将使用的言语。 添加语句时,必须指定该言语所属的意图。 添加语句后,标记语句中要提取为实体的字词。

标记数据是开发生命周期中的关键步骤;训练模型时,此数据将在下一步骤中使用,以便模型可以从标记的数据中学习。 如果已标记了语句,可以直接将其导入项目,但需要确保数据遵循接受的数据格式。 请参阅创建项目,了解有关如何将标记的数据导入项目。 标记的数据可告知模型如何解释文本,并且会用于训练和评估。

先决条件

标记数据之前,需要:

有关详细信息,请参阅项目开发生命周期

数据标记指南

生成架构创建项目之后,需要标记数据。 标记数据非常重要,这样模型就会知道哪些字词和句子可与项目中的意向和实体关联。 你需要花时间标记语句 - 引入和优化将用于训练模型的数据。

添加语句并标记它们时,请记住:

  • 机器学习模型根据提供的标记示例通用化;提供的示例越多,模型就有越多的数据点来更好地通用化。

  • 标记数据的精度、一致性和完整性是确定模型性能的关键因素。

    • 精确标记:始终将每个意向和实体标记为正确的类型。 仅包含要分类和提取的内容,避免标签中出现不必要的数据。
    • 一致标记:同一实体在所有语句中都应具有相同的标记。
    • 完全标记:为每个意向提供不同的语句。 标记所有语句中实体的所有实例。

清楚地标记语句

  • 确保实体引用的概念定义清晰且可分离。 检查是否可以轻松可靠地确定差异。 如果不能,则可能表明学习的组件也会有困难。

  • 如果实体之间存在相似性,请确保数据的某些方面提供了它们之间的差异标志。

    例如,如果你构建了一个模型来预订航班,则用户可能会使用类似“我想要从波士顿飞往西雅图的航班”之类的语句。此类语句的起始城市目标城市应类似。 辨别“起始城市”的标志可能是,它前面通常带有“”这个字词。

  • 确保在训练数据和测试数据中标记每个实体的所有实例。 一种方法是使用搜索函数查找数据中某个字词或短语的所有实例,以检查是否正确标记。

  • 为没有学习组件的实体标记测试数据,同时也为具有学习组件的实体标记测试数据。 这有助于确保评估指标准确无误。

  • 对于多语言项目,添加其他语言的语句可以提高模型在这些语言中的性能,但要避免跨你要支持的所有语言复制数据。 例如,为了提高日历机器人在用户中的性能,开发人员可能会添加主要使用英语的示例,以及一些使用西班牙语或法语的示例。 他们可能会添加以下言语:

    • “安排明天中午 12 点与 Matt 和 Kevin 会面。”(英语)
    • “采用暂定方式答复每周更新会议。”(英语)
    • “Cancelar mi próxima reunión。”(西班牙语)

如何标记语句

使用以下步骤标记语句:

  1. 转到 Language Studio 中的项目页面。

  2. 在左侧菜单中,选择“数据标记”。 在此页中,可以开始添加语句并标记它们。 还可以通过单击顶部菜单中的“上传语句文件”直接上传语句,请确保它遵循可接受的格式

  3. 从顶部透视中,可以将视图更改为“训练集”或“测试集”。 详细了解训练集和测试集以及它们如何用于模型训练和评估。

    A screenshot of the page for tagging utterances in Language Studio.

    提示

    如果计划使用“从训练数据中自动拆分测试集”拆分,请将所有语句添加到训练集中。

  4. 在“选择意向”下拉菜单中,选择其中一个意向、语句的语言(对于多语言项目),以及语句本身。 在语句的文本框中按 Enter 键以添加语句。

  5. 有两个选项来标记语句中的实体:

    选项 说明
    使用画笔标记 选择右侧窗格中实体旁边的画笔图标,然后突出显示语句中你想要标记的文本。
    使用内联菜单标记 突出显示要标记为实体的字词,随后将显示一个菜单。 选择要标记这些字词的实体。
  6. 在“标记”透视下方的右侧窗格中,可以找到项目中的所有实体类型以及每个实体类型的已标记实例数。

  7. 在“分布”透视下,可以查看训练集和测试集中的分布。 有两种查看方式:

    • 每个标记实体的实例总数,即可以在其中查看特定实体类型的所有已标记实例的计数。
    • 每个标记实体的唯一语句,如果每个语句包含此实体的至少一个标记实例,那么就要把每个语句都计算进去。
    • 每个意向的语句,可在其中查看每个意向的语句数量。

A screenshot showing entity distribution in Language Studio.

注意

列表和预生成组件不会显示在数据标记页中,此处的所有标签仅适用于已学习的组件

删除标签:

  1. 从语句中,选择要从中删除标记的实体。
  2. 滚动显示的菜单,然后选择“删除标签”。

删除实体:

  1. 在右侧窗格中选择要编辑的实体。
  2. 选择实体旁边的三个点,然后从下拉菜单中选择所需的选项。

后续步骤