为微调任务 生成架构 后,向项目添加训练话语。 陈述应类似于用户在与项目交互时使用的内容。 添加语句时,必须指定该言语所属的意图。 添加语句后,标记语句中要提取为实体的字词。
数据标记是对话语言理解(CLU)训练的开发生命周期中的关键步骤。 训练模型时,下一步会使用此数据,以便模型可以从标记的数据中学习。 如果已标记话语,则可以将数据直接 导入项目(如果数据遵循 接受的数据格式)。 若要了解有关导入标记数据的详细信息,请参阅 创建 CLU 微调任务。 标记的数据告知模型如何解释文本,并用于训练和评估。
提示
使用 “快速部署 ”选项实现自定义 CLU 意向路由,该路由由你自己的大型语言模型部署提供支持,无需添加或标记任何训练数据。
先决条件
- 已成功创建的项目。
有关详细信息,请参阅 CLU 开发生命周期。
数据标记指南
生成架构并创建项目后,需要标记数据。 标记数据非常重要,以便模型知道哪些句子和字词与项目中的意向和实体相关联。 花时间标记话语来引入和优化用于训练模型的数据。
添加语句并标记它们时,请记住:
机器学习模型基于你提供的标记示例进行通用化。 提供的示例越多,模型所需的数据点越多,就可以进行更好的通用化。
标记数据的精度、一致性和完整性是确定模型性能的关键因素:
- 准确标记: 始终将每个意向和实体标记为其正确的类型。 仅包括要分类和提取的内容。 避免标签中不必要的数据。
- 标签一致: 同一实体应在所有陈述中具有相同的标签。
- 完全标记:为每个意向提供不同的语句。 标记所有语句中实体的所有实例。
清楚地标记语句
确保实体引用的概念定义清晰且可分离。 检查是否可以轻松可靠地确定差异。 如果你无法做到,这种缺乏区别可能表明学习组件存在困难。
确保数据的某些方面可以在实体之间存在相似性时提供差异信号。
例如,如果你生成了一个模型来预订航班,用户可能会使用此类语句:“我想要预订从波士顿飞往西雅图的航班。”此类语句的“出发地城市”和“目的地城市”应该类似。 区分“出发地城市”的一个信号可能是,它的前面经常出现“从”一词。
确保在训练数据和测试数据中标记每个实体的所有实例。 一种方法是使用搜索函数查找数据中某个字词或短语的所有实例,以检查是否正确标记。
对于 多语言项目,使用其他语言添加话语会增加模型在这些语言中的性能。 避免跨要支持的所有语言复制数据。 例如,为了提高日历机器人与用户的互动表现,开发人员可能会添加一些以英语为主的示例,还包括少量西班牙语或法语。 他们可能会添加以下言语:
-
Set a meeting with **Matt** and **Kevin** **tomorrow** at **12 PM**.
(英语) -
Reply as **tentative** to the **weekly update** meeting.
(英语) -
Cancelar mi **próxima** reunión.
(西班牙语)
-
标记语句
使用以下步骤标记语句:
转到 Language Studio 中的项目页面。
在左窗格中,选择“ 管理数据”。 在此页上,可以添加话语并标记它们。 还可以直接从顶部菜单中选择“ 上传话语文件 ”来直接上传话语。 请确保遵循 接受的格式。
通过使用顶部选项卡,可以将视图更改为 “训练集 ”或 “测试集”。 详细了解训练集和测试集以及它们如何用于模型训练和评估。
提示
如果计划使用“从训练数据中自动拆分测试集”拆分,请将所有语句添加到训练集中。
在“选择意向”下拉菜单中,选择其中一个意向、语句的语言(对于多语言项目),以及语句本身。 在话语的文本框中按 Enter 键并添加话语。
有两个选项来标记语句中的实体:
选项 说明 使用画笔标记 选择右侧窗格中实体旁边的画笔图标,然后在要标记的话语中突出显示文本。 使用内联菜单标记 突出显示要标记为实体的字词,随即会显示一个菜单。 选择要标记这些字词的实体。 在右侧的窗格中,在标签选项卡上,可以找到项目中的所有实体类型及每种实体类型的标记实例数量。
在 “分发 ”选项卡上,可以查看训练集和测试集之间的分布。 可以使用以下选项查看:
- 每个标记实体的实例总数: 可以查看特定实体的所有标记实例的计数。
- 每个标记实体的唯一陈述: 如果每个陈述包含此实体的至少一个标记实例,则会对其进行计数。
- 每个意向的语句数: 您可以查看每个意向的语句数量。
注意
数据标记页上不显示列表、正则表达式和预生成组件。 此处的所有标签仅适用于学习相关的组件。
删除标签:
- 从语句中,选择要从中移除标记的实体。
- 滚动显示的菜单,然后选择“删除标签”。
删除实体:
- 在右侧窗格中选择要编辑的实体旁边的垃圾箱图标。
- 选择“删除”以确认。