了解哪些良好的话语适用于你的 LUIS 应用

陈述 是应用需要解释的用户输入。 若要训练 LUIS 从其中提取意向和实体,请务必为每个意向捕获各种不同的示例话语。 主动学习或继续针对新言语进行训练的过程对于 LUIS 提供的机器学习智能至关重要。

收集你认为用户会输入的话语。 请提供含义相同但以各种不同的方式构造的话语:

  • 话语长度 - 根据客户端应用程序选择短、中和长
  • 单词和短语的长度
  • 单词放置 - 实体位于话语的开头、中间和末尾
  • 语法
  • 复数形式
  • 词干
  • 名词和动词选择
  • 标点 - 使用正确语法、不正确语法以及无语法时的标点多种多样

如何选择不同的陈述

第一次开始将示例话语 添加到 LUIS 模型时,请记住以下原则。

陈述并非始终格式正确

它可能是一个句子,比如“为我预订到巴黎的机票”,也可能是句子的片段,比如“预订”或“巴黎航班”。 用户常犯拼写错误。

如果你没有对用户陈述进行拼写检查,则应该针对包含拼写错误的陈述训练 LUIS。

使用用户的代表性语言

选择话语时,请注意,你认为是常用术语或短语的内容对于客户端应用程序的典型用户来说可能不正确。 他们可能没有域经验。 请谨慎使用仅当用户是专家时才会说的术语或短语。

选择不同的术语和措辞

你会发现,即使你努力创造不同的句型,你仍然会重复一些词汇。

以这些示例陈述为例:

示例陈述
如何买计算机?
在哪里买计算机?
我想要一台计算机,我该怎么做?
我什么时候能有一台计算机?

这里的核心术语“计算机”没有变化。 可以使用替代话语“台式电脑”、“笔记本电脑”、“工作站”,甚至是“机器”。 LUIS 可以根据上下文智能地推断同义词,但当你创建用于训练的话语时,最好是改变它们。

每个意向的示例陈述

每个意向都需要有示例话语,至少 15 个。 如果你的意向没有任何示例陈述,则将无法训练 LUIS。 如果你的意向仅包含一个或非常少的示例话语,LUIS 可能无法准确预测该意向。

为每个创作迭代添加由 15 个话语构成的小组

在模型的每个迭代中,不要添加大量陈述。 添加数量为 15 的话语。 再次训练发布测试

LUIS 使用由 LUIS 模型作者精心挑选的话语构建有效的模型。 添加太多话语是没有价值的,因为它会引起混乱。

最好先从几个陈述开始,然后审查终结点陈述以进行正确的意向预测和实体提取。

话语规范化

言语规范化是指在训练和预测时忽略文本类型(如标点符号和音调符号)的影响这一过程。

话语规范化设置默认关闭。 这些设置包括:

  • 单词形式
  • 音调符号
  • 标点

如果启用规范化设置,则对于该规范化设置的所有言语,“测试”窗格、批量测试和终结点查询中的分数都会变化。

在 LUIS 门户中克隆版本时,版本设置将传递到新的已克隆版本。

通过 LUIS 门户的“应用程序设置”页的“管理”部分或更新版本设置 API 设置版本设置。 若要详细了解这些规范化设置更改,请参阅参考资料

单词形式

规范单词形式会忽略扩展到词根之外的单词的差异。

音调符号

音调符号是文本中的标记或符号,例如:

İ ı Ş Ğ ş ğ ö ü

标点符号

规范化 标点 是指在训练模型和预测终结点查询之前,从话语中删除标点。

标点是 LUIS 中单独的标记。 在末尾包含句号的话语与末尾不包含句号的话语是两个单独话语并可能得到两种不同预测。

如果标点未规范化,则默认情况下,LUIS 不会忽略标点符号,因为某些客户端应用程序可能会对这些标记赋予含义。 确保示例话语使用“标点”和“无标点”,以便两种样式都返回相同的相对分数。

请确保模型在示例言语(有标点和没有标点)或在更容易使用特殊语法来忽略标点的模式中处理标点:I am applying for the {Job} position[.]

如果标点在客户端应用程序中没有特定含义,请考虑通过规范化标点来忽略标点

忽略单词和标点

若要忽略模式中的特定单词或标点,请将 pattern 与方括号 []ignore 语法配合使用。

使用所有言语的训练

训练通常是非确定性的:在不同版本或应用中,陈述预测可能略有不同。 可以通过使用 UseAllTrainingData 名称/值对更新版本设置 API 来使用所有训练数据。

测试陈述

开发人员应通过向预测终结点 URL 发送话语来开始使用实际流量测试其 LUIS 应用程序。 这些陈述用于通过审查陈述来改善意向和实体的表现。 使用 LUIS 网站测试窗格提交的测试不会通过终结点发送,因此不会对主动学习有所帮助。

评审陈述

在模型经过训练、发布并接收终结点查询后,请审查 LUIS 建议的陈述。 LUIS 会选择意向或实体得分较低的终结点陈述。

最佳实践

查看最佳做法并将其应用为常规创作周期的一部分。

字词含义的标签

如果选词或字词排列方式相同,但含义并不相同,请勿将其标记为实体。

以下话语中,fair 一词为同形异义词。 该词虽拼写相同但含义不同:

话语
今年夏天西雅图地区会举办什么样的乡村集市?
西雅图评审的当前评级公平吗?

如果希望事件实体查找所有事件数据,请标记第一个话语中的 fair 一词,而不是第二个话语。

后续步骤

有关定型 LUIS 应用以理解用户话语的信息,请参阅添加示例话语