训练业务流程工作流模型

训练是模型从标记的语句进行学习的过程。 完成训练后,将能够查看模型性能

若要训练模型,请启动训练作业。 只有已成功完成的作业才能创建模型。 训练作业将在七天后过期,此时间后将无法再检索作业详细信息。 如果成功完成训练作业并创建了模型,则作业过期不会影响该模型。 一次只能运行一个训练作业,并且无法在同一项目中启动其他作业。

处理简单项目时训练时间可能是几秒钟,达到语句最大限制时训练时间可能是几小时。

成功完成训练后,将自动触发模型评估。 评估过程首先使用经过训练的模型对测试集中的语句运行预测,并将预测结果与提供的标签进行比较(这确立了真实性的基线)。 结果将会返回,这样你便可以查看模型的性能

先决条件

有关详细信息,请参阅项目开发生命周期

数据拆分

开始训练过程之前,项目中标记的语句会划分为训练集和测试集。 每个集合都有不同的功能。 训练集用于训练模型,模型通过该集学习标记的语句。 测试集是一个盲集,它不是在训练期间引入到模型的,而是在评估期间引入的。

成功训练模型后,可将其用于根据测试集中的语句进行预测。 这些预测用于计算评估指标

建议确保所有意向在训练集和测试集中均已充分表示。

业务流程工作流支持两种数据拆分方法:

  • 自动从训练数据拆分测试集:系统将根据所选百分比将标记的数据拆分为训练集和测试集。 建议的拆分百分比为 80% 用于训练,20% 用于测试。

注意

如果选择“自动从训练数据拆分测试集”选项,则只有分配给训练集的数据会按照提供的百分比拆分。

  • 使用手动拆分训练和测试数据:此方法使用户能够定义语句应分别属于哪个集合。 仅当在标记期间已将语句添加到测试集时,才会启用此步骤。

注意

只能为未连接的意向在训练数据集中添加语句。

定型模型

启动训练作业

若要在 Language Studio 中开始训练模型,请执行以下操作:

  1. 在左侧菜单中,选择“训练作业”。

  2. 从顶部菜单中选择“启动训练作业”。

  3. 然后选择“训练新模型”并在文本框中键入模型名称。 还可以通过选择“覆盖现有模型”选项并从下拉菜单中选择要覆盖的模型来覆盖现有模型。 覆盖已训练的模型是不可逆的,但这在部署新模型之前不会影响已部署的模型。

    如果已使项目能够在标记语句时手动拆分数据,会看到两个数据拆分选项:

    • 从训练数据自动拆分测试集:标记的语句将根据选择的百分比在训练集和测试集之间随机拆分。 默认拆分百分比为 80% 用于训练,20% 用于测试。 若要更改这些值,请选择要更改的集并键入新值。

    注意

    如果选择“自动从训练数据拆分测试集”选项,则只有训练集中的语句会按照提供的百分比拆分。

    • 手动拆分训练和测试数据:在项目的标记步骤期间,将每个语句分配到训练集或测试集。

    注意

    只有在向标记数据页中的测试集中添加语句时,才启用“手动拆分训练和测试数据”选项。 否则,它处于禁用状态。

    A screenshot showing the train model page for conversational language understanding projects.

  4. 选择“训练”按钮。

注意

  • 只有成功完成的训练作业才会生成模型。
  • 训练时间从几分钟到几个小时不等,具体取决于标记数据的大小。
  • 一次只能运行一个训练作业。 在运行的作业完成之前,无法在同一项目中启动其他训练作业。

获取训练作业状态

如果从列表中选择训练作业 ID,会出现一个侧窗格,可在此窗格中检查此作业的训练进度、作业状态和其他详细信息。

取消训练作业

若要在 Language Studio 中取消训练作业,请转到“训练模型”页。 选择要取消的训练作业,然后选择顶部菜单中的“取消”。

后续步骤