为自定义语音识别选择模型

通过使用特定客户场景中的数据来自定义基础模型,创建自定义语音识别模型。 创建自定义模型后,即使发布了新的基础模型,语音识别准确度和质量也会保持一致。

基础模型会定期更新以提高准确度和质量。 如果你使用基础模型,我们建议使用最新的默认基础模型。 但是,使用自定义语音识别,你可以拍摄特定基础模型的快照,无需对其进行训练。 在这种情况下,“自定义”意味着语音识别从特定时间点固定到基础模型。

新的基础模型会定期发布,以提高准确度和质量。 建议在创建自定义模型时选择最新的基础模型。 如果所需的自定义功能仅适用于较旧的模型,则你可以选择较旧的基础模型。

注意

基础模型的名称对应于 YYYYMMDD 格式的发布日期。 在 Speech Studio 中,基础模型的自定义功能列在括号中,位于模型名称后面

使用自定义语音识别部署到终结点的模型是固定的,除非你决定更新它。 还可以选择在不训练的情况下部署基础模型,这意味着基础模型是固定的。 这样,便可以在使用更新的模型之前锁定特定模型的行为。

无论你是训练自己的模型还是使用基础模型的快照,都可以将该模型使用有限的一段时间。 有关详细信息,请参阅模型和终结点生命周期

选择模型

使用语音转文本模型有一些方法:

  • 基础模型现成地为一系列方案提供准确的语音识别。
  • 自定义模型增强了基础模型,它包含在自定义域的所有区域之间共享的特定于域的词汇。
  • 当自定义域具有多个区域,而每个区域使用特定的词汇时,可以使用多个自定义模型。

查看基础模型是否足够的一种建议方法是分析从基础模型生成的听录,并将其与针对相同音频人工生成的脚本进行比较。 可以使用 Speech Studio、语音 CLI 或 REST API 来比较脚本,获取字词错误率 (WER) 分数。 如果在评估结果时发现有多个不正确的字词替换,则建议训练自定义模型来识别这些字词。

如果词汇在不同的域区域之间存在差异,则建议使用多个模型。 例如,奥运会评论员报道各项赛事,每项赛事与其自身的专业用语关联。 由于每种奥运会活动词汇与其他活动词汇有很大的不同,因此,生成特定于活动的自定义模型可通过限制与该特定活动相关的语句数据来提高准确度。 因此,模型不需要筛选掉不相关的数据就可以进行匹配。 不管怎样,训练仍然需要使用各种不同的训练数据。 包含口音、性别、年龄等特征不同的多位评论员的音频。

创建自定义语音识别项目

自定义语音识别项目包含模型、训练和测试数据集,以及部署终结点。 每个项目都特定于国家/地区或语言。 例如,你可能会在美国创建一个语言为英语的项目。

  1. 登录 Speech Studio
  2. 选择要使用的订阅和语音资源。
  3. 选择“自定义语音识别”>“创建新项目”。
  4. 遵照向导中的说明创建项目。

按名称选择新项目,或选择“转到项目”。 左侧面板中会显示以下菜单项:“语音数据集”、“训练自定义模型”、“测试模型”和“部署模型”。

如果想立即使用基础模型,可以跳过训练和测试步骤。 请参阅部署自定义语音识别模型,开始使用基础模型或自定义模型。

后续步骤