什么是自定义语音识别?

自定义语音识别可用于针对你的应用程序和产品,评估并改进 Microsoft 语音转文本准确度。 请遵循本文中的链接开始创建自定义语音转文本体验。

什么是自定义语音识别?

在开始使用自定义语音识别执行任何操作之前,需要一个 Azure 帐户和一个语音服务订阅。 有了帐户后,即可准备数据、训练和测试模型、查看识别质量、评估准确度,并最终部署和使用自定义语音转文本模型。

此关系图突出显示了组成 Speech Studio 自定义语音识别区域的部分。 使用以下链接详细了解每个步骤。

此关系图突出显示了组成 Speech Studio 自定义语音识别区域的部分。

  1. 订阅和创建项目。 创建 Azure 帐户并订阅语音服务。 此统一订阅使你可以访问语音转文本、文本转语音、语音翻译和 Speech Studio。 然后,使用语音服务订阅创建第一个“自定义语音识别”项目。

  2. 上传测试数据。 上传测试数据(音频文件),以便针对你的应用程序、工具和产品评估 Microsoft 语音转文本产品/服务。

  3. 检查识别质量。 使用 Speech Studio 播放上传的音频,检查测试数据的语音识别质量。 如需进行量化度量,请参阅检查数据

  4. 评估和提高准确度。 评估和提高语音转文本模型的准确度。 Speech Studio 会提供误字率,该指标可以用来确定是否需要更多的训练。 如果对准确度满意,可以直接使用语音服务 API。 如果想要提高准确度 5% - 20%(相对平均值),请在门户中使用“训练”选项卡上传更多的训练数据,例如人为标记的听录和相关的文本。

  5. 训练和部署模型。 提供编写的脚本(10-1,000 小时)和相关的文本 (<200 MB) 以及音频测试数据,以便提高语音转文本模型的准确度。 该数据有助于训练语音转文本模型。 训练后,请重新测试。 如果对结果感到满意,则可将模型部署到自定义终结点。

设置 Azure 帐户

你需要拥有 Azure 帐户和语音服务订阅,才能使用 Speech Studio 创建自定义模型。 如果你没有帐户和订阅,可以免费试用语音服务

创建 Azure 帐户和语音服务订阅后,需要登录到 Speech Studio 并连接订阅。

  1. 登录 Speech Studio
  2. 选择需要使用的订阅并创建语音项目。
  3. 如果要修改订阅,请选择顶部菜单中的齿轮按钮。

如何创建项目

数据、模型、测试和终结点等内容在 Speech Studio 中组织成项目。 每个项目特定于域和国家/地区或语言。 例如,可以为使用美式英语的呼叫中心创建一个项目。

若要创建第一个项目,请选择“语音转文本/自定义语音识别”,然后选择“新建项目” 。 遵照向导中的说明创建项目。 创建项目后,应该看到四个选项卡:“数据”、“测试”、“训练”和“部署”。 使用后续步骤中提供的链接了解如何使用每个选项卡。

重要

刚刚更新了 Speech Studio(以前称为“自定义语音识别门户”)! 如果以前已在 CRIS.ai 门户或使用 API 创建了数据、模型、测试并已发布了终结点,则需要在新门户中创建一个新项目以连接到这些旧实体。

模型和终结点生命周期

较旧的模型通常逐渐变得没什么用,因为最新的模型通常具有更高的准确度。 因此,基础模型以及通过门户创建的自定义模型和终结点将在 1 年到期以进行调整,在 2 年后到期进行解码。 有关详细说明,请参阅模型和终结点生命周期一文。

后续步骤