什么是语音服务?

语音服务在单个 Azure 订阅中统合了语音转文本、文本转语音以及语音翻译功能。 使用语音 CLI语音 SDK语音设备 SDKSpeech StudioREST API 可以轻松在应用程序、工具和设备中启用语音。

以下功能是语音服务的一部分。 请使用下表中的链接详细了解每项功能的常见用例或浏览 API 参考信息。

服务 功能 说明 SDK 中 IsInRole 中的声明 REST
语音转文本 实时语音转文本 语音转文本可将音频流或本地文件实时转录或翻译为文本,应用程序、工具或设备可以使用或显示这些文本。 结合语言理解 (LUIS) 使用语音转文本可以从听录的语音中派生用户意向,以及处理语音命令。
批量语音转文本 批量语音转文本支持对 Azure Blob 存储中存储的大量语音音频数据进行异步语音到文本转录。 除了将语音音频转换为文本,批量语音转文本还允许进行分割聚类和情感分析。
创建自定义语音识别模型 如果使用语音转文本在独特的环境中进行识别和听录,则可以创建并训练自定义的声学、语言和发音模型,以解决环境干扰或行业特定的词汇。
发音评估 发音评估可以评估语音发音,并为说话人提供有关讲话音频准确度和流利度的反馈。 通过发音评估,语言学习者可以练习、获得即时反馈并改进其发音,因此能够自信地讲话和演示。
文本转语音 文本转语音 文本转语音可使用语音合成标记语言 (SSML) 将输入文本转换为类似人类的合成语音。 使用神经语音,这是由深度神经网络提供支持的类人语音。 请参阅语言支持
语音翻译 语音翻译 使用语音翻译可在应用程序、工具和设备中实现实时的多语言语音翻译。 进行语音转语音和语音转文本翻译时可以使用此服务。
语音助手 语音助手 语音助手使用语音服务为开发人员助力,使他们可为其应用程序和体验创建自然的、类似于人类的对话界面。 语音助理服务在设备与助理实现之间提供快速可靠的交互。该实现使用 Bot Framework 的 Direct Line Speech 通道或集成的自定义命令服务来完成任务。

重要

现在,将对此服务的所有 HTTP 请求强制执行 TLS 1.2。

免费试用语音服务

若要完成以下步骤,需要一个 Azure 帐户。 如果没有 Azure 帐户,可以在试用版订阅中注册试用版。

创建 Azure 资源

若要将语音服务资源(免费层或付费层)添加到 Azure 帐户,请执行以下步骤:

  1. 使用 Azure 帐户登录到 Azure 门户

  2. 选择门户左上角的“创建资源”。 如果未看到“创建资源”,可通过选择屏幕左上角的折叠菜单找到它。

  3. 在“新建”窗口中的搜索框内键入“语音”,然后按 ENTER。

  4. 在搜索结果中,选择“语音”。

    在 Azure 门户中创建语音资源。

  5. 选择 "创建",然后:

    • 为新资源指定唯一的名称。 名称有助于区分绑定到同一服务的多个订阅。
    • 选择新资源关联的 Azure 订阅,以确定计费方式。
    • 选择将使用资源的区域。 若要获得最佳性能,请选择离你最近或应用程序运行的区域。 语音服务的可用性因地区而异。 请确保在受支持的区域中创建资源。 请参阅语音服务的区域支持.
    • 选择免费 (F0) 或付费 (S0) 定价层。 请选择“查看全部定价详细信息”或参阅语音服务定价,来获取每个层的定价和用量配额的完整信息。 有关资源的限制,请参阅 Azure 认知服务限制
    • 为此“语音”订阅创建新的资源组或将订阅分配到现有资源组。 资源组有助于使多种 Azure 订阅保持有序状态。
    • 选择“创建” 。 系统随后会将你转到部署概述,并显示部署进度消息。

部署新的语音资源需要花费片刻时间。

查找密钥和位置/区域

若要查找已完成部署的密钥和位置/区域,请按照下列步骤操作:

  1. 使用你的 Microsoft 帐户登录到 Azure 门户

  2. 选择“所有资源”,然后选择你的认知服务资源的名称。

  3. 在左侧窗格中的“资源管理”下,选择“密钥和终结点” 。

每个订阅有两个密钥;可在应用程序中使用任意一个密钥。 若要将密钥复制/粘贴到代码编辑器或其他区域,请选择每个密钥旁边的复制按钮,切换窗口以将剪贴板内容粘贴到所需区域。

此外,请复制 LOCATION 值,这是你用于 SDK 调用的区域 ID(例如 chinaeast2)。

重要

这些订阅密钥用于访问认知服务 API。 不要共享你的密钥。 以安全方式存储密钥(例如,使用 Azure Key Vault 来存储)。 此外,我们建议定期重新生成这些密钥。 发出 API 调用只需一个密钥。 重新生成第一个密钥时,可以使用第二个密钥来持续访问服务。

完成快速入门

我们提供了适用于大多数流行编程语言的快速入门,旨在让你了解基本设计模式并帮助你在 10 分钟以内运行代码。 请参阅以下列表,了解每项功能的快速入门。

在你有机会开始使用语音服务后,请尝试一下我们的教程,了解如何处理各种情况。

获取示例代码

GitHub 上提供了语音服务的示例代码。 这些示例涵盖了常见方案,例如,从文件或流中读取音频、连续和单次识别,以及使用自定义模型。 使用以下链接查看 SDK 和 REST 示例:

自定义语音体验

语音服务能够很好地与内置模型配合工作,但是,你可能想要根据自己的产品或环境,进一步自定义和优化体验。 自定义选项的范围从声学模型优化,到专属于自有品牌的语音字体。

其他产品提供了针对特定用途(如卫生保健或保险)而优化的语音模型,但可供所有人平等地使用。 Azure 语音的自定义功能将成为你的独特竞争优势部分,而其他任何用户或客户都无法使用。 换句话说,你的模型是私人的,仅针对你的用例进行自定义调整。

语音服务 平台 说明
语音转文本 自定义语音识别 根据需要和可用数据自定义语音识别模型。 克服语音识别障碍,如说话风格、词汇和背景噪音。

参考文档

后续步骤