什么是 Speech Studio?

Speech Studio 是一组基于 UI 的工具,用于在应用程序中生成和集成 Azure AI 语音服务的功能。 通过使用无代码方法在 Speech Studio 中创建项目,然后通过使用语音 SDK语音 CLI 或 REST API 来引用应用程序中的资产。

Speech Studio 方案

浏览、试用和查看一些常见用例的示例代码。

  • 字幕:选择示例视频剪辑以查看实时处理或脱机处理的字幕结果。 了解如何将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。 有关详细信息,请参阅字幕快速入门

  • 呼叫中心:查看有关如何使用语言和语音服务分析呼叫中心对话的演示。 实时听录呼叫或处理一批呼叫,编修个人身份信息,并提取情绪等见解,有助于为呼叫中心用例提供帮助。

Speech Studio 功能

在 Speech Studio 中,以下语音服务功能作为项目类型提供:

  • 实时语音转文本:无需使用任何代码,只需将音频文件拖至此处,即可快速测试语音转文本。 Speech Studio 是一个演示工具,用于了解语音转文本如何处理你的音频样本。 若要了解完整功能,请参阅什么是语音转文本

  • 批量语音转文本:快速测试批量听录功能,以听录存储中的大量音频,并异步接收结果。若要详细了解批量语音转文本,请参阅批量语音转文本概述

  • 自定义语音识别:创建针对特定词汇集和说话风格定制的语音识别模型。 与基础语音识别模型相比,自定义语音模型属于你的独有竞争优势,因为它们是不公开的。 若要开始上传示例音频以创建自定义语音模型,请参阅上传训练和测试数据集

  • 发音评估:评估语音发音,并为说话人提供有关讲话音频准确度和流利程度的反馈。 Speech Studio 提供了用于快速测试此功能的沙盒,无需代码。 若要在应用程序中将此功能与语音 SDK 配合使用,请参阅发音评估文章。

  • 语音翻译:以低延迟快速测试语音并将语音翻译为所选的其他语言。 若要了解完整功能,请参阅什么是语音翻译

  • 语音库:生成自然发音的应用和服务。 从广泛的语言、语音和变体组合中进行选择。 使用表达性极佳并且类似人声的神经网络声音将你的场景变为现实。

  • 有声内容创作:文本转语音合成的无代码方法。 可以按原样使用输出音频,也可以基于输出音频完成进一步的自定义操作。 可以为各种场景(例如,有声读物、新闻广播、视频解说和聊天机器人)生成非常自然的音频内容。 有关详细信息,请参阅有声内容创作文档。

后续步骤