什么是 Speech Studio？

Speech Studio 是一组基于 UI 的工具，用于在应用程序中生成和集成 Azure 语音服务中的功能。通过使用无代码方法在 Speech Studio 中创建项目，然后通过使用语音 SDK、语音 CLI 或 REST API 来引用应用程序中的资产。

Speech Studio 方案

浏览、试用和查看一些常见用例的示例代码。

字幕：选择示例视频剪辑以查看实时处理或脱机处理的字幕结果。了解如何将字幕与输入音频同步、应用亵渎内容过滤器、获得部分结果、应用自定义以及识别多语言场景的口语。有关详细信息，请参阅字幕快速入门。
呼叫中心：查看有关如何使用 Azure 语言和语音服务分析呼叫中心对话的演示。实时听录呼叫或处理一批呼叫，编修个人身份信息，并提取情绪等见解，有助于为呼叫中心用例提供帮助。

Speech Studio 功能

在 Speech Studio 中，以下语音服务功能作为项目类型提供：

实时语音转文本：无需使用任何代码，只需将音频文件拖至此处，即可快速测试语音转文本。 Speech Studio 是一个演示工具，用于了解语音转文本如何处理你的音频样本。若要了解完整功能，请参阅什么是语音转文本。
批量语音转文本：快速测试批量听录功能，以听录存储中的大量音频，并异步接收结果。若要详细了解批量语音转文本，请参阅批量语音转文本概述。
自定义语音识别：创建针对特定词汇集和说话风格定制的语音识别模型。与基础语音识别模型相比，自定义语音模型属于你的独有竞争优势，因为它们是不公开的。若要开始上传示例音频以创建自定义语音模型，请参阅上传训练和测试数据集。
发音评估：评估语音发音，并为说话人提供有关讲话音频准确度和流利程度的反馈。 Speech Studio 提供了用于快速测试此功能的沙盒，无需代码。若要在应用程序中将此功能与语音 SDK 配合使用，请参阅发音评估文章。
语音翻译：以低延迟快速测试语音并将语音翻译为所选的其他语言。若要了解完整功能，请参阅什么是语音翻译。
语音库：生成自然发音的应用和服务。从广泛的语言、语音和变体组合中进行选择。使用表达性极佳并且类似人声的神经网络声音将你的场景变为现实。
有声内容创作：文本转语音合成的无代码方法。可以按原样使用输出音频，也可以基于输出音频完成进一步的自定义操作。可以为各种场景（例如，有声读物、新闻广播、视频解说和聊天机器人）生成非常自然的音频内容。有关详细信息，请参阅有声内容创作文档。

后续步骤

浏览 Speech Studio

Last updated on 2026-06-09

什么是 Speech Studio？

Speech Studio 方案

Speech Studio 功能

后续步骤

其他资源