什么是语音转文本？

Azure语音服务提供高级语音转文本功能。此功能支持实时和批量听录，为将音频流转换为文本提供了多种解决方案。

语音转文本的核心功能

语音转文本服务提供以下核心功能：

实时听录：使用实时音频输入的中间结果进行即时听录。
快速听录：对于具有可预测延迟的情况，同步输出最快。
批量听录：高效处理大量预录制的音频。
自定义语音：针对特定领域和条件的具有增强准确性的模型。

实时转录

实时语音转文本功能将从麦克风或文件中识别出的音频转录为文本。这一功能非常适合需要立即听录的应用程序，例如：

实时音频转录用于可访问性和记录保存。
评估和提供有关发音准确性的反馈。
提供实时听录来帮助客户服务代表。
将口语转录为书面文本以供文档使用。
启用交互式语音响应系统以转录用户查询和命令。

可以通过语音 SDK、语音 CLI 和适用于短音频的语音转文本 REST API 实现实时语音转文本。

快速转录

使用快速听录 API 来转录音频文件，并同步返回结果，比实时音频更快。在需要快速获取音频文字记录且延迟可预测的情况下使用快速转录，例如：

快速音频文件听录、字幕和编辑
会议记录
语音邮件

有关详细信息，请参阅使用快速听录 API。

Diarization

分割是区分和分离音频录制中不同扬声器的过程。此功能特别适用于转录对话、会议或任何多说话人音频内容。语音服务可以在音频录制中识别多达 35 个不同的扬声器（如果服务识别超过 35 个扬声器，则会引发错误）。

请参阅 Diarization 快速入门以开始使用。

短语列表

使用短语列表功能，可以向语音识别模型提供可能在音频中朗读的特定字词或短语的列表。这有助于提高转录的准确性，尤其是领域特定术语、专有名词或不常见字词。通过使用短语列表，可以指导模型更好地识别和转录这些术语。

语言检测

语言检测使语音识别模型能够自动识别在音频输入中使用的语言。在事先不知道音频语言或具有多语言音频内容的情况下，这非常有用。通过检测语言，模型可以应用适当的特定于语言的识别算法，从而显著提高听录准确性。

批量听录

批量听录旨在听录存储在文件中的大量音频。此方法以异步方式处理音频，适合以下场景：

大量音频文件的听录、文字说明或字幕
分析呼叫中心记录的通话，以提取有价值的见解。

可以通过以下方式访问批量听录：

语音转文本 REST API：利用 RESTful 调用的灵活性促进开展批处理。若要开始，请参阅如何使用批量听录和 Batch 听录示例。
语音 CLI：支持实时和批量听录，轻松管理听录任务。要获取有关批量听录的语音 CLI 帮助，请运行以下命令：
```
spx help batch transcription
```

自定义语音

通过使用自定义语音，可以评估和提高应用程序和产品的语音识别的准确性。使用自定义语音模型实时语音转文本、语音翻译和批量听录。

提示

若要将自定义语音与 Batch 听录 API 配合使用，无需托管部署终结点。如果仅使用自定义语音模型进行批量听录，则可以节省资源。有关详细信息，请参阅语音服务定价。

现成的语音识别使用通用语言模型作为基本模型。 Azure使用它拥有的数据训练基本模型，因此它反映了常用的口语。基本模型通过方言和语音进行预训练，以适应各种常见领域。发出语音识别请求时，默认使用每个支持的语言的最新基础模型。基础模型在大多数语音识别场景中都效果良好。

通过使用自定义语音，可以定制语音识别模型，以更好地满足应用程序的特定需求。这种定制对于以下方面特别有用：

提升对特定领域词汇的识别：使用与你的领域相关的文本数据训练模型。
针对特定音频条件，提升准确性：使用带有参考听录的音频数据来完善模型。

有关自定义语音的更多信息，请参阅自定义语音概述和语音转文本 REST API 文档。

有关每种语言和区域设置的自定义选项的详细信息，请参阅文档语音服务的语言和语音支持。

用法示例

下面是有关如何利用语音转文本Azure的一些实际示例：

用例	场景	解决方案
实时会议听录和字幕	虚拟活动平台需要为网络研讨会提供实时字幕。	使用语音 SDK 集成实时语音转文本功能，将语音内容转录为活动期间实时显示的字幕。
客户服务增强	呼叫中心希望通过提供客户通话的实时听录来协助代理。	通过语音 CLI 使用实时语音转文本转录通话，从而使代理能够更好地理解和响应客户查询。
视频字幕	某视频托管平台想快速为某视频生成一组字幕。	使用快速转录来快速获取视频的整段字幕。
教育工具	电子学习平台希望为视频讲座提供听录。	通过语音转文本 REST API 应用批量听录来处理预先录制的讲座视频，为学生生成文本记录。
健康护理文档	健康护理提供方需要记录患者咨询。	使用实时语音转文本进行听写，从而使医疗专业人员能够口述笔记并让系统立即转录。使用自定义模型增强对特定医疗术语的识别。
媒体娱乐	一家媒体公司希望为大量视频档案创建字幕。	使用批量听录批量处理视频文件，为每个视频生成准确的字幕。
市场研究	市场研究公司需要分析录音中的客户反馈。	使用批量听录将音频反馈转换为文本，从而更轻松地展开分析并提取见解。

语音转文本入门
创建批量听录
有关详细的定价信息，请访问语音服务定价页。

Last updated on 2026-06-09