Azure 语音服务提供高级语音转文本功能。 此功能支持实时和批量听录,为将音频流转换为文本提供了多种解决方案。
语音转文本的核心功能
语音转文本服务提供以下核心功能:
实时听录
实时语音转文本功能将从麦克风或文件中识别出的音频转录为文本。 这一功能非常适合需要立即听录的应用程序,例如:
- 用于辅助功能和录制的实时音频听录。
- 评估和提供有关发音准确性的反馈。
- 提供实时听录来帮助客户服务代表。
- 将口语转录为书面文本以供文档使用。
- 启用交互式语音响应系统以转录用户查询和命令。
可以通过语音 SDK、语音 CLI 和 REST API 访问实时语音转文本,因此该功能可以集成到各种应用程序和工作流中。 可以通过语音 SDK、语音 CLI 和适用于短音频的语音到文本 REST API 实时进行语音转文本。
快速转录
使用快速听录 API 来转录音频文件,并同步返回结果,比实时音频更快。 在需要快速获取音频文字记录且延迟可预测的情况下使用快速转录,例如:
- 快速音频文件听录、字幕和编辑
- 会议记录
- 语音邮件
有关详细信息,请参阅 使用快速听录 API。
批量听录
批量听录旨在听录存储在文件中的大量音频。 此方法以异步方式处理音频,适合以下场景:
- 大量音频文件的听录、字幕或字幕
- 分析呼叫中心记录的通话,以提取有价值的见解。
可以通过以下方式访问批量听录:
语音转文本 REST API:利用 RESTful 调用的灵活性促进开展批处理。 若要开始,请参阅如何使用批量听录和批量听录示例。
语音 CLI:支持实时和批量听录,轻松管理听录任务。 要获取有关批量听录的语音 CLI 帮助,请运行以下命令:
spx help batch transcription
自定义语音
通过使用 自定义语音,可以评估和提高应用程序和产品的语音识别的准确性。 使用自定义语音模型实时 语音转文本、 语音翻译和 批量听录。
提示
若要将自定义语音与 Batch 听录 API 配合使用,无需 托管部署终结点。 如果仅使用 自定义语音模型 进行批量听录,则可以节省资源。 有关详细信息,请参阅语音服务定价。
现成的语音识别使用通用语言模型作为基本模型。 Azure 使用它拥有的数据训练基本模型,因此它反映了常用的口语。 基本模型通过方言和语音进行预训练,以适应各种常见领域。 发出语音识别请求时,默认使用每个支持的语言的最新基础模型。 基础模型在大多数语音识别场景中都效果良好。
通过使用自定义语音,可以定制语音识别模型,以更好地满足应用程序的特定需求。 这种定制对于以下方面特别有用:
- 提升对特定领域词汇的识别:使用与你的领域相关的文本数据训练模型。
- 针对特定音频条件,提升准确性:使用带有参考听录的音频数据来完善模型。
有关自定义语音的更多信息,请参阅自定义语音概述和语音转文本 REST API 文档。
有关每种语言和区域设置的自定义选项的详细信息,请参阅文档语音服务的语言和语音支持。
用法示例
下面是有关如何使用 Azure 语音转文本的一些实际示例:
| 用例 | 方案 | 解决方案 |
|---|---|---|
| 实时会议听录和字幕 | 虚拟活动平台需要为网络研讨会提供实时字幕。 | 使用语音 SDK 集成实时语音转文本功能,将语音内容转录为活动期间实时显示的字幕。 |
| 客户服务增强 | 呼叫中心希望通过提供客户通话的实时听录来协助代理。 | 通过语音 CLI 使用实时语音转文本来听录通话,使代理能够更好地理解和响应客户查询。 |
| 视频字幕 | 某视频托管平台想快速为某视频生成一组字幕。 | 使用快速听录快速获取整个视频的一组字幕。 |
| 教育工具 | 电子学习平台希望为视频讲座提供听录。 | 通过语音转文本 REST API 应用批量听录来处理预先录制的讲座视频,为学生生成文本记录。 |
| 健康护理文档 | 健康护理提供方需要记录患者咨询。 | 使用实时语音转文本进行听写,让健康护理专业人员可以讲出他们的笔记并让系统立即听录。 使用自定义模型增强对特定医疗术语的识别。 |
| 媒体娱乐 | 一家媒体公司希望为大量视频档案创建字幕。 | 使用批量听录批量处理视频文件,为每个视频生成准确的字幕。 |
| 市场研究 | 市场研究公司需要分析录音中的客户反馈。 | 使用批量听录将音频反馈转换为文本,从而更轻松地展开分析并提取见解。 |