语音转文本 REST API

语音转文本 REST API 用于快速听录、批量听录和自定义语音。

重要

语音转文本 REST API 版本 2025-10-15 是正式发布的最新版本。

语音转文本 REST API 版本 2024-05-15-preview 即将停用，具体日期待宣布。
语音转文本 REST API v3.0、3.2-preview.1 和 3.2-preview.2 将于2026年3月31日停用。

有关升级的详细信息，请参阅语音转文本 REST API v3.0 到 v3.1、 v3.1 到 v3.2、 v3.2 到 2024-11-15 和 2024-11-15 到 2025-10-15 迁移指南。

请参阅语音转文本 REST API 2025-10-15 参考文档

使用语音转文本 REST API 执行以下作：

快速听录：听录音频文件，同步返回结果，速度比实时音频快得多。需要以可预测的延迟尽快听录音频录制内容时（例如快速音频或视频听录或视频翻译），请使用快速听录 API (/speechtotext/transcriptions:transcribe)。
批量转录：将多个 URL 或 Azure 容器中的音频文件批量转录。在需要转录存储中大量音频（如大量文件或长音频文件）的情况下，使用批量听录 API（/speechtotext/transcriptions：submit）。
自定义语音：上传自己的数据、测试和训练自定义模型、比较模型之间的准确度，以及将模型部署到自定义终结点。在希望同事有权访问你生成的模型或希望将模型部署到多个区域的情况下，将模型复制到其他订阅。

语音转文本 REST API 包括以下功能：

请求每个终结点的日志。
请求创建的模型的清单，以便设置本地容器。
使用共享访问签名（SAS） URI 从Azure存储帐户上传数据。
自带存储空间。针对日志、听录文件和其他数据使用自己的存储帐户。
一些操作支持 Webhook 通知。可以将 Webhook 注册为发送通知的端点。

快速转录

以下操作组适用于快速听录。

操作组	说明
听录	使用文字转录 - 转录功能来转换音频文件。使用快速听录时，每个请求发送一个文件。有关如何从单个音频文件创建听录的示例，请参阅“ 创建听录 ”。

批量转录

以下操作组适用于批量听录。

操作组	说明
模型	使用基础模型或自定义模型来转录音频文件。可以将模型与自定义语音识别和批量听录配合使用。例如，可以使用经过特定数据集训练的模型来转录音频。有关如何训练和管理自定义语音识别模型的示例，请参阅训练模型和自定义语音识别模型生命周期。
听录	使用听录 - 提交以转录存储中的大量音频。使用批量转录时，每个请求中发送多个文件或指向包含要转录音频文件的 Azure Blob 存储容器。有关如何从多个音频文件创建听录的示例，请参阅创建听录。
Web 挂钩	使用 Webhook 接收有关创建、处理、完成和删除事件的通知。可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。

自定义语音

以下操作组适用于自定义语音识别。

操作组	说明
数据集	使用数据集来训练和测试自定义语音识别模型。例如，可以将使用特定数据集训练的自定义语音识别的性能与使用其他数据集训练的基础模型或自定义语音识别模型的性能进行比较。有关如何上传数据集的示例，请参阅上传训练和测试数据集。
端点	将自定义语音识别模型部署到终结点。必须部署自定义终结点才能使用自定义语音识别模型。有关如何管理部署终结点的示例，请参阅部署模型。
评估	使用评估来比较不同模型的性能。例如，可以将使用特定数据集训练的自定义语音识别模型的性能与使用其他数据集训练的基础模型或自定义模型的性能进行比较。有关如何测试和评估自定义语音识别模型的示例，请参阅测试识别质量和测试准确度。
模型	使用基础模型或自定义模型来转录音频文件。可以将模型与自定义语音识别和批量听录配合使用。例如，可以使用经过特定数据集训练的模型来转录音频。有关如何训练和管理自定义语音识别模型的示例，请参阅训练模型和自定义语音识别模型生命周期。
项目	使用项目管理自定义语音模型、训练和测试数据集以及部署终结点。自定义语音项目包含模型、训练和测试数据集以及部署终结点。每个项目都特定于一个区域设置。例如，您可能会为美国的英语创建一个项目。有关如何创建项目的示例，请参阅 “创建项目 ”。
Web 挂钩	使用 Webhook 接收有关创建、处理、完成和删除事件的通知。可以将 Webhook 与自定义语音识别和批量听录配合使用。 Webhook 适用于数据集、终结点、评估、模型和听录。

Last updated on 2026-06-09

语音转文本 REST API

快速转录

批量转录

自定义语音

相关内容

Recursos adicionales