Compartir a través de

什么是语音翻译?

在本文中,你将了解使用 Azure AI 语音进行翻译的优势和功能。 语音服务支持音频流的实时多语言语音转语音和语音转文本翻译。

使用语音 SDK 或语音 CLI,可以为应用程序、工具和设备授予对提供音频的源听录和翻译输出的访问权限。 检测到语音时,会返回过渡性的听录和翻译结果,最终结果可以转换为合成语音。

有关语音翻译支持的语言列表,请参阅语言和语音支持

提示

前往 Speech Studio,以低延迟快速测试语音并将语音翻译为所选的其他语言。

核心功能

语音翻译的核心功能包括:

语音到文本的转换

语音服务的标准功能是能够接收指定源语言的输入音频流,并将其翻译为指定目标语言的文本并输出。

语音转语音翻译

作为上述功能的补充,语音服务还提供使用我们的大型预训练语音数据库大声朗读翻译文本的选项,从而实现输入语音的自然输出。

多语言语音翻译

多语言语音翻译实现了一种新的语音翻译技术,可以解锁各种功能,包括没有指定的输入语言、在同一会话中处理语言切换以及支持将实时流翻译成英语。 这些功能提升了语音翻译的技术水平,你可在产品中加以应用。

  • 无指定输入语言。 多语言语音翻译可以接收多种语言的音频,并且无需指定具体的预期输入语言。
  • 语言切换。 多语言语音翻译允许在同一会话中出现多种语言,并将它们全部翻译成相同的目标语言。 更改输入语言或执行任何其他操作时,无需重启会话。
  • 听录。 该服务以指定的目标语言输出听录。 源语言听录尚不可用。

多语言语音翻译的一些用例包括:

  • 旅行翻译。 出国旅行时,多语言语音翻译能够创建一个解决方案,允许客户将任何输入音频翻译成当地语言或从当地语言翻译成本地语言。 这使他们能够与当地人交流并更好地了解周围的环境。
  • 商务会议。 在与使用不同语言的人开会时,多语言语音翻译可以让与会人员都能自然地沟通,好似没有语言障碍一样。

有关支持的输入(源)语言的列表,请参阅语音转文本语言文档。 有关支持的输出(目标)语言的列表,请参阅语音翻译语言文档中的“翻译为文本语言”表格

多个目标语言翻译

在需要多种语言的输出时,语音服务可以直接提供将输入语言翻译成两种目标语言的功能。 这样,他们就可以接收两个输出,并通过单个 API 调用将这些翻译共享给更广泛的受众。 如果需要更多输出语言,可以创建多服务资源或使用单独的翻译服务。

如果需要翻译成两种以上的目标语言,需要创建 Azure AI 服务资源或针对第二种以外的更多语言使用单独的翻译服务。 如果选择使用多服务资源调用语音翻译服务,请注意,根据翻译的字符数,除第二种语言外,还需支付翻译费用。

若要计算应用的翻译费用,请参阅 Azure AI 翻译定价

多个目标语言翻译定价

请务必注意,语音翻译服务实时运行,在中间过程中,系统会翻译语音结果以生成翻译结果。 因此,实际翻译量大于输入音频的标记量。 需要支付每种目标语言的语音转文本听录和文本翻译费用。

例如,假设你需要将一小时音频文件的文本翻译为三种目标语言。 如果初始语音转文本听录包含 10,000 个字符,则你可能需支付 2.80 美元的费用。

警告

此示例中的价格仅用于说明目的。 有关最新的定价信息,请参阅 Azure AI 语音定价Azure AI 翻译定价

开始使用

首先,请尝试使用语音翻译快速入门。 语音翻译服务通过语音 SDK语音 CLI 提供。

可以在 GitHub 上找到 Speech SDK 语音转文本和翻译示例。 这些示例涵盖了常见方案,例如,从文件或流中读取音频、连续和单发识别和翻译,以及使用自定义模型。

后续步骤