使用 Azure 语音进行游戏开发

Azure语音可增强游戏内和游戏外的各种游戏场景。

用于灵活交互式游戏体验的语音功能包括:

  • 从文本合成音频或显示音频中的文本,使对话可供所有玩家访问。
  • 提高无法以特定语言阅读文本的玩家的易用性,包括尚未学会读写的年轻玩家。 玩家能够以他们的首选语言收听故事情节和说明。
  • 创建能够在游戏过程中发起或参与对话的游戏角色和非玩家角色(NPC)。
  • 使用标准化语音在各种语言和语音组合中提供高度自然且直接可用的语音。
  • 原型游戏对话,以减少生产和成本,并更快地将游戏上市。 你可以快速交换对白,并实时收听不同变体,以迭代游戏内容。

可以使用 语音 SDK语音 CLI 实时、低延迟的语音转文本、文本转语音、语言识别和语音翻译。 还可以使用批量听录 API 将预先录制的语音转录为文本。

有关区域设置和区域可用性的信息,请参阅语言和语音支持区域支持

文本到语音转换

使用 文字转语音 将文本消息转换为音频,适用于例如游戏对话原型制作、提高无障碍访问或非玩家角色(NPC)语音等场景。 文本转语音包括 标准语音 功能。 标准语音跨各种语言和语音组合提供非常自然的现成语音。

在游戏中启用文本转语音时,请考虑以下功能:

  • 语音和语言 - 支持多种不同的区域设置和语音。 还可以为文本转语音输出 指定多种语言
  • 情感样式 - 情感色调,如欢快、愤怒、悲伤、兴奋、充满希望、友好、不友好、惊恐、喊叫和低语。 可以在句子层面调整讲话风格、风格强度和角色。
  • Visemes - 可以在实时合成期间使用 visemes 来控制 2D 和 3D 虚拟形象模型的运动,以便合成语音与口部运动完全匹配。 有关详细信息,请参阅通过视素获取面部位置
  • SSML 微调 - 使用语音合成标记语言 (SSML),可以使用更丰富的语音优化选项自定义文本到语音输出。 有关详细信息,请参阅语音合成标记语言 (SSML) 概述
  • 音频输出 - 每个标准语音模型在 24 kHz 和高保真 48 kHz 可用。 如果选择 48-kHz 输出格式,则会相应地调用高保真语音模型(48 kHz)。 其他采样率可以通过合成期间向上采样或向下采样来获取。 例如,44.1 kHz 是从 48 kHz 向下采样得到的。 每种音频格式都包含比特率和编码类型。 有关详细信息,请参阅支持的音频格式。 有关 48-kHz 高质量语音的详细信息,请参阅 此博客文章

有关示例,请参阅文本转语音快速入门

语音转文本

可以使用语音转文本在游戏中显示来自语音音频的文本。 有关示例,请参阅语音转文本快速入门

语言识别

通过使用语言标识,你可以检测玩家提交的聊天字符串的语言。

语音翻译

参与同一游戏会话的玩家通常讲不同的语言,并且可能会乐于同时收到原始消息及其翻译。 可以使用 语音翻译 在语言之间翻译文本,以便世界各地的玩家可以使用其本机语言进行通信。

有关示例,请参阅语音翻译快速入门

注意

除了语音服务,还可以使用 翻译器服务。 若要在受支持的源语言和目标语言之间执行实时文本翻译,请参阅 文本翻译

后续步骤