使用 Azure AI 语音进行游戏开发
Azure AI 语音可用于改进游戏内和游戏外的各种游戏方案。
下面是一些可以考虑用于灵活且交互式游戏体验的语音功能:
- 通过从文本合成音频,让所有人都可以参与到对话中。 还可以通过显示音频中的文本来实现这一点。
- 使游戏更易于无法阅读特定语言文字的玩家来玩,包括不会读写的低龄玩家。 玩家能够以他们的首选语言收听故事情节和说明。
- 创建可以在游戏中发起或参与对话的游戏虚拟形象和非玩家角色 (NPC)。
- 预生成的神经语音可以提供高度自然的现成语音,在大量语言和语音组合方面具有领先的语音多样性。
- 使用游戏对话原型来缩短生产中花费的时间和金钱,使游戏更快地推向市场。 你可以快速交换对话行并实时侦听变化,以循环访问游戏内容。
可以使用语音 SDK 或语音 CLI 实现实时低延迟语音转文本、文本转语音、语言识别和语音翻译。 还可以使用批量听录 API 将预先录制的语音转录为文本。
有关区域设置和区域可用性的信息,请参阅语言和语音支持和区域支持。
文本到语音转换
通过使用文本转语音将文本消息转换为音频,帮助每位用户参与对话,适用于为游戏创建初始对话脚本、完善辅助功能或为非玩家角色 (NPC) 生成语音等场景。 文本转语音包括预生成的神经网络语音功能。 预生成的神经语音可以提供高度自然的现成语音,在大量语言和语音组合方面具有领先的语音多样性。
在游戏中启用此功能时,请记住以下优势:
- 支持语音和语言 - 支持大量区域设置和语音组合。 还可以为文本转语音输出指定多种语言。
- 支持情感风格 - 情绪调,例如开朗、愤怒、悲伤、兴奋、充满希望、友好、不友好、惊恐、喊叫和低语。 可以在句子层面调整讲话风格、风格强度和角色。
- 支持视素 - 可以在实时合成期间使用视素来控制 2D 和 3D 头像模型的运动,使嘴部运动与合成语音完美匹配。 有关详细信息,请参阅使用视位获取面部位置。
- 使用语音合成标记语言 (SSML) 微调文本转语音输出 - 凭借 SSML,可以自定义文本转语音输出,支持更丰富的语音优化。 有关详细信息,请参阅语音合成标记语言 (SSML) 概述。
- 音频输出 - 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。 如果选择 48-kHz 输出格式,则会相应地调用具有 48 kHz 的高保真语音模型。 24 kHz 和 48 kHz 以外的采样率可以在合成时通过向上采样或向下采样来获取。 例如,44.1 kHz 是从 48 kHz 向下采样得到的。 每种音频格式都包含比特率和编码类型。 有关详细信息,请参阅支持的音频格式。 有关 48-kHz 高质量语音的详细信息,请参阅此简介博客。
有关示例,请参阅文本转语音快速入门。
语音转文本
可以使用语音转文本在游戏中显示来自语音音频的文本。 有关示例,请参阅语音转文本快速入门。
语言识别
通过使用语言标识,你可以检测玩家提交的聊天字符串的语言。
语音翻译
同一游戏对局中的玩家使用不同的母语语言,可能希望能够同时收到原始消息及翻译,这一点并不罕见。 你可以使用语音翻译在不同语言之间翻译文本,使世界各地的玩家可以使用其母语相互交流。
有关示例,请参阅语音翻译快速入门。