使用 Azure AI 语音进行游戏开发

Azure AI 语音可用于改进游戏内和游戏外的各种游戏方案。

下面是一些可以考虑用于灵活且交互式游戏体验的语音功能：

可以使用语音 SDK 或语音 CLI 实现实时低延迟语音转文本、文本转语音、语言识别和语音翻译。还可以使用批量听录 API 将预先录制的语音转录为文本。

有关区域设置和区域可用性的信息，请参阅语言和语音支持和区域支持。

文本到语音转换

通过使用文本转语音将文本消息转换为音频，帮助每位用户参与对话，适用于为游戏创建初始对话脚本、完善辅助功能或为非玩家角色 (NPC) 生成语音等场景。文本转语音包括预生成的神经网络语音功能。预生成的神经语音可以提供高度自然的现成语音，在大量语言和语音组合方面具有领先的语音多样性。

在游戏中启用此功能时，请记住以下优势：

支持语音和语言 - 支持大量区域设置和语音组合。还可以为文本转语音输出指定多种语言。
支持情感风格 - 情绪调，例如开朗、愤怒、悲伤、兴奋、充满希望、友好、不友好、惊恐、喊叫和低语。可以在句子层面调整讲话风格、风格强度和角色。
支持视素 - 可以在实时合成期间使用视素来控制 2D 和 3D 头像模型的运动，使嘴部运动与合成语音完美匹配。有关详细信息，请参阅使用视位获取面部位置。
使用语音合成标记语言 (SSML) 微调文本转语音输出 - 凭借 SSML，可以自定义文本转语音输出，支持更丰富的语音优化。有关详细信息，请参阅语音合成标记语言 (SSML) 概述。
音频输出 - 每个预生成的神经语音模型在 24 kHz 和高保真 48 kHz 下可用。如果选择 48-kHz 输出格式，则会相应地调用具有 48 kHz 的高保真语音模型。 24 kHz 和 48 kHz 以外的采样率可以在合成时通过向上采样或向下采样来获取。例如，44.1 kHz 是从 48 kHz 向下采样得到的。每种音频格式都包含比特率和编码类型。有关详细信息，请参阅支持的音频格式。有关 48-kHz 高质量语音的详细信息，请参阅此简介博客。

可以使用语音转文本在游戏中显示来自语音音频的文本。有关示例，请参阅语音转文本快速入门。

通过使用语言标识，你可以检测玩家提交的聊天字符串的语言。

同一游戏对局中的玩家使用不同的母语语言，可能希望能够同时收到原始消息及翻译，这一点并不罕见。你可以使用语音翻译在不同语言之间翻译文本，使世界各地的玩家可以使用其母语相互交流。

有关示例，请参阅语音翻译快速入门。

注意

除了语音服务外，还可以使用翻译器服务。要在支持的源语言与目标语言之间实时执行文本翻译，请参阅文本翻译。