Azure AI 语音已知问题

Azure AI 语音会定期更新,我们正在不断改进和增强其特性和功能。 本页详细介绍了与 Azure AI 语音相关的已知问题,并提供解决这些问题的步骤。 在提交支持请求之前,请查看以下列表,查看问题是否已得到解决并找到可能的解决方案。

活动已知问题语音转文本 (STT)

下表列出了语音转文本功能的当前已知问题:

问题编号 类别 瓷砖 DESCRIPTION 解决方法 期刊发布日期
1001 内容 带有磅单位的 STT 听录 在某些情况下,使用磅单位可能会给听录带来困难。 当短语用英国方言说时,它们通常在实时听录期间不准确地转换,导致术语“磅”自动翻译为“lbs”,而不管语言设置如何。 用户可以使用自定义显示后期处理(DPP)训练自定义语音模型来更正默认的 DPP 结果(例如,磅 {tab} 磅)。 请参阅 自定义重写规则 2025 年 6 月 9 日
1002 内容 带基数方向的 STT 听录 语音识别模型20241218可能会不准确地解释包括基数方向的音频输入,从而导致意外的听录结果。 例如,包含“SW123456”的音频文件可能被转录为“西南123456”,并且可能会与其他基数方向发生类似的错误。 可能的解决方法是使用自定义显示格式,其中“西南”映射到重写规则中的“SW”: 自定义重写规则 2025 年 6 月 9 日
1003 型号 STT 听录可能包括意外的内部系统标记。 诸如“nsnoise”之类的意外标记出现在听录结果中。 最初,客户报告此问题的阿拉伯语模型(ar-SA),这个问题也观察到在英语模型(en-US 和 en-GB)。 这些标记在听录输出中导致间歇性问题。 若要解决此问题,将在将来的模型更新中添加一个筛选器,以从训练数据中删除“nsnoise”。 2025 年 6 月 9 日
1004 型号 具有语言特定名称和字词拼写不准确的 STT 听录 由于第 2 层区域设置的基础模型中缺少实体覆盖,语言特定名称的听录不准确(特定于基础模型之前未看到特定单词的情况)。 客户可以训练 自定义语音 模型,以包含未知名称和字词作为训练数据。 第二步是,未知字词可以在运行时添加为 短语列表 。 将短语列表偏差到训练语料库中已知的单词可以大大提高识别准确性。 2025 年 6 月 9 日
1005 文件类型 偶尔在 STT 实时输出中添加的上下文不足的字词 仅包含背景噪音的音频文件可能会导致听录不准确。 理想情况下,应只听录口述句子,但 nl-NL 模型不会发生这种情况。 音频文件,包括背景噪音、从环境中的表面捕获回声反射或设备音频播放,而设备麦克风处于活动状态时,可能会导致听录不准确。 客户可以使用语音 SDK 中内置的Microsoft音频堆栈来抑制观察到的背景噪音和回声消除。 这应该有助于优化提供给 STT 服务的音频:使用Microsoft音频堆栈(MAS)。 2025 年 6 月 9 日
1006 文件类型 MP4 解码失败,因为“moov atom”位置 MP4 容器文件的解码可能会失败,因为“moov atom”位于文件末尾,而不是开头。 此结构使当前服务和基础 Microsoft MTS 服务无法流式访问文件,尤其是对于大于 10MB 的文件。 支持此类格式需要根本性更改。 使用音频编解码器实用工具预处理文件,将“moov atom”移动到开头或转换为 MP3。 2025 年 8 月 8 日

活动已知问题文本转语音 (TTS)

下表列出了文本转语音功能的当前已知问题。

问题编号 类别 瓷砖 DESCRIPTION 解决方法 期刊发布日期
2001 服务 通过 Rest API 复制模型 出于灾难恢复目的,TTS 服务不允许通过 REST API 复制模型。 2025 年 6 月 9 日
2002 TTS 虚拟形象 缺少参数 Batch 合成中不支持 TTS 虚拟形象参数“avatarPosition”和“avatarSize”。 2025 年 6 月 9 日
2003 TTS 虚拟形象 缺少 Blob 文件名 Batch 虚拟形象合成作业的“outputs”:“result”URL 没有 Blob 文件名。 客户应使用“subtitleType = soft_embedded”作为临时解决方法。 2025 年 6 月 9 日
2004 TTS 虚拟形象 TTS 不支持批处理合成 虚拟形象的批处理合成不支持自带存储(BYOS),它要求存储帐户允许外部流量。 2025 年 6 月 9 日
2005 服务 2025 年 7 月底前的 DNS 缓存刷新 由于合规性原因,2025 年 7 月 31 日删除了亚洲的旧版语音 TTS 群集。 所有流量都从旧 IP 迁移到新 IP。
即使 DNS 重定向完成,某些客户仍可访问旧群集。 这表示某些客户可能具有永久性的本地或辅助 DNS 缓存。
若要避免服务停机,请在 2025 年 7 月底之前刷新 DNS 缓存。 2025 年 7 月 24 日
2006 TTS 输出中的字边界重复 Azure TTS 有时会在合成输出中返回重复的单词边界条目,尤其是在使用某些 SSML 配置时。 这可能会导致下游应用程序中的计时数据和不对齐。 处理输出后,根据时间戳和单词内容筛选出重复的单词边界。 2025 年 8 月 8 日

主动已知问题语音 SDK/运行时

下表列出了语音 SDK/运行时功能的当前已知问题。

问题编号 类别 瓷砖 DESCRIPTION 解决方法 期刊发布日期
3001 SDK/SR 运行时 处理 InitialSilenceTimeout 参数 此问题与 InitialSilenceTimeout 参数的处理有关。 设置为 0 时,它意外导致客户遇到 400 错误。 此外,endSilenceTimeout 参数可能会导致不正确的听录。 当 endSilenceTimeout 设置为“0”以外的值时,即使用户继续说话,系统也会忽略指定持续时间后的用户输入。 客户希望转录对话的所有部分,包括暂停后的段,以确保不会丢失用户输入。 400 错误是由于“InitialSilenceTimeout”参数当前未直接在实时语音识别终结点中公开,导致 URL 一致性检查失败。 若要绕过此错误,客户可以执行以下步骤:
调整其生产代码以使用 SpeechConfig 对象的 Region/Key 实例化。
  • SpeechConfig = fromSubscription (String subscriptionKey, String region);其中区域是语音资源所在的 Azure 区域。
  • 将参数“InitialSilenceTimeoutMs”设置为 0,实际上由于识别音频流中的初始静音而禁用超时。
注意:对于单枪识别,会话将在初始静音 30 秒后终止。 对于连续识别,服务将在 30 秒后报告空短语,并继续识别过程。 此问题是由于第二个参数“Speech_SegmentationMaximumTimeMs”,它确定短语的最大长度,默认值为 30,000 毫秒。
2025 年 6 月 9 日
3002 SDK/SR 运行时 对 SegmentationTimeout 参数的处理 当 SegmentationSilenceTimeout 参数设置为 > 1,000 毫秒时,客户体验在语音识别结果(幻觉)中生成的随机字词。 客户应保留默认的“SegmentationTimeout”值为 650 毫秒。 2025 年 6 月 9 日
3003 SDK/SR 运行时 在 STT 中实时分割期间处理演讲者持续时间 Python SDK 在 STT 中使用实时分割时不显示扬声器的持续时间。 在以下文档中执行以下步骤检查结果的偏移量和持续时间: 对话听录结果类 2025 年 6 月 9 日
3004 SDK/TTS 虚拟形象 使用 JavaScript SDK 频繁断开连接 TTS 虚拟形象不会加载/频繁断开连接,并且使用 JavaScript SDK 重新连接自定义虚拟形象。 客户应打开 UDP 3478 端口。 2025 年 6 月 9 日

最近解决的已知问题

已修复的已知问题按固定日期按降序组织在本部分中。 修复的问题至少保留 60 天。