Azure 语音已知问题

Azure 语音会定期更新，我们正在不断改进和增强其特性和功能。本页详细介绍了与 Azure 语音相关的已知问题，并提供解决这些问题的步骤。在提交支持请求之前，请查看以下列表，查看问题是否已得到解决并找到可能的解决方案。

有关服务级别中断的详细信息， 请参阅Azure 状态页。
若要设置中断通知和警报， 请参阅Azure 服务运行状况门户。

活动已知问题语音转文本（STT）

下表列出了语音转文本功能的当前已知问题：

问题编号	类别	瓷砖	DESCRIPTION	解决方法	期刊发布日期
1001	内容	带有磅单位的 STT 听录	在某些情况下，使用磅单位可能会给听录带来困难。当短语用英国方言说时，它们通常在实时听录期间不准确地转换，导致术语“磅”自动翻译为“lbs”，而不管语言设置如何。	用户可以使用自定义显示后期处理（DPP）训练自定义语音模型来更正默认的 DPP 结果（例如，磅 {tab} 磅）。请参阅自定义重写规则。	2025 年 6 月 9 日
1002	内容	带基数方向的 STT 听录	语音识别模型20241218可能会不准确地解释包括基数方向的音频输入，从而导致意外的听录结果。例如，包含“SW123456”的音频文件可能被转录为“西南123456”，并且可能会与其他基数方向发生类似的错误。	可能的解决方法是使用自定义显示格式，其中“西南”映射到重写规则中的“SW”：自定义重写规则。	2025 年 6 月 9 日
1003	型号	STT 听录可能包括意外的内部系统标记。	诸如“nsnoise”之类的意外标记出现在听录结果中。最初，客户报告此问题的阿拉伯语模型（ar-SA），这个问题也观察到在英语模型（en-US 和 en-GB）。这些标记在听录输出中导致间歇性问题。若要解决此问题，将在将来的模型更新中添加一个筛选器，以从训练数据中删除“nsnoise”。	无	2025 年 6 月 9 日
1004	型号	具有语言特定名称和字词拼写不准确的 STT 听录	由于第 2 层区域设置的基础模型中缺少实体覆盖，语言特定名称的听录不准确（特定于基础模型之前未看到特定单词的情况）。	客户可以训练自定义语音模型，以包含未知名称和字词作为训练数据。第二步是，未知字词可以在运行时添加为短语列表。将短语列表偏差到训练语料库中已知的单词可以大大提高识别准确性。	2025 年 6 月 9 日
1005	文件类型	偶尔在 STT 实时输出中添加的上下文不足的字词	仅包含背景噪音的音频文件可能会导致听录不准确。理想情况下，应只听录口述句子，但 nl-NL 模型不会发生这种情况。	音频文件，包括背景噪音、从环境中的表面捕获回声反射或设备音频播放，而设备麦克风处于活动状态时，可能会导致听录不准确。客户可以使用语音 SDK 中内置的Microsoft音频堆栈来抑制观察到的背景噪音和回声消除。这应该有助于优化提供给 STT 服务的音频：使用Microsoft音频堆栈（MAS）。	2025 年 6 月 9 日
1006	文件类型	MP4 解码失败，因为“moov atom”位置	MP4 容器文件的解码可能会失败，因为“moov atom”位于文件末尾，而不是开头。此结构使当前服务和基础 Microsoft MTS 服务无法流式访问文件，尤其是对于大于 10MB 的文件。支持此类格式需要根本性更改。	使用音频编解码器实用工具预处理文件，将“moov atom”移动到开头或转换为 MP3。	2025 年 8 月 8 日

活动已知问题文本转语音（TTS）

下表列出了文本转语音功能的当前已知问题。

问题编号	类别	瓷砖	DESCRIPTION	解决方法	期刊发布日期
2001	服务	通过 Rest API 复制模型	出于灾难恢复目的，TTS 服务不允许通过 REST API 复制模型。	无	2025 年 6 月 9 日
2002	TTS 虚拟形象	缺少参数	Batch 合成中不支持 TTS 虚拟形象参数“avatarPosition”和“avatarSize”。	无	2025 年 6 月 9 日
2003	TTS 虚拟形象	缺少 Blob 文件名	Batch 虚拟形象合成作业的“outputs”：“result”URL 没有 Blob 文件名。	客户应使用“subtitleType = soft_embedded”作为临时解决方法。	2025 年 6 月 9 日
2004	TTS 虚拟形象	TTS 不支持批处理合成	虚拟形象的批处理合成不支持自带存储（BYOS），它要求存储帐户允许外部流量。	无	2025 年 6 月 9 日
2005	服务	2025 年 7 月底前的 DNS 缓存刷新	由于合规性原因，2025 年 7 月 31 日删除了亚洲的旧版语音 TTS 群集。所有流量都从旧 IP 迁移到新 IP。即使 DNS 重定向完成，某些客户仍可访问旧群集。这表示某些客户可能具有永久性的本地或辅助 DNS 缓存。	为了避免服务停机，请在 2025 年 7 月底之前刷新 DNS 缓存。	2025 年 7 月 24 日
2006	TTS	输出中的字边界重复	Azure TTS 有时会在合成输出中返回重复的单词边界条目，尤其是在使用某些 SSML 配置时。这可能会导致下游应用程序中的计时数据和不对齐。	处理输出后，根据时间戳和单词内容筛选出重复的单词边界。	2025 年 8 月 8 日
2007	TTS	阿拉伯语语音中部分生成的单词	阿拉伯语语音输出仅在发音不明确或不完整的情况下包含部分生成的单词，尤其是对于以 ة 或 ت 结尾的单词。此问题在多个语音中可重现。此问题被确认为已知问题，无需立即提供解决方案。	若要缓解该问题，请考虑重新措辞语音输出（如果出现问题）。	2025 年 9 月 16 日
2008	服务	流式处理请求的 503 错误（WebSocket）	当用户启动文本流请求但不会长时间发送任何文本（例如 30 秒）时，TTS 将返回 503 错误。	若要缓解此问题，请仅在从 LLM 收到第一个文本令牌后启动文本流式处理调用。如果收到 LLM 中的所有文本，但文本流式处理调用失败，请生成包含所有文本的 SSML，并使用非流式处理调用将其发送到 TTS。	2025 年 11 月 10 日

主动已知问题语音 SDK/运行时

下表列出了语音 SDK/运行时功能的当前已知问题。

问题编号	类别	瓷砖	DESCRIPTION	解决方法	期刊发布日期
3001	SDK/SR 运行时	处理 InitialSilenceTimeout 参数	此问题与 InitialSilenceTimeout 参数的处理有关。设置为 0 时，它意外导致客户遇到 400 错误。此外，endSilenceTimeout 参数可能会导致不正确的听录。当 endSilenceTimeout 设置为“0”以外的值时，即使用户继续说话，系统也会忽略指定持续时间后的用户输入。客户希望转录对话的所有部分，包括暂停后的段，以确保不会丢失用户输入。	400 错误是由于“InitialSilenceTimeout”参数当前未直接在实时语音识别终结点中公开，导致 URL 一致性检查失败。若要绕过此错误，客户可以执行以下步骤：调整其生产代码以使用 SpeechConfig 对象的 Region/Key 实例化。 SpeechConfig = fromSubscription （String subscriptionKey， String region）;其中区域是语音资源所在的 Azure 区域。将参数“InitialSilenceTimeoutMs”设置为 0，实际上由于识别音频流中的初始静音而禁用超时。注意：对于单枪识别，会话将在初始静音 30 秒后终止。对于连续识别，服务将在 30 秒后报告空短语，并继续识别过程。此问题是由于第二个参数“Speech_SegmentationMaximumTimeMs”，它确定短语的最大长度，默认值为 30,000 毫秒。	2025 年 6 月 9 日
3002	SDK/SR 运行时	对 SegmentationTimeout 参数的处理	当 SegmentationSilenceTimeout 参数设置为 > 1,000 毫秒时，客户体验在语音识别结果（幻觉）中生成的随机字词。	客户应保留默认的“SegmentationTimeout”值为 650 毫秒。	2025 年 6 月 9 日
3003	SDK/SR 运行时	在 STT 中实时分割期间处理演讲者持续时间	Python SDK 在 STT 中使用实时分割时不显示扬声器的持续时间。	在以下文档中执行以下步骤检查结果的偏移量和持续时间：对话听录结果类。	2025 年 6 月 9 日
3004	SDK/TTS 虚拟形象	使用 JavaScript SDK 频繁断开连接	TTS 虚拟形象不会加载/频繁断开连接，并且使用 JavaScript SDK 重新连接自定义虚拟形象。	客户应打开 UDP 3478 端口。	2025 年 6 月 9 日

最近解决的已知问题

已修复的已知问题按固定日期按降序组织在本部分中。修复的问题至少保留 60 天。

Last updated on 2025-12-22