Azure语音中的新增功能是什么？

Azure语音会持续更新。为了让大家随时了解最新的开发成果，本文介绍了新版本和新功能。

注意

以下已发布的版本、日期和内容仅对应于 Microsoft Azure 云的实际部署。

它提供大多数情况下Azure公有云上Azure语音服务的演变历史记录。请注意，在某些情况下，它可能与世纪互联运营Azure的实际部署不一致。

发行说明

选择服务或资源

重要

语音 SDK 1.48.2 及更新版本包含了针对 Linux 和 Android 上证书吊销列表（CRL）分区问题的关键修补程序。如果在启用了 CRL 检查的情况下使用任一平台，请在 2026 年 7 月 1 日之前升级到 1.48.2 或更高版本。有关详细信息，请参阅 CRL 兼容性更新。

重要

通过语音 SDK 的内容评估（预览版）于 2025 年 7 月停用。相反，可以使用 Azure OpenAI 模型来获取内容评估结果，如 content 评估文档中所述。

语音 SDK 1.50：2026-5 月版本

新功能：

添加了对翻译更新期间每个目标语言的动态语音配置的支持。
添加了对语音识别中源语言自动检测的支持。
将 Android OpenSSL 更新为 3.0.20。
添加了对通过 PostProcessingOption 配置后处理行为的支持，以提高最终脚本准确性。

漏洞修复：

修复了 TTS 连接中的竞态条件。
修复了使用 EventLoggerCallback 时的 Android 崩溃。
修复了重定向后 URL 查询参数被转换为小写的问题。
修复了 JSON 分析器中的漏洞。

Samples:

没有示例更新。

适用于 JavaScript 的语音 SDK

新功能：

添加了对通过 PostProcessingOption 配置后处理行为的支持，以提高最终脚本准确性。

漏洞修复：

修复了在最近 Node.js 版本中使用 SpeechConfig.setProxy（...）时无效的代理配置。

语音 SDK 1.49.1：2026 年 4 月版本

漏洞修复：

修复了嵌入式语音遥测处理中的崩溃。

语音 SDK 1.49：2026 年 4 月版本

关于目标平台支持的说明：

此版本中已删除 Android x86 支持。

新功能：

已将 Android OpenSSL 更新为 3.0.19。
Python： 优化 Linux 滚轮大小。

漏洞修复：

修复了嵌入式语音中的内存泄漏。
修复嵌入式语音识别中符号转录不正确的问题。
Python：修复了语音合成事件句柄泄漏。

适用于 JavaScript 的语音 SDK

新功能：

添加了对PropertyId.SpeechServiceResponse_PostProcessingOption的处理。
添加了语音合成延迟度量。
添加了语音合成输入文本流式处理支持。
添加了对语言更改时翻译合成更新的支持。

漏洞修复：

修复了未正确请求的详细识别结果。
修复了使用 DialogServiceConnector 时遇到无效令牌导致的无限递归问题。
修复了语音合成 URL 重定向不适用于用户指定的路径。

语音 SDK 1.48.2：2026 年 2 月版本

重要

此版本包括针对 Linux 和 Android 上的证书吊销列表（CRL）分区处理的关键性修复。如果在启用 CRL 检查的情况下使用任一平台，请在 2026 年 7 月 1 日之前升级到 1.48.2。有关详细信息，请参阅 CRL 兼容性更新。

漏洞修复：

修复了 Linux 和 Android 上的 CRL 缓存密钥逻辑，以正确处理已分区 CRL。 SDK 现在同时使用颁发者名称和 CRL 分发点作为缓存密钥，从而在跨Azure区域或证书轮换后防止X509_V_ERR_DIFFERENT_CRL_SCOPE （错误 44）失败。
修复了启用 CRL 检查后 Linux 和 Android 上的证书轮换后的潜在连接失败。

语音 SDK 1.48.1：2026 年 2 月版本

关于目标平台支持的说明：

此版本后，将删除 Android x86 支持。

新功能：

默认情况下，Linux 和 Android 上禁用了 CRL 检查。
增强的网络错误处理和日志记录。
优化了大型短语列表的构造时间。
Java： 添加了对语音合成输入文本流式处理的支持。
Java： 改进了 JNI 内存管理。
Javascript： 识别延迟指标 - 识别结果现在包括用于测量音频输入到结果的端到端延迟的SpeechServiceResponse_RecognitionLatencyMs属性。
Javascript： 识别器的停止超时 - 新的Recognizer_StopTimeoutMs属性为 stopContinuousRecognitionAsync（）启用超时保护。设置后，如果服务未在指定时间内完成，则作会立即取消，而不是无限期地等待。
Javascript： 虚拟形象场景配置 - 新的 AvatarSceneConfig 类允许配置虚拟形象缩放、位置（X/Y）、旋转（X/Y/Z）和振幅。场景可以通过 AvatarSynthesizer.updateSceneAsync（）在运行时更新。

漏洞修复：

修复了启用日志功能时听写模式下的崩溃。
修复了网络堆栈中与 CRL 相关的内存泄漏问题。
修复了嵌入式语音识别中有时缺少的性能计数器数据。
修复了嵌入式语音合成中与标点符号的静音长度映射。
修复了混合语音合成中的词边界缓存问题。
Javascript： 自动源语言检测现在接受空白/空的“from”语言参数。
JavaScript： 添加了 @azure/core-auth 作为 SDK 依赖项，以提高Azure标识集成。

Samples:

Java、Python：更新的多个依赖项版本以解决安全漏洞。

语音 SDK 1.47：2025-11 月版本

重要

由于 Windows 10 主流支持结束，因此取消对 32 位系统的支持，包括 x86 和 ARM（https://support.microsoft.com/windows/windows-10-support-has-ended-on-october-14-2025-2ca8b313-1946-43d3-b55c-2b95b107f281）。

新功能：

更改了默认策略，因为网络条件阻止访问 Linux 客户端上的联机证书吊销信息，因此忽略错误。
[JavaScript]添加了对指定照片头像的基础模型名称的支持。

漏洞修复：

修复了嵌入式 TTS 中的 libxml2 漏洞。
修复了自定义终结点与 ConversationTranscriber 不兼容的问题。
修复了处理特殊字符时不正确的 TTS 字边界事件（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2359）。
[C#]修复了缺少 MonoPInvokeCallback 属性（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2948）。
[iOS]修复了.NET 9 项目链接器错误（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2939）。
[Java] 修复了“修改后的 UTF-8”范围内的识别结果字符的处理。
[Python] 修复了 speech_config 中的 SpeechServiceConnection_EnableAudioLogging 在 ConversationTranscriber 中无法工作的问题。
[Windows] 修复了使用 TLS 时 WebSocket 连接中的内存泄漏（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2925）。

示例更新：

删除了意向识别示例（由于服务停用，C++ 中意向识别的独立实现除外）。
由于服务停用，删除了说话人识别示例。
删除了 Unity 示例，因为最新的语音 SDK Unity 包是随 1.44 版本发布的，并且不再有直接支持。

破坏性更改：

由于服务停用，已删除意图识别支持。
- 有关替代方法，请参阅 Migration Guide 和 https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/cpp/intent-recognition。
由于服务停用，已删除说话人识别支持。

语音 SDK 1.46：2025-9 月版本

新功能：

添加了对 Speech_StartEventSensitivity 属性的语音启动事件敏感度支持。
已弃用 SpeechServiceConnection_EndSilenceTimeoutMs 的属性。
已停用发音评估中的内容评估功能。
将 Android OpenSSL 更新为 3.0.17。
向遥测队列添加了大小限制，以防止内存使用量增长。
在 TTS 中添加了缓存读取的超时防护措施，以防止潜在的 IO 挂起。
添加了可配置属性来控制 URL 重定向缓存行为。
[C#]添加了对基于 EventSource 的日志记录的支持。
[Python] 添加了对 AzureKeyCredential 身份验证的支持。

Bug 修复

修复了嵌入文本转语音中的 ja-JP 发音问题。
修复了嵌入式语音转文本中长时间内存使用量显著增加的情况。
修复了由竞争条件引发的崩溃，发生在超时停止识别期间。
[JavaScript]修复了 fromHost 无法与 Docker 容器服务正常运作的问题。

示例

更新了示例，演示如何使用 AzureKeyCredential 和 Microsoft Entra ID token credential 身份验证。
[JavaScript， Python] 更新了使用 fromEndpoint 的示例。

语音 SDK 1.45：2025-7 月版本

新功能：

添加了对设置短语列表语法权重的支持。
添加了更具体的文件打开错误代码。
更新了 Unicode 路径支持，以便 SDK Windows DLL 可以位于非 ASCII 路径下。
更新了分段策略属性的说明，使其与服务逻辑保持一致。
[C#， Java] 添加了对使用 ApiKeyCredential 进行身份验证的支持。

Bug 修复

修复了某些区域中有关麦克风几何图形的Microsoft音频堆栈（MAS）初始化错误。
修复了语音翻译中无法正常工作的辱骂过滤设置（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2856）。
修复了在使用日语进行意图识别模式匹配时发生的崩溃。
修复了 Node.js v22 或更高版本的自定义域解析无法正常工作的问题。

示例

[Java] 添加了示例代码来演示Microsoft Entra ID令牌凭据身份验证。

语音 SDK 1.44.1：修补程序版本

SDK 版本 1.44.1 仅针对 JavaScript 发布了 4 个 bug 修复：

Bug 修复

修复了仅提供一个分段控制参数时的范围不足异常。
enableDictation 未正确传递到语音服务。
使用 fromEndpoint 方法创建时，ConversationTranscriber 未使用正确的 URL 路径。
输入流分离后，修复了将数据推送到输入流时产生错误的问题。

语音 SDK 1.44：2025 年 5 月版本

重要

对目标平台的支持正在更改：

最低支持的 Android 版本现在是 Android 8.0（API 级别 26）。
此版本后，语音 SDK Unity 包的发布将暂停。

新功能：

添加了对 Android 16 KB 内存页大小的支持。
减少了嵌入式语音识别中 SpeechStartDetected 事件的延迟。
[C++， Python] 添加了一种方法来获取 AudioDataStream 的可用大小。
[C++， Python] 添加了对语音合成请求中的自定义词典 URL 和首选区域设置的支持。
[Java，Python] 添加了对 Microsoft Entra 基于令牌的身份验证的支持，并带有自动令牌刷新功能。
[Go]添加了对对话听录的支持。

Bug 修复

修复了使用源语言检测时翻译语音合成不起作用的问题。
修复了文件路径中含有非 ASCII 编码字符导致嵌入式语音模型、KWS 模型或日志文件无法正常工作的问题（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2288）。
修复了某些条件下嵌入式语音识别中的 NoMatch 循环。
修复了由于事件断开连接时识别未标记为已停止而阻止本机对象的析构函数。
修复了在某些情况下 IntentRecognizer 模式匹配无法正确处理多字节字符。
对 Connection 对象的调用 Close() 不是同步的。
修复了可能导致崩溃的连接解除分配中的争用条件。
[macOS]修复了控制台上出现的“信息：”消息（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2610）。

示例

[Python] 使用Microsoft Entra令牌凭据为 recognizer 添加了示例代码。

适用于 JavaScript 的语音 SDK

新功能：

更新了开发依赖项：TypeScript 3.5.3 → 4.5
更新了 TranslationRecognizer，以默认使用 V2 接口。
更新了 SpeechRecognizer 以使用 V2 终结点。
- 这会导致不再收到 NoMatch 结果。
添加了对Microsoft Entra基于令牌的身份验证的语音识别和翻译支持。
已将 FromEndpoint API 更新为针对大多数方案构建 SpeechConfig 的建议方法。
- 适用于使用：
  - 语音识别器
  - TranslationRecognizer （通过 SpeechTranslationConfig）
  - 会话转录器
  - 语音合成器
- 现在，可以使用 Azure 门户中的语音和 Microsoft Foundry 服务资源的终结点来构造 SpeechConfig 对象。
- 构造 SpeechConfig 的所有其他方法将继续正常运行，并且受支持。

Bug 修复

修复了不受支持的连接关闭代码上的无限连接重试循环（https://github.com/microsoft/cognitive-services-speech-sdk-js/issues/896）。

语音 SDK 1.43：2025 年 3 月版本

注意

Ubuntu 20.04“标准安全维护”将于 2025 年 4 月到期，不再可用作 ADO 生成代理。未来的语音 SDK 版本需要 Ubuntu 22.04 LTS（而不是 Ubuntu 20.04）作为支持的最低版本。

新功能：

已将 FromEndpoint API 更新为针对大多数方案构建 SpeechConfig 的建议方法。
- 适用于使用：
  - 语音识别器
  - TranslationRecognizer （通过 SpeechTranslationConfig）
  - 会话转录器
  - SpeechSynthesizer 在所有编程语言中，JavaScript 除外。
- 现在，您可以从 Azure 门户使用终结点为语音和认知服务资源构建一个 SpeechConfig 对象。
- 构造 SpeechConfig 的所有其他方法将继续正常运行，并且受支持。
更新了 TranslationRecognizer，以默认使用 V2 接口。
- 这会在使用 V2 终结点时将控制参数从 URL 移到通道内消息。
- 行为更改：为“zh”返回的默认语言现在为“zh-cn”而不是“zh-hans”
为SpeechSynthesis_FrameTimeoutInterval和SpeechSynthesis_RtfTimeoutThreshold添加了属性 ID。
针对长时间运行的识别，已优化 SDK 的重新连接次数。
[C++， Python] 添加了对在文本流式处理请求中指定样式和温度的支持。
[C#] 添加了在使用 FromEndpoint 构造配置对象时自动 Microsoft Entra ID 令牌刷新的支持。
- 这会将语音 SDK 的依赖项添加到 Azure.Core NuGet 包。
- 使用以下命令时，语音 SDK 现在可以接受 TokenCredential 派生对象进行身份验证：
  - 语音识别器
  - 翻译识别器
  - 会话转录器
[Objective-C]更新了 SPXTranslationRecognizer 以支持从开放范围进行源语言自动检测。
[Objective-C， Python] 添加了诊断 API EventLogger、FileLogger 和 MemoryLogger。
[Go]：新增对 TranslationRecognizer 的支持

Bug 修复

修复了 Linux arm32 上的 OpenSSL 3 支持（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2736）。
修复了语音合成语音列表中缺少的状态字段（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2771）。
修复了与日语分析程序匹配的 IntentRecognizer 模式无法正确标识整数字符。
修复了嵌入语音识别中出现重复结果的潜在问题。
修复了 Android 12 及更高版本中 ConversationParticipantsChangedEventArgs 的“参与者为空”问题（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2687）。

示例

[C++]添加了使用模式匹配的独立意向识别的示例。
- 随着 LUIS 服务于 2025 年 10 月停用，语音 SDK 也将停用 IntentRecognizer 对象系列。
- 在此之前，我们希望共享模式匹配的实现。
[C++、C#、Java、Python] 更新了大多数示例以使用 FromEndpoint API 而不是 FromSubscription。
[C#]为多层语音识别应用程序添加了方案示例。
- 演示音频重播和从边缘设备重新连接到中间层服务的方法，该服务随后通过语音 SDK 将音频转发到语音服务
[C#]使用自动刷新Microsoft Entra ID令牌的更新示例。
[Python] 添加了新诊断 API 的示例。
[Unity] 添加了有关安装新的 Azure.Core 依赖项的说明。

语音 SDK 1.42.0：2024 年 12 月发行版

新功能

Java：使用 FileLogger、MemoryLogger、EventLogger 和 SpxTrace 类添加了诊断日志记录 API。
支持将会议参与者的 JSON 属性“details”发送到服务
Go：添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
JavaScript、Go：添加了公共属性 id Speech_SegmentationStrategy，用于确定口语短语何时结束以及何时应生成最终识别结果（包括语义分段）
JavaScript，Go：添加了公共属性 ID Speech_SegmentationMaximumTimeMs根据Java、Python、C#、C++ 中的时间确定口语短语的结尾

Bug 修复

如果未设置语音名称，则修复嵌入式 TTS 语音在每次合成时重复加载的问题。
修复了在某些情况下使用 MeetingTranscriber 时的偏移计算问题。
修复了并行注册多个诊断事件侦听器时可能出现的死锁问题。
(JavaScript) 修复了音频结束时可能丢失 NoMatch 结果的问题。此修复还使语音结束时的行为与其他 SDK 语言保持一致，并可能导致不再引发某些空事件。
(JavaScript) 修复了结果 JSON 中的偏移量，以便与结果对象的偏移量保持一致。以前仅修复了结果对象的偏移属性以考虑服务重新连接。
Go 语言：修复了编译错误 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
修正了重新连接服务时会议转录中结果的偏移。
修复了日志记录中的死锁问题。

示例

更新了 C# 示例以使用 .NET 8.0。
Java示例使用诊断日志记录 API，其中显示了新诊断日志记录类的使用情况。

2024 年 11 月版本

适用于 Visual Studio Code 的 Azure 语音工具包扩展

Azure语音工具包扩展现在可用于Visual Studio Code用户。它包含一系列语音快速入门和场景示例，只需单击即可轻松构建和运行。有关详细信息，请参阅 Visual Studio Code Marketplace 中的 Azure Speech Toolkit。

文本转语音头像代码示例

我们向 Android 和 iOS 添加了语音虚拟形象代码示例。这些示例演示了如何在移动应用程序中使用实时文本转语音虚拟形象。

语音 SDK 1.41.1：2024 年 10 月版本

新增功能

添加了对 Amazon Linux 2023 和 Azure Linux 3.0 的支持。
添加了公共属性 ID SpeechServiceConnection_ProxyHostBypass，用于指定未使用代理的主机。
添加了用于控制新短语分段策略的属性。

缺陷修复

修复了不完全支持 2024 年 8 月之后生成的关键字识别高级模型的问题。
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- 请注意，在 iOS 上使用 Swift 时，项目必须使用 MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip（下载网址 https://aka.ms/csspeech/iosbinaryembedded）或 MicrosoftCognitiveServicesSpeechEmbedded-iOS Pod（包含高级模型支持）。
修复了 C# 中与字符串使用情况相关的内存泄漏。
修复了 Objective-C 和 Swift 中无法从 SPXConversationTranscriptionResult 获取 SPXAutoDetectSourceLanguageResult 的问题。
修复了将 Microsoft Audio Stack 用于识别时偶尔出现的崩溃问题。
修复了Python中的类型提示。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
修复了在使用自定义终结点时无法提取 TTS 语音列表的问题。
修复了使用短名称指定语音时，每次朗读请求都会重新初始化嵌入式 TTS 的问题。
修复了关于 RecognizeOnce 音频最大持续时间的 API 参考文档。
修复了在 JavaScript 中处理任意采样率时出现的错误
- 感谢 rseanhall 对此做出的贡献。
修复了在 JavaScript 中计算音频偏移量时出现的错误
- 感谢 motamed 对此做出的贡献。

重大更改

由于 ONNX 运行时在此平台不可用，Windows ARM 32 位上的关键字识别支持已被移除。

语音 SDK 1.4.0：2024 年 8 月版

注意

语音 SDK 版本 1.39.0 是一个内部版本，没有丢失。

新功能

在语音识别中增加了对 G.722 压缩音频流式处理的支持。
在语音合成中的输入文本流式处理中增加了对音调、速率和音量设置的支持。
通过在语音合成中引入 PersonalVoiceSynthesisRequest 增加了对个人语音输入文本流式处理的支持。此 API 为预览版，在未来版本中可能会发生变化。
增加了在使用 ConversationTranscriber 时对中间结果进行分割聚类的支持。
由于 CentOS 7 终止支持和 RHEL 7 维护支持 2 结束，已删除 CentOS/RHEL 7 支持。
使用嵌入式语音模型现在需要模型许可证而不是模型密钥。如果你是现有的嵌入式语音客户，并且想要升级，请联系Azure的支持人员，了解有关模型更新的详细信息。

Bug 修复

Windows 在升级到 VS 2022 版本 17.10.0 - 开发者社区（visualstudio.com）0 后，使用 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR 标志生成语音 SDK 二进制文件作为 Visual C++ 运行时问题的缓解措施Access 与 std：：mutex：：lock 冲突。如果 Windows C++ 应用程序使用语音 SDK，并且代码中使用了 std::mutex，则可能需要应用相同的生成配置标志（请参阅链接问题的详细信息）。
修复了 OpenSSL 3.x 检测在 Linux arm64 平台上无法正常工作（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420）。
已修复部署 UWP 应用时，MAS NuGet 包中的库和模型不会复制到部署位置的问题。
修复了 Android 包中的内容提供程序冲突（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463）。
已修复后处理选项未应用于中间语音识别结果的问题。
修复了有关发行版特定运行时标识符（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244）的 .NET 8 警告。

示例

已将嵌入式语音示例更新为使用模型许可证而不是密钥。

语音 SDK 1.38.0：2024 年 6 月版本

新功能

升级了语音 SDK Linux 平台要求：
- 新的最低基线为 Ubuntu 20.04 LTS，或与 glibc 2.31 或更高版本兼容。
- 根据 Ubuntu 20.04 平台支持移除了适用于 Linux x86 的二进制文件。
- 请注意，RHEL/CentOS 7 仍然受支持，直到 6 月 30 日（CentOS 7 终止服务且 RHEL 7 维护支持 2 结束）。适用于它们的二进制文件将在语音 SDK 1.39.0 版本中移除。
在 Linux 上添加了对 OpenSSL 3 的支持。
添加了支持使用语音合成器生成 g722-16khz-64kbps 音频输出格式的功能。
添加了支持使用语音合成器通过连接对象发送消息的功能。
在 Objective-C 和 Swift 中添加了 Start/StopKeywordRecognition API。
添加了用于选择自定义翻译模型类别的 API。
更新了与语音合成器配合使用时的 GStreamer 用法。

Bug 修复

修复了 Start/StopKeywordRecognition 期间出现的“Websocket 消息大小不能超过 65536 字节”错误。
修复语音合成期间Python分段错误。

示例

更新 C# 示例，以默认使用 .NET 6.0。

语音 SDK 1.37.0：2024 年 4 月发布

新功能

在语音合成中添加对输入文本流式处理的支持。
将默认语音合成语音更改为 en-US-AvaMultilingualNeural。
更新 Android 版本以使用 OpenSSL 3.x。

Bug 修复

使用 MAS 时修复在 SpeechRecognizer 释放过程中偶尔出现的 JVM 崩溃问题。（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125）
改进对 Linux 上默认音频设备的检测。（https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292）

示例

更新已包含新功能。

语音 SDK 1.36.0：2024 年 3 月版

新功能

使用 AutoDetectSourceLanguageConfig::FromOpenRange() 在 v2 终结点上添加对多语言翻译中语言标识的支持。

Bug 修复

修复了在 SynthesisStarted 事件期间调用 Stop 时未触发的 SynthesisCanceled 事件。
修复了嵌入式语音合成中的干扰问题。
修复了并行运行多个识别器时嵌入式语音识别中的崩溃问题。
修复了 v1/v2 终结点上的短语检测模式设置问题。
修复了 Microsoft Audio Stack 的各种问题。

示例

针对新功能的更新。

语音 SDK 1.35.0：2024 年 2 月版本

新功能

将默认文本语音转换语音从 en-US-JennyMultilingualNeural 更改为 en-US-AvaNeural。
支持在嵌入式语音翻译结果中以详细输出格式提供字词级别的细节信息。

Bug 修复

修复 Python 中的 AudioDataStream 位置访问器 API。
使用 v2 终结点修复语音翻译，而无需语言检测。
修复嵌入式文本转语音中的随机崩溃和重复单词边界事件。
为 WebSocket 连接上的内部服务器错误返回一个正确的取消错误代码。
修复将 MAS 与 C# 一起使用时加载 FPIEProcessor.dll 库失败的问题。

示例

嵌入式识别示例的次要格式设置更新。

语音 SDK 1.34.1：2024 年 1 月发布版

破坏性更改

仅漏洞问题修复

新功能

仅漏洞问题修复

Bug 修复

修复了 1.34.0 中引入的回归错误，即由于错误的地区设置信息为多个中国地区的用户构造了错误的服务端点 URL。

语音 SDK 1.34.0：2023 年 11 月发布版本

破坏性更改

SpeechRecognizer 已更新为默认情况下（即未显式指定 URL 时）使用新的终结点，对于大多数属性，该终结点不再支持查询字符串参数。请使用相应的 API 函数，而不是直接使用 ServicePropertyChannel.UriQueryParameter 设置查询字符串参数。

新功能

与 .NET 8 的兼容性（修复了 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170，但有关 centos7-x64 的警告除外）
支持嵌入式语音性能指标，这些指标可用于评估设备运行嵌入式语音的功能。
支持嵌入式多语言翻译中的源语言标识。
支持 iOS 和 Swift/Objective-C 的嵌入式语音转文本、文本转语音和翻译功能已在预览版中发布。
MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod 中提供了嵌入式支持。

Bug 修复

修复了 iOS SDK 二进制文件大小增加至两倍的问题 · 问题 #2113 · Azure-Samples/cognitive-services-speech-sdk （github.com）
修复无法从 Azure 语音到文本 API 获取单词级时间戳的问题 • 问题 #2156 • Azure-Samples/cognitive-services-speech-sdk （github.com）
修复了DialogServiceConnector销毁阶段的问题，以正确断开活动连接。此问题偶尔会导致崩溃。
修复了当使用 MAS 时在创建识别器过程中出现的异常。
适用于 Windows UWP x64 和 Arm64 的 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet 包的 FPIEProcessor.dll 依赖于本机 C++ 的 VC运行库。通过对依赖项进行更新以更正 VC 运行时库（针对 UWP），此问题已得到纠正。
修复了 [MAS] 使用 MAS 时识别OnceAsync 导致SPXERR_ALREADY_INITIALIZED的循环调用 · 问题 #2124 • Azure-Samples/cognitive-services-speech-sdk （github.com）
修复了使用短语列表时嵌入式语音识别崩溃的问题。

示例

用于语音转文本、文本转语音和翻译的嵌入式 iOS 示例。

语音 CLI 1.34.0：2023 年 11 月版本

新功能

合成语音时支持字边界事件输出。

Bug 修复

将 JMESPath 依赖项更新到了最新版本，改进了字符串评估

语音 SDK 1.33.0：2023 年 10 月版本

重大变更通知

在包配置文件中使用 MAS 的应用程序现在需要包含为 Microsoft Audio Stack (MAS) 添加的新 NuGet 包。

新功能

添加了新的 NuGet 包 Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg，该包改进了使用 Microsoft Audio Stack 时的回声取消性能
发音评估：添加了对韵律和内容评估的支持，可以从韵律、词汇、语法和主题等方面来评估口语。

Bug 修复

修复了关键字识别结果偏移，以便从一开始就正确匹配输入音频流。此修补程序适用于独立关键字识别和关键字触发的语音识别。
解决了合成器 stopSpeaking 不能立即返回的问题 SPXSpeechSynthesizer stopSpeaking() 方法在 iOS 17 上不能立即返回 - 问题 #2081
修复了 Swift 模块中的 Mac Catalyst 导入问题，增加了对 Apple Silicon 上 Mac Catalyst 的支持。问题 #1948
JS：AudioWorkletNode 模块加载现在使用受信任的 URL 以及CDN 浏览器包括回退。
JS：打包的库文件现在面向 ES6 JS，移除了对 ES5 JS 的支持。
JS：针对 v2 终结点的翻译场景的中间事件已得到正确处理
JS：TranslationRecognitionEventArgs 的语言属性现在已设置为 translation.hypothesis 事件。
语音合成：SynthesisCompleted 事件保证在发生所有元数据事件后发出，因此可用于指示事件结束。如何检测何时完全接收到发音特征？问题 #2093 Azure-Samples/cognitive-services-speech-sdk

示例

添加了一个示例，演示如何使用 Python 进行 MULAW 流式处理）
修复 speech-to-text NAudio 示例

语音 CLI 1.33.0：2023 年 10 月版本

新功能

合成语音时支持字边界事件输出。

Bug 修复

语音 SDK 1.32.1：2023 年 9 月版本

Bug 修复

包含 OpenSSL1.1.1v 的最新安全修补程序的 Android 包更新
JS - 增加了 WebWorkerLoadType 属性，允许绕过超时工作线程的数据 URL 加载
JS - 修复 10 分钟后对话翻译断线的问题
JS - 对话翻译身份验证令牌现在传播到翻译服务连接

示例

使用 Swift API 进行Conversation 转录

语音 SDK 1.31.0：2023 年 8 月版

新增功能

语音 SDK 1.31.0 公共预览版提供对实时话者分离的支持。此功能在以下 SDK 中提供：C#、C++、Java、JavaScript、Python 和 Objective-C/Swift。
通过音频播放同步语音合成文字边界和唇形活动

破坏性更改

以前的“对话听录”方案重命名为“会议听录”。例如，使用 MeetingTranscriber 而不是 ConversationTranscriber，使用 CreateMeetingAsync 而不是 CreateConversationAsync。尽管 SDK 对象和方法的名称已更改，但重命名操作不会更改功能本身。使用会议转录对象来转录包含用户配置文件和语音签名的会议。 “对话翻译”对象和方法不受这些更改的影响。你仍然可以将 ConversationTranslator 对象及其方法用于会议翻译方案。
对于实时话者分离，引入了一个新的 ConversationTranscriber 对象。新的“对话听录”对象模型和调用模式类似于对 SpeechRecognizer 对象的连续识别。主要区别在于， ConversationTranscriber 对象设计为用于要区分多个说话人的对话方案（话者分离）。用户配置文件和语音签名不适用。有关详细信息，请参阅实时话者分离快速入门。

此表显示了用于现场分离和会议转录的旧对象和新对象名称。方案名称在第一列中，旧对象名称在第二列中，新对象名称在第三列中。

方案名称	旧对象名称	新对象名称
实时分割	不可用	`ConversationTranscriber`
会议听录	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ 、Participant、ParticipantChangedReason 和 User 对象同时适用于会议听录和会议翻译方案。

²Meeting 对象是新的，与 MeetingTranscriber 对象一起使用。

Bug 修复

修复了 macOS 最低支持版本 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
修复了发音评估漏洞。
- 解决了音素准确性评分的问题，确保它们现在仅准确反映特定的发音错误音素。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 解决了发音评估功能错误地将完全正确的发音识别为错误的问题，尤其是在单词可能有多个有效发音的情况下。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

示例

语音 SDK 1.30.0：2023 年 7 月版本

新增功能

C++、C#、Java - 在嵌入式语音识别的详细结果中添加了对 DisplayWords 的支持。
Objective-C/Swift - 在 Objective-C/Swift 中添加了对 ConnectionMessageReceived 事件的支持。
Objective-C/Swift - 改进了适用于 iOS 的关键字辨识模型。此更改增加了某些包含 iOS 二进制文件（如 NuGet、XCFramework）的包的大小。我们正在努力减小未来版本的大小。

Bug 修复

修复了将语音识别器与 PhraseListGrammar 配合使用时的内存泄漏问题（GitHub问题）。
修复了文本转语音开放连接 API 中的死锁。

示例

有关如何在自己的应用程序中指定学习语言的新发音评估示例
- C#：请参阅示例代码。
- C++：请参阅示例代码。
- JavaScript：请参阅示例代码。
- Objective-C：请参阅示例代码。
- Python：请参阅示例代码。
- Swift：请参阅示例代码。

语音 SDK 1.29.0：2023 年 6 月版本

新增功能

C++、C#、Java - 嵌入式语音翻译 API 预览版。现在，无需云连接即可进行语音翻译！
JavaScript - 语音翻译现已启用连续语言识别 (LID)。
JavaScript - 用于将 LocaleName 属性添加到 VoiceInfo 类的社区贡献。感谢 GitHub 用户 shivsarthak 提交的拉取请求。
C++、C#、Java - 添加了对将文本转语音输出的采样率从 16 kHz 升至 48 kHz 的支持。
添加了对采用简单模式匹配的意向识别器中的 hi-IN 区域设置的支持。

Bug 修复

修复了在对象销毁期间，由语音识别中竞态条件引起的崩溃问题，这在我们的一些 Android 测试中曾出现过。
修复了采用简单模式匹配器的意向识别器中可能存在的死锁

示例

新的嵌入式语音翻译示例

语音 SDK 1.28.0：2023 年 5 月版本

重大更改

JavaScript SDK：删除了联机证书状态协议 (OCSP)。这使客户端能够更好地符合证书处理的浏览器和 Node 标准。版本 1.28 和更高版本将不再包含我们的自定义 OCSP 模块。

新增功能

当语句末尾出现沉默超时时，嵌入式语音识别现在会返回 NoMatchReason::EndSilenceTimeout。这与使用实时语音服务进行识别时的行为匹配。
JavaScript SDK：使用 SpeechTranslationConfig 枚举值时设置 PropertyId 的属性。

Bug 修复

C# on Windows - 修复Windows音频扩展中的潜在竞争条件/死锁。在既快速释放音频渲染器又使用合成器方法中止发声的场景中，底层事件不会通过停止动作被重置，这可能导致渲染器对象无法被释放，并且在其可能持有一个用于释放的全局锁时，还可能导致 dotnet GC 线程冻结。

示例

添加了 MAUI 的嵌入式语音示例。
更新了 Android Java的嵌入式语音示例，以包含文本转语音。

语音 SDK 1.27.0：2023 年 4 月发布

关于即将进行的更改的通知

我们计划在下一个 JavaScript SDK 版本中删除联机证书状态协议 (OCSP)。这使客户端能够更好地符合证书处理的浏览器和 Node 标准。版本 1.27 是包含我们的自定义 OCSP 模块的最后一个版本。

新增功能

JavaScript - 添加了对来自浏览器的麦克风输入的支持，以及说话人识别和验证。
嵌入式语音识别 - 更新了对 PropertyId::Speech_SegmentationSilenceTimeoutMs 设置的支持。

Bug 修复

常规 - 服务重新连接逻辑中的可靠性更新（除 JavaScript 之外的所有编程语言）。
General - 修复Windows（JavaScript 以外的所有相关编程语言）上的字符串转换泄漏内存。
嵌入式语音识别 - 修复了使用某些语法列表条目时法语语音识别的故障。
源代码文档 - 更正了与服务上的音频日志记录相关的 SDK 参考文档注释。
意向识别 - 修复了与列表实体相关的模式匹配程序优先级。

示例

正确处理 C# 对话听录 (CTS) 示例中的身份验证失败。
添加了 Python、JavaScript、Objective-C 和 Swift 编程语言的流式发音评估示例。

语音 SDK 1.26.0：2023 年 3 月发布

破坏性更改

以下软件包中所有 iOS 目标中的 Bitcode 都已禁用：包含 xcframework 的 CocoaPods、NuGet（用于 Xamarin 和 MAUI）以及 Unity。出现这一更改的原因是 Apple 从 Xcode 14 开始不再支持 Bitcode。此更改还意味着，如果使用的是 Xcode 13 版本，或者已使用语音 SDK 在应用程序上显式启用了 Bitcode，则可能会遇到错误，指示“框架不得包含 Bitcode，必须重新生成”。要解决此问题，请确保目标已禁用 Bitcode。
在此版本中，最低 iOS 部署目标已升级到 11.0，这意味着不再支持 armv7 HW。

新功能

嵌入式（设备上）语音识别现在支持 8 和 16 kHz 采样率输入音频（每个采样 16 位，单声道 PCM）。
语音合成现在会在结果中报告连接、网络和服务延迟，以帮助优化端到端延迟。
为使用简单模式匹配进行意图识别新增平局决胜规则。字符字节较多的模式匹配将胜过字符字节较少的模式匹配。示例：模式“选择 {something} 在右上角”将优于“选择 {something}”

Bug 修复

语音合成：修复了表情符号在字边界事件中不正确这一 bug。
使用对话语言理解（CLU）进行意图识别
- CLU 协调器工作流中的意图现在正确显示。
- JSON 结果现在可通过属性 ID LanguageUnderstandingServiceResponse_JsonResult 获得。
使用关键字激活进行语音识别：修复了关键字识别后缺少约 150 毫秒音频的问题。
修复了客户报告的语音 SDK NuGet iOS MAUI 发布版本（GitHub问题）

示例

修复了客户报告的 Swift iOS 示例（GitHub问题）

语音 SDK 1.25.0：2023 年 1 月发布版

破坏性更改

语言识别（预览版）API 已得到简化。如果更新到语音 SDK 1.25 并看到生成中断，请访问语言识别页面以了解新属性 SpeechServiceConnection_LanguageIdMode。这个单一属性取代了之前的两个属性（SpeechServiceConnection_SingleLanguageIdPriority 和 SpeechServiceConnection_ContinuousLanguageIdPriority）。在最近的模型改进之后，不再需要在低延迟和高准确度之间进行优先排序。现在，你只需在进行连续语音识别或翻译时，选择是运行启动时语言识别还是连续语言识别即可。

新功能

C#/C++/Java：嵌入式语音 SDK 现在以封闭的公共预览版发布。当云连接断断续续或不可用时，你现在可以在设备上进行语音转文本和文本转语音操作。在 Android、Linux、macOS 和 Windows 平台上受支持
C# MAUI：在语音 SDK NuGet 中添加了对 iOS 和 Mac Catalyst 目标的支持（Customer 问题反馈）
Unity：在 Unity 包中添加了 Android x86_64 体系结构（客户问题）
Go：
- 为语音识别添加了 ALAW/MULAW 直接流媒体支持（客户反馈）
- 添加了对 PhraseListGrammar 的支持。感谢GitHub用户czkoko为社区做出的贡献！
C#/C++：意图识别器现在支持 C++ 和 C# 中的对话语言理解模型，并在 Microsoft 服务上进行编排。

Bug 修复

修复了 KeywordRecognizer 在尝试停止时偶尔挂起的问题
Python：
- 修复了在设置 PronunciationAssessmentGranularity.FullText 时获取发音评估结果的问题（客户问题）
- 修复获取语音合成声音时男性声音的性别属性未被检索的问题
JavaScript
- 修复了解析在 iOS 设备上录制的某些 WAV 文件的客户问题（客户问题）
- JS SDK 现在无需使用 npm-force-resolutions 即可构建（客户问题）
- 在使用通过 SpeechConfig.fromEndpoint() 创建的 speechConfig 实例时，对话翻译器现在可以正确设置服务终结点

示例

添加了展示如何使用嵌入式语音的示例
为 MAUI 添加了语音转文本示例

请参阅 Speech SDK 示例存储库。

语音 SDK 1.24.2：2022 年 11 月版本

新功能

没有新功能，只有嵌入式引擎修补程序以支持新的模型文件。

Bug 修复

所有编程语言
- 修复了嵌入式语音识别模型加密的相关问题。

语音 SDK 1.24.1：2022 年 11 月版本

新功能

发布了嵌入式语音预览版的程序包。有关详细信息，请参阅 https://aka.ms/embedded-speech。

Bug 修复

所有编程语言
- 修复了语音字体不受支持时的嵌入式 TTS 崩溃问题
- 修复 stopSpeaking（）无法停止在 Linux 上播放（#1686）
JavaScript SDK
- 修复了对话转录器在音频门控方面的回归问题。
Java
- 临时将更新的 POM 和 Javadocs 文件发布到了 Maven Central，使文档管道能够更新联机参考文档。
Python
- 修复Python speak_text（ssml）返回 void 的回归问题。

语音 SDK 1.24.0：2022 年 10 月版本

新功能

所有编程语言：已将 AMR-WB (16khz) 添加到支持的文本转语音音频输出格式列表
Python：为支持的 Linux 分发版添加了 Linux Arm64 的包。
C#/C++/Java/Python：增加了对 ALAW 和 MULAW 的直接流式传输到语音服务的支持（除了现有的 PCM 流）使用 AudioStreamWaveFormat。
C# MAUI：NuGet 包已更新以支持 Android 平台，供 .NET MAUI 开发人员使用（客户问题）
Mac：添加了适用于 Mac 的单独 XCframework，其中不包含任何 iOS 二进制文件。此组件为只需要 Mac 二进制文件的开发人员提供了一个使用较小 XCframework 包的选项。
Microsoft 音频堆栈 (MAS)：
- 指定波束成形角度时，将会更好地抑制源自指定范围之外的声音。
- 对于 Linux ARM32 和 Linux Arm64，libMicrosoft.CognitiveServices.Speech.extension.mas.so 的大小减少了大约 70%。
使用模式匹配进行意向识别：
- 添加了对语言 fr、de、es、jp 的正字法支持
- 添加了对语言 es 的预生成整数支持。

Bug 修复

iOS：修复由于压缩音频解码失败而导致 iOS 16 上的语音合成错误（客户问题）。
JavaScript：
- 修复了在获取语音合成语音列表时身份验证令牌不起作用的问题（客户问题）。
- 使用数据 URL 加载辅助角色（客户问题）。
- 仅当浏览器支持 AudioWorklet 时才创建音频处理器 worklet（客户问题）。这得益于 William Wong 的社区贡献。感谢 William！
- 修复了当 LUIS 响应connectionMessage为空时的回调识别（用户问题）。
- 正确设置语音分段的超时时间。
使用模式匹配进行意向识别：
- 模型中的非 json 字符现在能够正确加载。
- 修复了在连续识别期间调用 recognizeOnceAsync(text) 时出现的挂起问题。

语音 SDK 1.23.0：2022 年 7 月版本

新功能

C#、C++、Java：在意向识别中使用模式匹配添加了对语言 zh-cn 和 zh-hk 的支持。
C#：添加了对 AnyCPU .NET Framework 构建的支持

Bug 修复

Android：通过将 OpenSSL 更新到 1.1.1q 修复了 OpenSSL 漏洞 CVE-2022-2068
Python：修复使用 PushAudioInputStream 时的崩溃
iOS：修复在 iOS 上报告的“EXC_BAD_ACCESS: Attempted to dereference null pointer”错误（GitHub问题）

语音 SDK 1.22.0：2022 年 6 月版本

新功能

Java：IntentRecognitionResult API 中的 getEntities()、applyLanguageModels() 和 recognizeOnceAsync(text) 方法已更新以支持“简单模式匹配”引擎。
Unity：添加了对 Unity 程序包的 Mac M1（Apple Silicon）的支持（GitHub问题）
C#：添加了对 Xamarin Android x86_64 的支持（GitHub问题）
C#：由于 v4.6.1 已退休，SDK C# 包的 .NET 框架最低版本已更新至 v4.6.2（请参阅 Microsoft .NET Framework 组件生命周期策略）
Linux：添加了对 Debian 11 和 Ubuntu 22.04 LTS 的支持。 UUbuntu 22.04 LTS 需要手动安装 libssl1.1，一种方法是从此处将其作为二进制包（例如 libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 或 x64 更高版本）进行安装，另一种方法是通过从源编译进行安装。

Bug 修复

UWP：从 UWP 库中删除了 OpenSSL 依赖项，并替换为 WinRT websocket 和 HTTP API，以满足安全合规性和更小的二进制占用。
Mac：修复了使用面向 macOS 平台的 Swift 项目时出现的“MicrosoftCognitiveServicesSpeech 模块找不到”问题
Windows、Mac：修复了一个特定于平台的问题，即通过属性配置为以实时速率流式传输的音频源有时会滞后，并最终超出容量。

示例（GitHub）

C#：更新为使用 v4.6.2 的.NET框架示例
Unity：适用于 Android 和 UWP 的虚拟助手示例
Unity：针对 Unity 2020 LTS 版本更新的 Unity 示例

语音 SDK 1.21.0：2022 年 4 月版本

新功能

Java &JavaScript：添加了对使用 SpeechRecognizer 对象时连续语言识别的支持
JavaScript：添加了诊断 API，以启用控制台日志记录级别和（仅限节点）文件日志记录，从而帮助 Microsoft 排查客户报告的问题
Python：添加了对对话听录的支持
Go：添加了对“说话人识别”的支持
C++ 和 C#：添加了对意向识别器中所需单词组的支持（简单模式匹配）。例如：“(set|start|begin) a timer”，其中必须出现“set”、“start”或“begin”中的一个，才能识别意图。
所有编程语言、语音合成：在字边界事件中添加了持续时间属性。添加了对标点边界和句子边界的支持
Objective-C/Swift/Java：在发音评估结果对象上添加了单词级结果（类似于 C#）。应用程序不再需要分析 JSON 结果字符串以获取字级信息（GitHub问题）
iOS 平台：添加了对 ARMv7 体系结构的实验性支持

Bug 修复

iOS 平台：修复了在使用 CocoaPod 时无法为目标“任何 iOS 设备”完成构建的问题（GitHub 问题）
Android 平台：OpenSSL 版本已更新为 1.1.1n，以修复安全漏洞 CVE-2022-0778
JavaScript：修复了 WAV 标头没有根据文件大小更新的问题（GitHub问题）
JavaScript：修复请求 ID 不同步问题破坏翻译场景（GitHub issue）
JavaScript：修复在没有流的情况下实例化 SpeakerAudioDestination 时出现的问题（GitHub问题]
C++：修复了 C++ 头，以便在为 C++17 或更高版本进行编译时去除警告

示例 GitHub

使用语言识别进行语音识别的新 Java 示例
新的 Python 和 Java 对话转录示例
有关“说话人识别”的新 Go 示例
新的 C++ 和 C# 工具，适用于 Windows 系统，可以枚举所有音频捕获和渲染设备，以查找其设备 ID。如果你计划从非默认设备捕获音频或将音频呈现到非默认设备，那么此 ID 是语音 SDK 所需的。

语音 SDK 1.20.0：2022 年 1 月发布

新功能

Objective-C、Swift 和 Python：添加了对 DialogServiceConnector 的支持，用于语音助理方案。
Python：添加了对 Python 3.10 的支持。删除了对 Python 3.6 的支持，因为 Python 的3.6 版本停止支持。
Unity：Linux 上的 Unity 应用程序现在支持语音 SDK。
C++、C#：现在 C# 支持使用模式匹配的 IntentRecognizer。此外，C++ 和 C# 现在支持带有自定义实体、可选组和实体角色的场景。
C++、C#：改进了使用新类 FileLogger、MemoryLogger 和 EventLogger 的诊断跟踪日志记录。 SDK 日志是 Microsoft 诊断客户报告的问题的重要工具。这些新类使客户更容易将语音 SDK 日志集成到其自己的日志记录系统中。
所有编程语言：发音配置现在具有设置所需音素字母表（IPA 或 SAPI）以及最佳音素数量的属性，无需基于 GitHub 问题 1284 编写配置 JSON。此外，现在还支持音节级别输出。
Android、iOS 和 macOS（所有编程语言）：不再需要 GStreamer 来支持有限带宽的网络。 SpeechSynthesizer 现在使用操作系统的音频解码功能来解码从文本到语音服务流式传输的压缩音频。
所有编程语言：SpeechSynthesizer 现在支持三种新的原始输出 Opus 格式（无需容器），这些格式广泛应用于实时传送视频流场景。
JavaScript：向 SpeechSynthesizer 添加了 getVoicesAsync（） API，以检索支持的合成语音列表（GitHub问题 1350）
JavaScript：向 AudioStreamFormat 添加了 getWaveFormat（） API 以支持非 PCM 波形格式（GitHub问题 452）
JavaScript：向 SpeakerAudioDestination 添加了音量 getter/setter 以及 mute()/unmute() API（GitHub问题 463）

Bug 修复

C++、C#、Java、JavaScript、Objective-C 和 Swift：修复了在停止使用 PushAudioInputStream 的语音识别器时删除 10 秒的延迟。在这种情况下，在调用 StopContinuousRecognition 后没有推送新音频（GitHub问题 1318，331）
在 Android 和 UWP 上的 Unity：针对 UWP、Android Arm64 和适用于 Android 的 Windows 子系统 Arm64 （GitHub问题 1360）修复了 Unity 元文件。
iOS：使用 CocoaPods 时在任何 iOS 设备上编译语音 SDK 应用程序现已修复（GitHub问题 1320）
iOS：将 SpeechSynthesizer 配置为将音频直接输出到扬声器时，在极少数情况下播放会在开始时停止。此问题已修复。
JavaScript：如果未找到任何音频化工作单元，则对麦克风输入使用方案处理器作为回退（GitHub 问题 455）
JavaScript：将协议添加到代理以缓解 Sentry 集成发现的 bug（GitHub问题 465）

示例 GitHub

C++， C#、Python和Java示例，演示如何获取详细的识别结果。详细信息包括替代识别结果、置信度分数、词法形式、规范化表单、掩码规范化表单，以及每个表单的单词级计时。
iOS 示例使用 AVFoundation 作为外部音频源进行添加。
添加了 Java sample 以演示如何使用 WordBoundary 事件获取 SRT （SubRip Text）格式。
用于发音评估的 Android 示例。
C++，C#显示新诊断日志记录类的用法。

Speech SDK 1.19.0：2021年11月版本

亮点

我们已停止对 Ubuntu 16.04 的支持，且不再与 Azure DevOps 和 GitHub 结合使用。 Ubuntu 16.04 已于 2021 年 4 月结束生命周期。请将 Ubuntu 16.04 工作流迁移到 Ubuntu 18.04 或更高版本。
Linux 二进制文件中的 OpenSSL 链接已更改为动态。 Linux 二进制文件大小减少了约 50%。
增加了对基于 Mac M1 ARM 的芯片支持。

新功能

C++/C#/Java：添加了新 API，以支持使用 Microsoft 音频堆栈的语音输入的音频处理支持。文档在此处。
C++：新增了用于意图识别的 API，有助于更高级的模式匹配。这包括 List 和 Prebuilt Integer 实体，而且支持将意图和实体分组为模型（文档、更新和示例正在开发中，将于近期发布）。
Mac：为 CocoaPod、Python、Java 和 NuGet 包提供基于 Arm64（M1）的芯片的支持，与 GitHub 问题 1244 相关。
iOS/Mac：iOS 和 macOS 二进制文件现已打包到与 GitHub 问题 919 相关的 xcframework 中。
iOS/Mac：支持与 GitHub问题 1171 相关的 Mac catalyst。
Linux：针对 CentOS7 新增了 tar 包关于语音 SDK。 Linux .tar 包现在包含 lib/centos7-x64 中 RHEL/CentOS 7 的特定库。 lib/x64 中的语音 SDK 库仍适用于所有其他受支持的 Linux x64 分发版（包括 RHEL/CentOS 8），不适用于 RHEL/CentOS 7。
JavaScript：VoiceProfile 和 SpeakerRecognizer API 为异步/可等待。
Windows：添加了对通用 Windows 平台 (UWP)播放的支持。

Bug 修复

Android：适用于 Android 包的 OpenSSL 安全更新（更新到版本 1.1.1l）。
Python：解决了在Python上选择扬声器设备失败的 bug。
核心：连接尝试失败时自动重新连接。
iOS：在使用 GStreamer 时，iOS 包会因稳定性和 bitcode 生成问题而禁用音频压缩。可通过 GitHub 问题 1209 获取详细信息。

示例 GitHub

Mac/iOS：更新了使用 xcframework 包的示例和快速入门。
.NET：已更新为使用 .NET core 3.1 版本的示例。
JavaScript：增加了语音助手的示例。

语音 SDK 1.18.0：2021 年 7 月发行版

请注意：在此处开始使用语音 SDK。

重点摘要

Ubuntu 16.04 在 2021 年 4 月结束生命周期。通过Azure DevOps和GitHub，我们将在 2021 年 9 月放弃对 16.04 的支持。请在此之前将 ubuntu-16.04 工作流迁移到 ubuntu-18.04 或更高版本。

新功能

C++/C#/Java：我们在 GetActivationPhrasesAsync() 类中添加了新的 API VoiceProfileClient，用于在说话人识别注册阶段的独立识别方案中接收有效激活短语列表。
- 重要说明：说话人识别功能处于预览版阶段。说话人识别功能从预览版转换为正式发布版后 90 天内，所有在预览版中创建的语音配置文件将被终止。届时，预览版语音配置文件将停止运行。
Python：在现有和 SpeechRecognizer 对象上添加了对连续语言识别（LID）的支持。
Python：添加了新的Python对象名为SourceLanguageRecognizer执行一次性或连续 LID（不识别或翻译）。
JavaScript：为类添加了 getActivationPhrasesAsync API，用于为独立识别场景接收说话人识别注册阶段中有效激活短语的列表VoiceProfileClient。
JavaScript 的 VoiceProfileClient API 现在为异步可等待enrollProfileAsync。请参阅此独立标识代码的示例用途。

改进

Java：在许多Java对象中添加了AutoCloseable支持。现在支持 try-with-resources 模型释放资源。请参阅这个使用 try-with-resources 的示例。另请参阅 Oracle Java 文档教程中的 try-with-resources 语句以了解这种模式。
许多平台和体系结构的磁盘占用量已显著降低。 Microsoft.CognitiveServices.Speech.core 二进制文件的示例：x64 Linux 小于 475KB（减少 8.0%）：Arm64 Windows UWP 小于 464KB（减少 11.5%）;x86 Windows小于 343KB（17.5% 减少）;x64 Windows小于 451KB（19.4% 缩减）。

Bug 修复

Java：修复了合成文本包含代理项字符时的合成错误。详细信息here。
JavaScript：浏览器麦克风音频处理现在使用而不是已弃用的 AudioWorkletNode。详细信息here。
JavaScript：在长期运行的对话翻译场景中，正确保持对话处于活动状态。详细信息here。
JavaScript：修复了识别器在连续识别时重新连接到 mediastream 的问题。详细信息here。
JavaScript：修复了识别器在连续识别时重新连接到 pushStream 的问题。详细信息here。
JavaScript：更正了详细识别结果中的单词级别偏移计算。详细信息here。

示例

Java快速入门示例更新了 here。
JavaScript 说话人识别示例已更新为显示 enrollProfileAsync() 的新用法。请参阅示例 here。

语音 SDK 1.17.0：2021 年 5 月发行版

注意

单击此处，开始使用语音 SDK。

重点摘要

占用量更少 - 我们持续减少语音 SDK 及其组件的内存和磁盘占用量。
新的独立语言识别 API 使你能够识别正在使用的语言。
在 macOS 上使用 Unity 开发支持语音的混合现实和游戏应用程序。
现在，除了 Go 编程语言的语音识别功能，还可以使用文本转语音功能。
多个漏洞修复，以解决您——我们尊贵的客户——在 GitHub 上反馈的问题！非常感谢！敬请不时提供反馈！

新功能

C++/C#：通过 SourceLanguageRecognizer API 实现新的独立启动和连续语言检测。如果只希望检测音频内容中使用的语言，此 API 可帮你做到这一点。查看 C++ 和 C# 的详细信息。
C++/C#：语音识别和翻译识别现在支持起始和连续语言识别，因此你可以通过编程的方式，在听录或翻译之前确定正在使用的语言。有关语音识别，请参阅此处的文档；有关语音翻译，请参阅此处的文档。
C#：为 macOS (x64) 添加了对 Unity 的支持。这将解锁混合现实和游戏中的语音识别及语音合成用例！
Go：我们在 Go 编程语言中添加了对语音合成文本转语音的支持，以便在更多用例中使用语音合成。请参阅快速入门或参考文档。
C++/C#/Java/Python/Objective-C/Go：语音合成器现在支持 connection 对象。这有助于管理和监视与语音服务的连接，尤其有助于进行预连接以减少延迟。参阅此处的文档。
C++/C#/Java/Python/Objective-C/Go：我们现在在 SpeechSynthesisResult 中公开延迟和运行不足时间，以帮助监视和诊断语音合成延迟问题。请参阅 C++， C#、Java、Python、Objective-C和Go。
C++/C#/Java/Python/Objective-C：文本转语音功能现在默认使用神经语音，如果未指定使用语音的话。默认情况下，这会为你提供更高保真输出，但也会增加默认价格。
C++/C#/Java/Python/Objective-C/Go：我们在合成语音信息中添加了一个 Gender 属性，以便更轻松地根据性别选择语音。这解决了 GitHub 问题 #1055。
C++、C#、Java、JavaScript：我们现在支持 retrieveEnrollmentResultAsync、getAuthorizationPhrasesAsync 和说话人识别中的 getAllProfilesAsync()，以简化给定帐户的所有语音配置文件的用户管理。请参阅 C++、C#、Java、JavaScript的文档。这解决了 GitHub 问题 #338。
JavaScript：我们添加了连接失败重试功能，使基于 JavaScript 的语音应用程序更加可靠。

改进

Linux 和 Android 语音 SDK 二进制文件进行了更新，以使用最新版本的 OpenSSL (1.1.1k)
代码尺寸优化：
- 语言理解现在拆分为单独的“lu”库。
- Windows x64 核心二进制大小减少 14.4%。
- Android Arm64 核心二进制文件大小减少了 13.7%。
- 其他组件的大小也有所减小。

Bug 修复

All：修复了 ServiceTimeout 的 GitHub 问题 #842。现在，你可以使用语音 SDK 听录长的音频文件，而不会因为此错误而终止与服务的连接。但是，我们仍建议你对长文件使用批量听录。
C#：修复了GitHub问题 #947其中没有语音输入会使应用处于错误状态。
Java：修复了GitHub问题 #997其中，使用 DialogServiceConnector 时，Java 1.16 语音 SDK 在不使用网络连接或无效订阅密钥的情况下崩溃。
修复了突然停止语音识别（例如，在控制台应用中使用 CTRL+C）时发生崩溃的问题。
Java：添加了修复程序，用于在使用语音 SDK for Java 时删除Windows上的临时文件。
Java：修复了GitHub问题 #994其中调用 DialogServiceConnector.stopListeningAsync可能会导致错误。
Java：修复了 virtual assistant 快速入门中的客户问题。
JavaScript：修复了 GitHub 问题 #366其中ConversationTranslator引发错误“this.cancelSpeech 不是函数”。
JavaScript：修复了GitHub问题 #298，其中“将结果作为内存中流获取”的示例会发出声音。
JavaScript：修复了GitHub问题 #350其中调用 AudioConfig可能会导致“未定义 ReferenceError： MediaStream”。
JavaScript：修复了 Node.js 中针对长时间运行会话的 UnhandledPromiseRejection 警告。

示例

更新了 macOS here 的 Unity 示例文档。
Azure语音识别服务的 React Native 示例现已提供here。

语音 SDK 1.16.0：2021年3月发布

注意

Windows上的语音SDK依赖于Microsoft Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ 可再分发组件。

新功能

C++/C#/Java/Python：已移动到最新版本的 GStreamer （1.18.3），以添加对在 Windows、Linux 和 Android 上转录任何媒体格式的支持。参阅此处的文档。
C++/C#/Java/Objective-C/Python：向 SDK 添加了对解码压缩 TTS/合成音频的支持。如果将输出音频格式设置为 PCM，并且系统上有 GStreamer，则 SDK 会自动从服务请求压缩的音频以节省带宽，然后在客户端对音频进行解码。可以将 SpeechServiceConnection_SynthEnableCompressedAudioTransmission 设置为 false 以禁用此功能。 C++、C#、Java、Objective-C、Python的详细信息。
JavaScript：Node.js 用户现在可以使用。这解决了 GitHub 问题 #252。
C++/C#/Java/Objective-C/Python：为 TTS 添加了 GetVoicesAsync() 方法以返回所有可用的合成语音。 C++、C#、Java、Objective-C 和 Python 的详细信息。
C++/C#/Java/JavaScript/Objective-C/Python：为 TTS/语音合成添加了 VisemeReceived 事件以返回同步语素可视动画。参阅此处的文档。
C++/C#/Java/JavaScript/Objective-C/Python：为 TTS 添加了 BookmarkReached 事件。你可以在输入 SSML 中设置书签，并获取每个书签的音频偏移量。参阅此处的文档。
Java：添加了对说话人识别 API 的支持。详细信息here。
C++/C#/Java/JavaScript/Objective-C/Python：为 TTS 添加了采用 WebM 封装格式的两个新的输出音频格式（Webm16Khz16BitMonoOpus 和 Webm24Khz16BitMonoOpus）。这些格式是用于通过 Opus 编解码器流式传输音频的更好格式。 C++、C# Java、JavaScript、Objective-C、Python。
C++/C#/Java：添加了对检索说话人识别方案的语音配置文件的支持。 C++、C# 和 Java 的详细信息。
C++/C#/Java/Objective-C/Python：添加了对音频麦克风和扬声器控制单独共享库的支持。这样开发人员就可以在没有所需音频库依赖项的环境中使用 SDK。
Objective-C/Swift：添加了对具有伞式标头的模块框架的支持。这允许开发人员在 iOS/Mac Objective-C/Swift 应用中将语音 SDK 作为模块导入。这解决了 GitHub 问题 #452。
Python：添加了对Python 3.9的支持，并因Python 3.5寿命终止而放弃了对Python 3.5的支持。

已知问题

C++/C#/Java：DialogServiceConnector无法使用 CustomCommandsConfig 访问自定义命令应用程序，而是遇到连接错误。可以通过使用 config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) 手动将应用程序 ID 添加到请求来解决此错误。在下一版本中，将还原 CustomCommandsConfig 的预期行为。

改进

为了降低语音 SDK 的内存使用量和磁盘占用量，Android 二进制文件现在缩小了 3% 到 5%，这是我们的多版本工作的一部分。
改进了此处的 C# 参考文档的准确度、可读性和“另请参阅”部分。

Bug 修复

JavaScript：大 WAV 文件标头现在可以正确解析（将标头切片增加到了 512 字节）。这解决了 GitHub 问题 #962。
JavaScript：更正了麦克风流在停止识别前结束的麦克风计时问题，解决了语音识别在 Firefox 中不工作的问题。
JavaScript：当浏览器在 turnOn 完成之前强制麦克风关闭时，我们现在可以正确地处理初始化承诺。
JavaScript：我们已将 url 依赖项替换为 url-parse。这解决了 GitHub 问题 #264。
Android：修复了当 minifyEnabled 设置为 true 时回调函数不起作用的问题。
C++/C#/Java/Objective-C/Python：TCP_NODELAY将正确配置为 TTS 的底层套接字 IO，以减少延迟。
C++/C#/Java/Python/Objective-C/Go：修复了识别器在刚启动识别后立即销毁时偶尔发生的崩溃问题。
C++/C#/Java：修复了销毁说话人识别器时偶发性崩溃的问题。

示例

JavaScript：Browser 示例不再需要单独的 JavaScript 库文件下载。

语音 SDK 1.15.0：2021 年 1 月发行版

注意

Windows上的语音SDK依赖于Microsoft Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ 可再分发组件。

重点摘要

更小的内存和磁盘占用量，使 SDK 更有效。
高保真输出格式可用于自定义神经语音预览。
意向识别器现在可以获得比首要意向更详细的返回结果，使你能够对客户意向进行单独的评估。
语音助理和机器人现在更易于设置，你可以立即使其停止收听，并可以更好地控制其对错误的响应方式。
使压缩成为可选功能，从而改进了设备性能。
在 Windows ARM/Arm64 上使用语音 SDK。
改进了低级别调试。
发音评估功能的适用范围现在更广泛。
多个漏洞修复，以解决您——我们尊贵的客户——在 GitHub 上反馈的问题！非常感谢！敬请不时提供反馈！

改进

语音 SDK 现在更高效、更轻型。我们已启动了一项跨多个发行版的工作，以减少语音 SDK 的内存用量和磁盘占用量。作为第一步，我们在大多数平台上的共享库中明显减小了文件大小。与 1.14 发行版相比：
- 与 64 位 UWP 兼容的Windows库大小约为 30%。
- 32 位Windows库尚未看到大小改进。
- Linux 库减小了 20-25%。
- Android 库减小了 3-5%。

新功能

全部：通过 TTS 语音合成 API 预览自定义神经语音的新 48 KHz 输出格式：Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、 Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。
全部：自定义语音也更易于使用。通过 EndpointId 添加了自定义语音的设置支持（C++、C#、Java、JavaScript、Objective-C、Python）。在此项更改之前，自定义语音用户需要通过 FromEndpoint 方法设置终结点 URL。现在，客户可以使用与 FromSubscription 标准语音一样的方法，然后通过设置 EndpointId提供部署 ID。这简化了自定义语音的设置。
C++/C#/Java/Objective-C/Python：从IntentRecognizer获取不仅仅是顶级意图的更多信息。它现在支持使用 LanguageUnderstandingModel FromEndpoint uri 参数通过 verbose=true 方法来配置包含所有意向（而不仅仅是首要评分意向）的 JSON 结果。这解决了 GitHub 问题 #880。
C++/C#/Java：让语音助理或机器人立即停止收听。 DialogServiceConnector（C++、C#、Java）现在具有StopListeningAsync()方法以配合ListenOnceAsync()。此方法会立即停止音频捕获并正常等待结果，因此非常适合用于按动“立即停止”按钮的场景。
C++/C#/Java/JavaScript：使语音助理或机器人对基础系统错误做出更好的反应。 DialogServiceConnector （C++， C#、Java、JavaScript）现在具有新的 TurnStatusReceived 事件处理程序。这些可选事件对应于机器人的每个ITurnContext解析，并将在发生时报告轮次执行失败，例如由于 Direct Line 语音和机器人之间发生未经处理的异常、超时或网络下降。使用 TurnStatusReceived 可以更轻松地对失败状况做出响应。举例而言，如果机器人在后端数据库查询（例如查找产品）上花费的时间太长，TurnStatusReceived 将允许客户端适时地以“抱歉，我有点迷糊，请重试”或类似内容重新发出提示。
C++/C# ：在更多平台上使用语音 SDK。 Speech SDK NuGet 包现在支持 Windows ARM/Arm64 桌面本机二进制文件（UWP 已支持），使语音 SDK 在更多计算机类型上更有用。
Java：DialogServiceConnector现在具有无意中从语言中排除的 setSpeechActivityTemplate() 方法。这相当于设置 Conversation_Speech_Activity_Template 属性，并将请求Direct Line语音服务发起的所有未来 Bot Framework 活动将所提供的内容合并到其 JSON 有效负载中。
Java：改进了低级别调试。类似于其他编程语言（C++、C#），Connection 类现有一个 MessageReceived 事件。此事件提供对服务传入的数据的低级别访问，并且对诊断和调试非常有用。
JavaScript：通过 BotFrameworkConfig 可以更轻松地设置语音助理和机器人。BotFrameworkConfig 现在具有 fromEndpoint() 和工厂方法，与手动设置属性相比，这些方法简化了使用自定义服务位置。我们还标准化了 botId 的可选规范，以便在各个配置工厂中使用非默认机器人。
JavaScript：通过为 websocket 压缩添加的字符串控制属性改进了设备性能。出于性能原因，我们默认禁用了 websocket 压缩。在低带宽应用场景下可以重新启用此功能。此处提供了更多详细信息。这解决了 GitHub 问题 #242。
JavaScript：添加了发音评估支持，以便对语音发音进行评估。请参阅此处的快速入门。

Bug 修复

全部（JavaScript 除外）：修复了版本 1.14 中的回归，此问题导致识别器分配过多的内存。
C++：修复了DialogServiceConnector垃圾回收问题，解决了 GitHub 问题 #794。
C#：修复了线程关闭的问题，此问题导致对象在释放时阻塞大约一秒。
C++/C#/Java：修复了阻止应用程序在 DialogServiceConnector 上多次设置语音授权令牌或活动模板的异常。
C++/C#/Java：修复了由于拆卸过程中的竞争条件导致的识别器崩溃。
JavaScript：DialogServiceConnector 以前不遵循 botId 的工厂中指定的可选 BotFrameworkConfig 参数。这样，就需要手动设置 botId 查询字符串参数才能使用非默认机器人。该 bug 已予纠正，现在会遵循并使用提供给 botId 的工厂的 BotFrameworkConfig 值，包括新添加的 fromHost() 和 fromEndpoint()。这也适用于 applicationId 的 CustomCommandsConfig 参数。
JavaScript：修复了GitHub问题 #881，允许识别器对象重用。
JavaScript：修复了以下问题：SKD 在一个 TTS 会话中多次发送 speech.config，从而浪费了带宽。
JavaScript：简化了麦克风授权的错误处理功能，当用户在浏览器中未允许麦克风输入时，系统将显示更具描述性的消息。
JavaScript：修复了GitHub问题 #249，在ConversationTranslator和ConversationTranscriber中的类型错误导致了 TypeScript 用户的编译错误。
Objective-C：修复了 Xcode 11.4 上的 iOS GStreamer 生成失败的问题，解决了 GitHub 问题 #911。
Python：修复了GitHub问题 #870，删除了“弃用警告：imp 模块不再推荐使用，建议使用 importlib”。

示例

适用于 JavaScript 浏览器的 From-file 示例现在使用文件进行语音识别。这解决了 GitHub 问题 #884。

语音 SDK 1.14.0：2020 年 10 月版本

注意

Windows上的语音SDK依赖于Microsoft Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ 可再分发组件。

新功能

Linux：添加了对 Debian 10 和 Ubuntu 20.04 LTS 的支持。
C++/Java/C#：添加了通过 HttpHeader 设置任何 ServicePropertyChannel::HttpHeader 键/值的支持。
JavaScript：添加了对 ConversationTranscriber API 的支持。阅读此处的文档。
C++/C#：在AudioDataStream FromWavFileInput 和此处 (C#) 添加了新的方法（以读取 .WAV 文件）。
C++/C#/Java/Python/Objective-C/Swift：添加了stopSpeakingAsync()方法，用于停止文本到语音合成。阅读参考文档here （C++），here （C#）， here （Java）、here （Python）和 here （Objective-C/Swift）。
C#、C++、Java：向 FromDialogServiceConnector() 类添加了Connection函数，可用于监视 DialogServiceConnector的连接和断开连接事件。阅读参考文档 here （C#）、here （C++）和 here （Java）。
C++/C#/Java/Python/Objective-C/Swift：添加了对发音评估的支持，该评估语音发音，并为演讲者提供有关口语音频准确性和流畅性的反馈。在此处阅读该文档。

重大更改

JavaScript：PullAudioOutputStream.read() 的返回类型从内部 Promise 更改为 Native JavaScript Promise。

Bug 修复

全部：修复了 SetServiceProperty 中的 1.13 回归（带有某些特殊字符的值被忽略）。
C#：修复了在 Visual Studio 2019 上 Windows 控制台示例无法找到本机 DLL 的问题。
C#：修复了将流用作 KeywordRecognizer 输入时内存管理崩溃的问题。
ObjectiveC/Swift：修复了将流用作识别器输入时内存管理崩溃的问题。
Windows：修复了 UWP 上的 BT HFP/A2DP 共存问题。
JavaScript：修复了会话 ID 的映射，可改进日志记录并有助于内部调试/服务关联。
JavaScript：添加了对 DialogServiceConnector 在第一次调用后禁用 ListenOnce 调用的修补程序。
JavaScript：修复了结果输出只能是“simple”的问题。
JavaScript：修复了 macOS 上 Safari 中的连续识别问题。
JavaScript：针对高请求吞吐量场景的 CPU 负载缓解措施。
JavaScript：允许访问“语音配置文件注册”结果的详细信息。
JavaScript：针对 IntentRecognizer 中的连续识别添加了修补程序。
C++/C#/Java/Python/Swift/ObjectiveC：修复了 IntentRecognizer 中 australiaeast 和 brazilsouth 的 url 不正确。
C++/C#：添加了作为创建 VoiceProfileType 对象时的参数。
C++/C#/Java/Python/Swift/ObjectiveC：修复了在尝试从给定位置读取SPX_INVALID_ARG时可能出现的AudioDataStream问题。
IOS：修复了 Unity 上的语音识别故障

示例

ObjectiveC：添加了关键字识别示例here。
C#/JavaScript：添加了聊天听录here（C#）和here（JavaScript）快速入门。
C++/C#/Java/Python/Swift/ObjectiveC：添加了发音评估示例here

已知问题

默认情况下，HoloLens 2 和 Android 4.4（KitKat）不支持 DigiCert 全局根 G2 证书，需要添加到系统中以使语音 SDK 正常工作。该证书将在近期内添加到 HoloLens 2 操作系统映像中。 Android 4.4 客户需要将更新的证书添加到系统中。

COVID-19 简化测试

由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动验证测试。我们没有做我们认为可能会造成任何破坏的任何更改，我们的自动化测试已全部通过。在错过某些内容的可能性不大的情况下，请在 GitHub 上告知我们。
请保重身体！

语音 SDK 1.13.0：2020 年 7 月发行版

注意

Windows上的语音SDK依赖于Microsoft Visual Studio 2015、2017 和 2019 的共享 Microsoft Visual C++ 可再分发组件。

新功能

C# ：添加了异步对话听录的支持。参阅此处的文档。
JavaScript：添加了对 browser 和 Node.js 的说话人识别支持。
JavaScript：添加了对语言识别/语言 ID 的支持。参阅此处的文档。
Python：在 Windows 和 Linux 上添加了对Python的压缩音频支持。参阅此处的文档。

Bug 修复

全部：修复了一个问题，此问题会导致在识别后 KeywordRecognizer 不会使流继续播放。
全部：修复了一个问题，此问题会导致从 KeywordRecognitionResult 获取的流不包含关键字。
所有：修复了 SendMessageAsync 在用户等待消息时不通过网络发送消息的问题。
全部：修复了以下问题：当用户多次调用 VoiceProfileClient::SpeakerRecEnrollProfileAsync 方法且不等待调用完成时，说话人识别 API 崩溃。
全部：修复了 VoiceProfileClient 和 SpeakerRecognizer 类中启用文件日志记录的问题。
JavaScript：修复了在最小化浏览器时与节流相关的一个问题。
JavaScript：修复了流中的一个内存泄漏问题。
JavaScript：为来自 NodeJS 的 OCSP 响应添加了缓存。
Java：修复了导致 BigInteger 字段始终返回 0 的问题。
iOS：修复了在 iOS App Store 中发布基于语音SDK的应用的问题。

示例

C++：添加了说话人识别here的示例代码。

COVID-19 简化测试

语音 SDK 1.12.1：2020 年 6 月版本

Bug 修复

C#、C++：在 1.12 版中，修复的麦克风录音在说话人识别中未正常工作。
JavaScript：针对 Firefox 中的以及 macOS 和 iOS 上的 Safari 中的文本转语音进行了修复。
修复了在使用八声道流进行对话转录时，导致Windows应用程序验证程序访问冲突崩溃的问题。
修复了多设备聊天翻译上Windows应用程序验证程序访问冲突崩溃。

示例

C#：说话人识别的 Code 示例。
C++：Code 示例用于说话人识别。
Java：适用于 Android 上的意向识别的 Code 示例。

COVID-19 简化测试

语音 SDK 1.12.0：2020 年 5 月版本

新功能

Go：为语音识别提供新的 Go 语言支持。在此处设置开发环境。有关示例代码，请参阅下面的“示例”部分。
JavaScript：添加了对文本转语音的浏览器支持。参阅此处的文档。
Java：添加了具有翻译支持的多设备对话。在此处参阅参考文档。

改进与优化

JavaScript：优化了浏览器麦克风实现，改善了语音识别的准确性。
Java：重构绑定，直接使用 JNI 实现方案，无需使用 SWIG。此更改减少了用于 Windows、Android、Linux 和 Mac 的所有Java包的绑定大小 10 倍，并简化了语音 SDK Java实现的进一步开发。
Linux：使用最新的 RHEL 7 特定说明更新了支持文档。
改进了连接逻辑，以便在出现服务和网络错误时多次尝试连接。
更新了 portal.azure.cn 语音服务快速入门页面，帮助开发人员在Azure的语音旅程中迈出下一步。

Bug 修复

C#、Java：修复了在 Linux ARM（32 位和 64 位）上加载 SDK 库的 issue。
C#：修复了 TranslationRecognizer、IntentRecognizer 及 Connection 对象的原生句柄显式释放问题。
C# ：修复了 ConversationTranscriber 对象的音频输入生存期管理。
修复了从简单短语识别意图时 IntentRecognizer 结果原因未正确设置的问题。
修复了未正确设置 SpeechRecognitionEventArgs 结果偏移量的问题。
修复了 SDK 在打开 websocket 连接之前试图发送网络消息时的竞态条件。添加参与者时，针对 TranslationRecognizer 可重现。
修复了关键字识别器引擎中的内存泄漏。

示例

Go，为语音识别添加了快速入门。在此处查找示例代码。
JavaScript：添加了关于文本转语音和翻译的快速启动。
适用于 C# 和 Java（Android）的关键字识别示例。

COVID-19 简化测试

由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动验证测试。我们没有做我们认为可能会造成任何破坏的任何更改，我们的自动化测试已全部通过。如果错过了某些内容，请在 GitHub 上告知我们。
请保重身体！

语音 SDK 1.11.0：2020 年 3 月版

新功能

Linux：增加了对 Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 的支持。
Linux：在 Linux ARM32 和 Arm64 上添加了对 .NET Core C# 的支持。在此处了解详细信息。
C#、C++：在 UtteranceId 中添加了 ConversationTranscriptionResult，这是在所有中间产物和最终的语音识别结果中保持一致的一个 ID。请参阅适用于 C#、C++ 的详细信息。
Python：添加了对 Language ID 的支持。请参阅 GitHub 存储库中的speech_sample.py。
Windows：为所有 Win32 控制台应用程序添加了Windows平台上的压缩音频输入格式支持。详细信息here。
JavaScript：在 NodeJS 中支持语音合成（文本转语音）。详细了解此处。
JavaScript：添加了新的 API，用于检查发送和接收的所有消息。详细了解此处。

Bug 修复

C#、C++：修复了一个问题，因此 SendMessageAsync 现在以二进制类型发送二进制消息。请参阅适用于 C#、C++ 的详细信息。
C#, C++：修复了当使用 Connection MessageReceived 事件时在 Recognizer 对象之前释放 Connection 可能会导致故障的问题。请参阅适用于 C#、C++ 的详细信息。
Android：麦克风的音频缓冲区大小从 800 毫秒减小到 100 毫秒，降低了延迟。
Android：修复了在 Android Studio 中 x86 Android 仿真器的一个问题。
JavaScript：在 fromSubscription API 中增加了对中国的区域的支持。详细信息here。
JavaScript：针对 NodeJS 中的连接失败添加了更多错误信息。

示例

Unity：修复了意向识别公共示例（其中的 LUIS json 导入失败）。详细信息here。
Python：为 Language ID 添加了示例。详细信息here。

Covid19 缩减测试： 由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动的设备验证测试。例如，我们无法在 Linux、iOS 和 macOS 上测试麦克风输入与扬声器输出。我们没有做我们认为可能会破坏这些平台上的任何东西的任何更改，我们的自动化测试已全部通过。如果我们遗漏了某些内容，请在 GitHub 上通知我们。
感谢你长久以来的支持。请一如既往地在 GitHub 或 Stack Overflow 上发布问题或反馈。
请保重身体！

语音 SDK 1.10.0：2020 年 2 月版

新功能

添加了Python包以支持新的 3.8 版Python。
Red Hat Enterprise Linux （RHEL）/CentOS 8 x64 支持（C++、C#、Java、Python）。

注意

客户必须根据这些说明配置 OpenSSL。
Debian 和 Ubuntu 的 Linux ARM32 支持。
DialogServiceConnector 现在支持在 BotFrameworkConfig 中使用可选的“机器人 ID”参数。此参数允许将多个Direct Line语音机器人与单个语音资源一起使用。如果未指定参数，将使用默认机器人（由Direct Line语音通道配置页确定）。
DialogServiceConnector 现有一个 SpeechActivityTemplate 属性。 Direct Line Speech将使用此JSON字符串的内容来预填充所有到达Direct Line Speech机器人的活动中的多种受支持字段，包括在响应语音识别等事件时自动生成的活动。
TTS 现在使用订阅密钥进行身份验证，降低了创建合成器后第一个合成结果的第一个字节延迟。
更新了 19 个区域设置的语音识别模型，平均单词错误率降低了 18.6%（es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-cn、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR）。新模型在多个领域提供了重大改进，其中包括听写、呼叫中心语音转录和视频索引场景。

Bug 修复

修复了在 JAVA API 中聊天听录器未正确等待的 Bug。
添加缺失的（Get|Set）Property 方法到 AudioConfig。
修复了无法在连接失败时停止 audioDataStream 的 TTS Bug。
使用无区域的终结点会导致聊天翻译器出现 USP 故障。
通用Windows应用程序中的 ID 生成现在使用适当的唯一 GUID 算法;它以前和无意中默认为一个存根实现，该实现经常在大型交互集上产生冲突。

示例

将语音 SDK 与 Unity 麦克风和推送模式流式处理配合使用的 Unity 示例

其他更改

适用于 Linux 的 OpenSSL 配置文档已更新

语音 SDK 1.9.0：2020 年 1 月版

新功能

为 Android .aar 包添加了关键字识别支持，并添加了 x86 和 x64 风格的支持。
Objective-C：已将 SendMessage 和 SetMessageProperty 方法添加到 Connection 对象。参阅此处的文档。
TTS C++ API 现在支持 std::wstring 合成文本输入，无需在将 wstring 传递给 SDK 之前将 wstring 转换为字符串。请参阅此处的详细信息。
C#：现在提供语言 ID 和源语言配置。
JavaScript：已将一项功能添加到 Connection 对象，以便从语音服务以回调 receivedServiceMessage 的形式传递自定义消息。
JavaScript：感谢 NODE_TLS_REJECT_UNAUTHORIZED 的贡献，我们现在可以采用。请参阅此处的详细信息。

重大更改

OpenSSL 已更新到版本 1.1.1b，并静态链接到适用于 Linux 的语音 SDK 核心库。如果您的收件箱 OpenSSL 未安装到系统中的 /usr/lib/ssl 目录，这可能会导致中断。请查看语音 SDK 文档下的文档来解决此问题。
我们已经为 C# WordLevelTimingResult.Offset 返回的数据类型从 int 更改为 long，以便在语音数据超过 2 分钟时能够访问 WordLevelTimingResults。
PushAudioInputStream 和 PullAudioInputStream 现在根据 AudioStreamFormat 将 wav 标头信息发送到语音服务，可在创建时选择指定。现在，客户必须使用支持的音频输入格式。任何其他格式会导致识别结果欠佳，或者导致出现其他问题。

Bug 修复

请参阅上述“中断性变更”中的 OpenSSL 更新。我们修复了 Linux 和 Java 中的两个问题：间歇性崩溃和性能问题（在高负载下的锁竞争）。
Java：改进了高并发方案中的对象闭包。
重构了我们的 NuGet 包。我们删除了 lib 文件夹下 Microsoft.CognitiveServices.Speech.core.dll 和 Microsoft.CognitiveServices.Speech.extension.kws.dll 的三个副本，使 NuGet 包更小、下载更快，并添加了编译某些 C++ 本机应用所需的标头。
修复了here快速入门示例。这些在 Linux、macOS 和 Windows 上未显示“找不到麦克风”异常便退出。
修复了SDK在某些代码路径上由于长语音识别结果导致的崩溃问题，例如此示例。
修复了 Azure Web 应用环境中的 SDK 部署错误，以解决客户问题。
修复了在使用多个<voice>标记或<audio>标记以解决此客户问题时出现的 TTS 错误。
修复了从挂起状态恢复 SDK 时出现的 TTS 401 错误。
JavaScript：感谢 euirim 的贡献，修复了音频数据的循环导入。
JavaScript：添加了设置服务属性的支持（版本 1.7 中已添加此项支持）。
JavaScript：修复了以下问题：连接错误可能导致 websocket 重新连接尝试连续失败。

示例

添加了 Android here 的关键字识别示例。
为服务器方案添加了 TTS 示例here。

其他更改

优化了 Android 上的 SDK 核心库大小。
1.9.0 及更高版本中的 SDK 支持对话听录器的语音签名版本字段中的 int 和 string 类型。

语音 SDK 1.8.0：2019-十一月版本

新功能

添加了一个 FromHost() API，以方便用户将其与本地容器和主权云配合使用。
添加了用于语音识别的源语言识别（在 Java 和 C++ 中）
为语音识别添加了 SourceLanguageConfig 对象，用于指定预期的源语言（Java 和 C++）
通过 NuGet 和 Unity 包在 Windows（UWP）、Android 和 iOS 上添加了 KeywordRecognizer 支持
添加了远程对话Java API，用于在异步批处理中执行对话听录。

重大更改

对话听录器功能已移到 Microsoft.CognitiveServices.Speech.Transcription 命名空间下。
部分对话听录器方法已移到新的 Conversation 类。
放弃了对 32 位（ARMv7 和 x86）iOS 的支持

Bug 修复

针对以下问题进行了修复：如果在不使用有效语音服务订阅密钥的情况下使用本地 KeywordRecognizer，则会发生故障

示例

KeywordRecognizer 的 Xamarin 示例
KeywordRecognizer 的 Unity 示例
自动源语言识别的 C++ 和Java示例。

语音 SDK 1.7.0：2019年九月版本

新功能

添加了对通用 Windows 平台 (UWP)、Android 和 iOS 上的 Xamarin beta 支持
添加了对 Unity 的 iOS 支持
增加了对 Android、iOS 和 Linux 上的 ALaw、Mulaw、FLAC 的 Compressed 输入支持
在 SendMessageAsync 类中添加了 Connection，用于向服务发送消息
在用于设置消息属性 SetMessageProperty 类中添加了 Connection
TTS 为 Java（JRE 和 Android）、Python、Swift 和 Objective-C 添加了绑定
TTS 添加了对 macOS、iOS 和 Android 的播放支持。
为 TTS 添加了“词边界”信息。

Bug 修复

修复了 Unity 2019 for Android 上的 IL2CPP 生成问题
修复了 wav 文件输入中格式错误的标头被错误处理的问题
修复了 UUID 在某些连接属性中不唯一的问题
修正了一些关于 Swift 语言绑定中空值说明符的警告（可能需要对代码进行一些小改动）
修复了一个 Bug，该 Bug 导致 websocket 连接在网络负载下被意外关闭
修复了 Android 上的一个问题，该问题有时候导致 DialogServiceConnector 使用的印象 ID 重复
改进了进行多轮交互时连接的稳定性，以及它们发生在 Canceled 上时（通过 DialogServiceConnector 事件）对故障进行的报告
现在，DialogServiceConnector 会话开始时会正确提供事件，包括在活动 ListenOnceAsync() 期间调用 StartKeywordRecognitionAsync() 的时候
解决了与收到的 DialogServiceConnector 活动相关联的崩溃

示例

Xamarin快速入门
更新了 CPP 快速入门，其中包含 Linux Arm64 信息。
Unity 快速入门已添加关于 iOS 的信息

语音 SDK 1.6.0：2019 年 6 月发布

示例

UWP 和 Unity 上的文本转语音快速入门示例
iOS 上的 Swift 快速入门示例
Unity 语音识别与意图识别及翻译示例
DialogServiceConnector 的更新的快速入门示例

改进 / 更改

对话命名空间：
- SpeechBotConnector 已重名为 DialogServiceConnector
- BotConfig 已重名为 DialogServiceConfig
- BotConfig::FromChannelSecret() 已重新映射到 DialogServiceConfig::FromBotSecret()
- 重命名后继续支持所有现有Direct Line语音客户端
更新了 TTS REST 适配器以支持代理和持久连接
改进了传递无效区域时出现的错误消息
Swift/Objective-C：
- 改进了错误报告：可能导致出错的方法现在有两个版本：一个版本公开用于错误处理的 NSError 对象，另一个版本引发异常。前者向 Swift 公开。此更改需要适应现有的 Swift 代码。
- 改进了事件处理

Bug 修复

针对 TTS 进行了以下问题的修复：SpeakTextAsync 不等到音频完成渲染就会提前返回
修复了 C# 中的封送字符串，以实现全面的语言支持。
修复了在示例中使用 net461 目标框架加载核心库.NET核心应用问题
修复了偶发性问题，以便将本机库部署到示例的输出目录中。
修复了 Web 套接字可靠关闭的问题
修复了在 Linux 负载较高的情况下打开连接时可能发生崩溃的问题
修复了 macOS 框架捆绑包中缺少元数据的问题
修复了 Windows 上的 pip install --user 问题

语音 SDK 1.5.1

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

Bug 修复

修复了 FromSubscription 与对话听录一起使用时出现的问题。
修复语音助理中的关键字识别错误。

语音 SDK 1.5.0：2019 年 5 月发布

新功能

关键字发现（KWS）现在可用于Windows和 Linux。关键字识别（KWS）功能可能适用于任何类型的麦克风，但官方 KWS 支持目前仅限于在 Azure Kinect DK 硬件或语音设备 SDK 中使用的麦克风阵列。
短语提示功能通过 SDK 提供。有关详细信息，请参阅此文。
对话听录功能通过 SDK 提供。
使用Direct Line语音通道添加对语音助理的支持。

示例

添加了 SDK 支持的新功能或新服务的示例。

改进 / 更改

添加了各种识别器属性，以调整服务行为或服务结果（例如屏蔽猥亵内容等）。
现在，即使你创建了识别器 FromEndpoint，也能通过标准配置属性来配置识别器。
Objective-C：已将 OutputFormat 属性添加到 SPXSpeechConfiguration。
SDK 现在支持将 Debian 9 用作 Linux 分发版。

Bug 修复

修复了文本转语音中过早销毁讲述人资源的问题。

语音 SDK 1.4.2

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

语音 SDK 1.4.1

这是一个仅限 JavaScript 的版本。未增加任何功能。进行了以下修复：

阻止 Web 包加载 https-proxy-agent。

语音 SDK 1.4.0：2019 年 4 月发布

新功能

SDK 现在支持 beta 版本的文本转语音服务。它在 Windows 和 Linux 桌面环境上支持 C++ 和 C#。有关详细信息，请查看文本转语音概述。
SDK 现在支持将 MP3 和 Opus/OGG 音频文件用作流输入文件。此功能只能通过 C++ 和 C# 在 Linux 上使用，目前为 beta 版（更多详细信息请参见此处）。
适用于 Java、.NET 核心、C++ 和 Objective-C 的语音 SDK 获得了 macOS 支持。 macOS 的 Objective-C 支持目前以 beta 版提供。
iOS：适用于 iOS (Objective-C) 的语音 SDK 现在也已作为 CocoaPod 发布。
JavaScript：支持将非默认麦克风用作输入设备。
JavaScript：Node.js 的代理支持。

示例

添加了有关在 macOS 上的 C++ 和 Objective-C 中使用语音 SDK 的示例。
已添加用于演示文本转语音服务用法的示例。

改进 / 更改

Python：识别结果的其他属性现在通过 properties 属性公开。
若要获得更多开发和调试支持，可将 SDK 日志记录和诊断信息重定向到日志文件中（更多详细信息请参见此处）。
JavaScript：提高了音频处理性能。

Bug 修复

Mac/iOS：修复了一个由于无法与语音服务建立连接而导致长时间等待的 bug。
Python：改进Python回调中参数的错误处理。
JavaScript：修复了 RequestSession 中语音结束时的错误状态报告。

语音 SDK 1.3.1：2019 年 2 月刷新

这是一个 Bug 修复版本，只影响本机/托管 SDK。它不影响 SDK 的 JavaScript 版本。

Bug 修复

修复了使用麦克风输入时出现的内存泄漏问题。基于流的输入或文件输入不受影响。

语音 SDK 1.3.0：2019 年 2 月版本

新功能

语音 SDK 支持通过 AudioConfig 类来选择输入麦克风。这样，便可以将音频数据从非默认麦克风流式传输到语音服务。有关详细信息，请参阅介绍音频输入设备选择的文档。此功能在 JavaScript 中尚不可用。
语音 SDK 目前在 beta 版本中支持 Unity。通过 GitHub 示例存储库中的问题部分提供反馈。此版本支持在 Windows x86 和 x64（桌面或通用 Windows 平台应用程序）和 Android（ARM32/64、x86）上的 Unity。 Unity 快速入门中提供了更多信息。
不再需要之前版本中提供的Microsoft.CognitiveServices.Speech.csharp.bindings.dll文件。此功能现在集成到核心 SDK 中。

示例

示例存储库中提供了以下新内容：

AudioConfig.FromMicrophoneInput 的其他示例。
意向识别和翻译的其他Python示例。
有关在 iOS 中使用 Connection 对象的更多示例。
使用音频输出进行翻译的其他Java示例。
有关使用批量听录 REST API 的新示例。

改进 / 更改

Python
- 改进了 SpeechConfig 中的参数验证和错误消息。
- 添加了对 Connection 对象的支持。
- 支持 Windows 上的 32 位Python（x86）。
- 适用于Python的语音SDK现已退出测试版。
iOS
- SDK 现在是基于 iOS SDK 版本 12.1 构建的。
- SDK 现在支持 iOS 版本 9.2 及更高版本。
- 改进了参考文档并修复了多个属性名称。
JavaScript
- 添加了对 Connection 对象的支持。
- 添加捆绑 JavaScript 的类型定义文件
- 首次支持并实现了短语提示。
- 随服务 JSON 返回属性集合以用于识别
Windows DLL 现在包含版本资源。
如果创建识别器 FromEndpoint，则可将参数直接添加到终结点 URL。使用 FromEndpoint 时，无法通过标准的配置属性来配置识别器。

Bug 修复

无法正确处理空的代理用户名和代理密码。在此版本中，如果将代理用户名和代理密码设置为空字符串，则在连接到代理时不会提交它们。
对于某些语言/环境，由 SDK 创建的 SessionId 并非总是真正随机的。已添加了随机生成器初始化来修复此问题。
改进授权令牌的处理方式。如果要使用授权令牌，请在 SpeechConfig 中指定，并将 API 密钥留空。然后，像往常一样创建识别器。
在某些情况下，Connection 对象未被正确释放。现在已修复此问题。
JavaScript 示例已修复，在 Safari 上也支持用于翻译合成的音频输出。

语音 SDK 1.2.1

这是一个仅限 JavaScript 的版本。未增加任何功能。进行了以下修复：

在 turn.end 事件时触发流结束，而不是在 speech.end 事件时。
修复了音频传输组件在当前发送失败时未能安排下一次发送的问题。
修复了使用身份验证令牌进行的连续识别功能。
不同识别器和终结点的错误修复。
文档改进。

语音 SDK 1.2.0：2018 年 12 月版本

新功能

Python
- 此版本提供了 Python 支持（3.5 及更高版本）的 Beta 版本。有关详细信息，请参阅此文](../../quickstart-python.md)。
JavaScript
- 适用于 JavaScript 的语音 SDK 已开放了源代码。源代码在 GitHub 上可用。
- 我们现在支持 Node.js，可以在此处找到详细信息。
- 已删除了对音频会话的长度限制，将自动在后台进行重新连接。
Connection 对象
- 可以从 Recognizer 中访问 Connection 对象。此对象允许您主动启动服务连接，并订阅连接与断开事件。（此功能尚未从 JavaScript 和 Python 获取。
支持 Ubuntu 18.04。
安卓
- 在生成 APK 期间启用了 ProGuard 支持。

改进

改进了内部线程的使用，减少了线程、锁和互斥的数量。
改进了错误报告 / 信息。在某些情况下，错误消息没有完全传播出去。
更新了 JavaScript 中的开发依赖项来使用最新模块。

Bug 修复

修复了由于 RecognizeAsync 中的类型不匹配导致的内存泄漏。
在某些情况下，异常会被泄露。
修复了翻译事件参数中的内存泄漏。
修复了在长时间运行会话中重新连接时遇到的锁定问题。
修复了可能导致翻译失败缺少最终结果的问题。
C#：如果在主线程中没有等待 async 操作，则可能会在异步任务完成之前释放识别器。
Java：修复了导致Java VM 崩溃的问题。
Objective-C：修复枚举映射；返回的是 RecognizedIntent 而不是 RecognizingIntent。
JavaScript：在 SpeechConfig 中将默认输出格式设置为“simple”。
JavaScript：删除了 JavaScript 和其他语言中配置对象中的属性之间的不一致。

示例

更新并修复了几个示例（例如，翻译的输出语音，等等）。
在示例存储库中添加了 Node.js 示例。

语音 SDK 1.1.0

新功能

对 Android x86/x64 的支持。
代理支持：在 SpeechConfig 对象中，现在可以调用某个函数来设置代理信息（主机名、端口、用户名和密码）。此功能在 iOS 上尚不可用。
改进了错误代码和消息。如果识别返回了错误，系统已经在已取消事件中将Reason或在识别结果中将CancellationDetails设置为Error。现在，取消的事件包含两个附加成员，ErrorCode 和 ErrorDetails。如果服务器随所报告的错误返回了附加的错误信息，则现在将在新成员中提供该信息。

改进

在识别器配置中添加了附加的验证并添加了附加的错误消息。
改进了对音频文件中间的长时间静默的处理。
NuGet 包：在 .NET Framework 项目中，它阻止使用 AnyCPU 配置进行构建。

Bug 修复

修复了在识别器中发现的几处异常。此外，还会捕获异常并将其转换为 Canceled 事件。
修复了属性管理中的内存泄漏。
修复了音频输入文件可能会导致识别器发生故障的 bug。
修复了在会话停止事件后仍然能够接收事件的错误。
修复了线程中的一些竞争条件。
修复了可能会导致故障的 iOS 兼容性问题。
改进了对 Android 麦克风的支持的稳定性。
修复了 JavaScript 中识别器忽略识别语言的问题。
修复了阻止在 JavaScript 中设置 EndpointId（在某些情况下）的 bug。
更改了 JavaScript 中的 AddIntent 中的参数顺序，并添加了缺少的 AddIntent JavaScript 签名。

示例

在示例存储库中添加了拉取和推送流用法的 C++ 和 C# 示例。

语音 SDK 1.0.1

可靠性改进和 bug 修复：

修复了在释放识别器时由于竞争条件而导致的潜在致命错误
修复了未设置属性时的潜在灾难性错误。
添加了额外的错误检查和参数检查。
Objective-C：修复了在 NSString 中由于名称重写而引起的潜在严重错误。
Objective-C：调整了 API 的可见性
JavaScript：针对事件及其有效负载进行了修复。
文档改进。

在示例存储库中已添加了适用于 JavaScript 的新示例。

Azure语音 SDK 1.0.0：2018-9 月版本

新功能

支持 iOS 中的 Objective-C。请查看适用于 iOS 的 Objective-C 快速入门。
支持浏览器中的 JavaScript。请查看 JavaScript 快速入门。

重大更改

该版本中推出了大量重大更改。有关详细信息，请查看此页。

Azure语音 SDK 0.6.0：2018 年 8 月版本

新功能

使用语音 SDK 生成的 UWP 应用现已可以通过 Windows 应用认证工具包（WACK）。请查看 UWP 快速入门。
在 Linux 上支持 .NET Standard 2.0（Ubuntu 16.04 x64）。
实验性：在 Windows（64 位）和 Linux（Ubuntu 16.04 x64）上支持 Java 8。请查看 Java 运行时环境快速入门。

功能性更改

公开了关于连接错误的更多错误详细信息。

重大更改

在 Java （Android）上，SpeechFactory.configureNativePlatformBindingWithDefaultCertificate 函数不再需要路径参数。现在，在所有受支持的平台上都会自动检测路径。
删除了 Java 和 C# 中属性 EndpointUrl 的 get-访问器。

Bug 修复

在Java中，翻译识别器上的音频合成结果现已实现。
修复了一个 bug，该 bug 可能会导致非活动线程和更多的已打开且未使用的套接字。
修复了长时间运行的识别可能会在传输过程中终止的问题。
修复了识别器关闭过程中出现的竞态条件。

Azure语音 SDK 0.5.0：2018-7 月版本

新功能

支持 Android 平台（API 23：Android 6.0 Marshmallow 或更高版本）。查看 Android 快速入门。
Windows支持 .NET Standard 2.0。请查看 .NET Core 快速入门。
实验性：在 Windows（版本 1709 或更高版本）上支持 UWP。
- 请查看 UWP 快速入门。
- 请注意，使用语音 SDK 生成的 UWP 应用尚未通过Windows 应用认证工具包（WACK）。
支持识别功能的长时间运行并进行自动重新连接。

功能性更改

StartContinuousRecognitionAsync() 支持识别功能长时间运行。
识别结果包含更多字段。这些字段是识别文本的音频开始和持续时间（时钟周期数）的偏移量和表示识别状态的其他值（例如 InitialSilenceTimeout、InitialBabbleTimeout）。
支持 AuthorizationToken 用于创建工厂实例。

重大更改

识别事件：NoMatch 事件类型已合并到 Error 事件中。
C# 中的 SpeechOutputFormat 已重命名为 OutputFormat 以与 C++ 保持一致。
AudioInputStream 接口的某些方法的返回类型略有更改：
- 在 Java 中，read 方法现在返回 long，而不是 int。
- 在 C# 中，Read 方法现返回 uint 而不是 int。
- 在 C++ 中，Read 和 GetFormat 方法现返回 size_t 而不是 int。
C++：音频输入流的实例现在只能作为 shared_ptr 传递。

Bug 修复

修复了 RecognizeAsync() 超时时结果中的错误返回值。
删除了对Windows上的媒体基础库的依赖项。 SDK 现在使用 Core Audio API。
文档修复：添加了一个区域页来描述支持的区域。

已知问题

适用于 Android 的语音 SDK 不报告用于翻译的语音合成结果。此问题将在下一版本中修复。

Azure语音 SDK 0.4.0：2018 年 6 月版本

功能性更改

音频输入流

现在，识别器可以将音频流用作音频源。有关详细信息，请参阅相关操作说明指南。
详细输出格式

创建 SpeechRecognizer 时，可请求 Detailed 或 Simple 输出格式。 DetailedSpeechRecognitionResult 包含置信度分数、识别的文本、原始词法形式、标准化形式和已屏蔽不当字词的标准化形式。

重大更改

将 C# 中的 SpeechRecognitionResult.Text 更改为 SpeechRecognitionResult.RecognizedText。

Bug 修复

修复了关闭期间 USP 层可能出现的回调问题。
如果识别器使用了音频输入文件，则它在文件句柄上停留的时间将超过必要时间。
删除了消息泵和识别器之间的多个死锁。
在服务的响应超时后触发 NoMatch 结果。
Windows上的媒体基础库将延迟加载。此库仅用于麦克风输入。
音频数据的上传速度约限制为原始音频速度的两倍。
在Windows，C# .NET程序集现在具有强名称。
文档修复：Region 是创建识别器所必需的信息。

已添加更多示例，还将持续更新。有关最新示例集，请参阅 Speech SDK 示例GitHub存储库。

Azure语音 SDK 0.2.12733：2018-5 月版本

此版本是 Azure 语音 SDK 的第一个公共预览版。

语音 CLI 1.49.0：2026 年 4 月版本

已更新为使用语音 SDK 1.49.0

新功能

添加了对短语列表权重的支持。

Bug 修复

语音 CLI 1.48.0：2026 年 2 月版本

已更新为使用语音 SDK 1.48.0

新功能

Bug 修复

语音 CLI 1.47.0：2025-9 月版本

已更新为使用语音 SDK 1.47.0

新功能

Bug 修复

破坏性更改：

由于服务停用，已删除意图识别支持。
- 有关替代方法，请参阅 Migration Guide 和 https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/cpp/intent-recognition。
由于服务停用，已删除说话人识别支持。

语音 CLI 1.46.0：2025 年 9 月发布版本

已更新为采用语音 SDK 1.46.0版本

新功能

Bug 修复

语音 CLI 1.45.0：2025 年 7 月发布

已更新为使用语音 SDK 1.45.0

新功能

Bug 修复

语音 CLI 1.44：2025 年 5 月发布

新功能

添加了对使用Microsoft Entra令牌凭据进行身份验证的支持。
添加了对快速听录 API 的支持。

Bug 修复

修复了文件中的不起作用的分号分隔输入 URL 和输入文件/URL 列表。

语音 CLI 1.43：2025 年 3 月版

新功能

更新了 SPX 以使用 .NET 8。

Bug 修复

修复了 SPX Docker 容器在本地批处理方案中无法正常工作的问题。

语音 CLI 1.40.0：2024 年 8 月版

已更新为使用 1.40.0 版本的语音 SDK

新功能

Bug 修复

语音 CLI 1.38.0：2024 年 6 月版本

已更新为使用 Speech SDK 1.38.0

新功能

Bug 修复

语音 CLI 1.37.0：2024 年 4 月发布

已更新为使用语音 SDK 1.37.0

新功能

Bug 修复

语音 CLI 1.36.0：2024 年 3 月版

已更新为使用语音 SDK 版本 1.36.0

新功能

Bug 修复

语音 CLI 1.35.0：2024 年 2 月版本

已更新为使用语音 SDK 版本 1.35.0

新功能

Bug 修复

将 JMESPath 依赖项更新为最新

语音 CLI 1.34.0：2023 年 11 月版本

已更新为使用语音 SDK 1.34.0

语音 CLI 1.33.0：2023 年 10 月版本

已更新至语音 SDK 版本 1.33.0

语音 CLI 1.31.0：2023 年 8 月版

已更新为使用语音软件开发工具包（SDK）1.31.0

语音 CLI 1.30.0：2023 年 7 月版本

已更新为使用 1.30.0 版本的语音 SDK

语音 CLI 1.29.0：2023 年 6 月版本

已更新为使用语音 SDK 1.29.0

语音 CLI 1.28.0：2023 年 5 月版本

已更新为使用语音 SDK 1.28.0

语音 CLI 1.27.0：2023 年 4 月发布

更新

现已更新为使用语音 SDK 1.27.0
更新默认终结点，以将 v3.1 REST API 用于自定义语音识别和批量语音识别。

Bug 修复

与如何分析/配置查询参数相关的修复。

语音 CLI 1.26.0：2023 年 3 月发布

已更新为使用语音 SDK 1.26.0.

语音 CLI 1.25.0：2023 年 1 月发布

已更新为使用 Speech SDK 版本 1.25.0。

语音 CLI 1.24.0：2022 年 10 月版本

使用语音 SDK 1.24.0。

新功能

扩展了“spx 检查”功能来支持针对所有 spx 事件的 JMESPath 查询。

Bug 修复

做出了各项改进，使 JMESPath 查询评估变得可靠
在资源受限的计算机上修复了可能发生的文件写入内容截断问题。

语音 CLI 1.23.0：2022 年 7 月版本

使用语音 SDK 1.23.0。

新功能

更好的字幕（--output vtt 和 --output srt）大型结果拆分（最多 37 个字符，3 行）
记录了 spx synthesize--format 选项（请参阅 spx help synthesize format）
记录了大多数 spx csr 命令/选项（请参阅 spx help csr）
添加了 spx csr model copy 命令（请参阅 spx help csr model copy）
添加了使用 JMES 查询的 --check result 选项（请参阅 spx help check result）
改进了指定无效命令选项时的错误消息
从 .NET Core 3.1 移动到 .NET 6.0。若要运行语音 CLI，需要安装 .NET 6.0 Runtime（或更高版本）。

Bug 修复

更新了所有 URL 以删除语言（例如“en-US”)
修复版本信息，以确保在所有情况下均能正确报告（之前有时会显示为空白）。

语音 CLI 1.22.0：2022 年 6 月版本

使用语音 SDK 1.22.0。

新功能

添加了 spx init 命令，指导用户完成语音资源密钥创建，而无需Azure Web 门户。
语音 Docker 容器现在已包含 Azure CLI，因此spx init命令开箱即用。
将时间戳添加为事件输出选项，以便 SPX 在计算延迟时更加有用。

语音 CLI 1.21.0：2022 年 4 月版本

使用语音 SDK 1.21.0。

新功能

WEBVTT 字幕生成
- 为 --output vtt 添加了 spx translate 支持
- 支持 --output vtt file FILENAME 替代默认 VTT FILENAME
- 支持 --output vtt file - 写入到标准输出
- 为每个目标语言（例如 --target en;de;fr）创建单个 VTT 文件
SRT 字幕生成
- 向 --output srt、spx recognize 和 spx intent 中添加了 spx translate 支持
- 支持 --output srt file FILENAME 替代默认 SRT FILENAME
- 支持 --output srt file - 写入到标准输出
- 对于 spx translate，会为每个目标语言（例如 --target en;de;fr）创建单个 SRT 文件

Bug 修复

更正了 WEBVTT 时间跨度输出以正确使用 hh:mm:ss.fff 格式

语音 CLI 1.20.0：2022 年 1 月发行

新功能

说话人辨识
- spx profile enroll 和 spx speaker [identify/verify] 现在支持麦克风输入
意向识别 (spx intent)
- --keyword FILE.table
- --pattern 和 --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once、--once+ 和 --continuous（现在默认是连续）
- --output all/each connection EVENT
- --output all/each connection message（例如 text 和 path）
CLI 控制台输出期望值检查/编写
- 所有命令都支持 --expect PATTERN 和 --not expect PATTERN
- --auto expect 帮助创作预期的模式
SDK 日志输出期望检查/创建
- 所有命令都支持 --log expect PATTERN 和 --not log expect PATTERN
- 所有命令都支持 --log auto expect [FILTER]
- 在 --log FILE 和 spx profile 上提供 spx speaker 支持
音频文件输入
- 所有命令都支持 --format ANY
- --file - 支持（从标准输入读取，启用管道方案）
音频文件输出
- --audio output - 写入标准输出，支持使用管道场景
输出文件
- --output all/each file - 写入标准输出
- --output batch file - 写入标准输出
- --output vtt file - 写入标准输出
- --output json file - 写入标准输出，适用于 spx csr 和 spx batch 命令
输出属性
- --output […] result XXX property（PropertyId 或字符串）
- --output […] connection message received XXX property（PropertyId 或字符串）
- --output […] recognizer XXX property（PropertyId 或字符串）
Azure WebJob 集成
- spx webjob 现在遵循子命令模式
- 更新了 WebJob 帮助文档以反映子命令模式（参阅 spx help webjob）

Bug 修复

修复了同时使用 --output vtt FILE 和 --output batch FILE 时的 bug
spx [...] --zip ZIPFILENAME 现在包括所有方案所需的所有二进制文件（如果存在）
spx profile 和 spx speaker 命令现在返回有关取消的详细错误信息

2021 年 5 月版本

新功能

添加了对用户档案、说话人 ID 和语音识别验证的支持 - 请在命令行中尝试 spx profile 和 spx speaker。
我们还添加了对话支持 - 请尝试命令行中的 spx dialog。
改进了 spx 帮助。通过打开 GitHub 问题，向我们提供有关其工作原理的反馈。
我们减少了.NET工具安装的大小。

COVID-19 简化测试

随着疫情持续，我们的工程师不得不远程办公，因此疫情前的手动验证脚本现在只在少数的设备和配置上进行测试，特定环境下出现的 bug 也更容易被漏掉。我们仍会使用大量的自动化技术进行严格的验证。在不太可能的情况下，如果我们错过了某些内容，请在GitHub上告诉我们。
请保重身体！

2021 年 3 月版

新功能

添加了用于意向识别的 spx intent 命令，替换 spx recognize intent。
识别和意向现在可以使用 Azure 函数通过 spx recognize --wer url <URL> 计算单词错误率。
识别现在可以使用 spx recognize --output vtt file <FILENAME> 将结果输出为 VTT 文件。
调试/详细输出中现在会对敏感的密钥信息进行模糊处理。
在批量听录创建操作中添加了针对内容字段的 URL 检查和错误消息。

COVID-19 简化测试

2021 年 1 月版

新功能

语音 CLI 现在可用作 NuGet 包，可通过 .NET CLI 安装为可从 shell/命令行调用的.NET全局工具。
自定义语音 DevOps 模板仓库已更新为使用语音 CLI 处理其自定义语音工作流程。

COVID-19 简化测试

2020 年 10 月版本

SPX 是命令行接口，无需编写代码即可使用语音服务。在此处下载最新版本。

新功能

spx csr dataset upload --kind audio|language|acoustic - 基于本地数据（而不只是从 URL）创建数据集。
spx csr evaluation create|status|list|update|delete - 将新模型与基线事实/其他模型进行比较。
spx * list - 支持非分页体验（不需要 --top X --skip X）。
spx * --http header A=B - 支持自定义标头（为 Office 添加以进行自定义身份验证）。
spx help - 改进文本和反引号文本的颜色编码（蓝色）。

2020 年 6 月版本

添加了 CLI 内帮助搜索功能：
- spx help find --text TEXT
- spx help find --topic NAME
更新为可与新部署的 v3.0 批处理和自定义语音识别 API 配合使用：
- spx help batch examples
- spx help csr examples

COVID-19 简化测试

由于过去几周一直在远程工作，我们无法像往常那样执行那么多手动验证测试。我们没有做我们认为可能会造成任何破坏的任何更改，我们的自动化测试已全部通过。在不太可能的情况下，如果我们错过了某些内容，请在GitHub上告诉我们。
请保重身体！

语音 CLI（也称为 SPX）：2020 年 5 月发行版

SPX 是新的命令行工具，可用于从命令行执行识别、合成、翻译、批量听录和自定义语音管理。使用它来测试语音服务，或为需要执行的语音服务任务编写脚本。下载该工具，并在此处查看文档。

发布日期：2025 年 12 月

神经文本到语音 4.1.0

已解决的漏洞

2025 年 3 月版本

某些 HD 语音正式发布

以下 HD 语音现已正式发布：

区域设置 (BCP-47)	语音名称
`de-DE`	`de-DE-Florian:DragonHDLatestNeural`（男）
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural`（女）
`en-US`	`en-US-Adam:DragonHDLatestNeural`（男）
`en-US`	`en-US-Andrew:DragonHDLatestNeural`（男）
`en-US`	`en-US-Andrew2:DragonHDLatestNeural`（男）
`en-US`	`en-US-Ava:DragonHDLatestNeural`（女）
`en-US`	`en-US-Brian:DragonHDLatestNeural`（男）
`en-US`	`en-US-Davis:DragonHDLatestNeural`（男）
`en-US`	`en-US-Emma:DragonHDLatestNeural`（女）
`en-US`	`en-US-Emma2:DragonHDLatestNeural`（女）
`en-US`	`en-US-Steffan:DragonHDLatestNeural`（男）
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural`（男）
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural`（女）
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural`（男）
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural`（女）
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural`（男）
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural`（女）
`zh-cn`	`zh-cn-Xiaochen:DragonHDLatestNeural`（女）
`zh-cn`	`zh-cn-Yunfan:DragonHDLatestNeural`（男）

播客应用场景的多说话者语音（预览版）

区域设置 (BCP-47)	语音名称
`en-US`	`en-US-MultiTalker-Ava-Andrew:DragonHDLatestNeural`（中立）

新 HD 语音（预览版）

区域设置 (BCP-47)	语音名称
`en-US`	`en-US-Ava3:DragonHDLatestNeural` （女性） - 已针对播客进行优化
`en-US`	`en-US-Andrew3:DragonHDLatestNeural` （男性） - 已针对播客进行优化

Dragon HD Flash 模型（预览版）

区域设置 (BCP-47)	语音名称
`zh-cn`	`zh-cn-Xiaochen:DragonHDFlashLatestNeural`（女）
`zh-cn`	`zh-cn-Xiaoxiao:DragonHDFlashLatestNeural`（女）
`zh-cn`	`zh-cn-Xiaoxiao2:DragonHDFlashLatestNeural`（女性，已针对自由谈话优化）
`zh-cn`	`zh-cn-Yunxiao:DragonHDFlashLatestNeural`（男）
`zh-cn`	`zh-cn-Yunyi:DragonHDFlashLatestNeural`（男）

2025 年 2 月版本

更新的 HD 语音（预览版）

更新了 13 种当前 HD 语音，更新后支持多语言语音。

区域设置 (BCP-47)	语音名称
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural`（女）
`en-US`	`en-US-Brian:DragonHDLatestNeural`（男）
`en-US`	`en-US-Davis:DragonHDLatestNeural`（男）
`en-US`	`en-US-Ava:DragonHDLatestNeural`（女）
`en-US`	`en-US-Andrew:DragonHDLatestNeural`（男）
`en-US`	`en-US-Andrew2:DragonHDLatestNeural`（男性）- 已针对自由谈话优化
`en-US`	`en-US-Emma:DragonHDLatestNeural`（女）
`en-US`	`en-US-Emma2:DragonHDLatestNeural`（女性）- 已针对自由谈话优化
`en-US`	`en-US-Steffan:DragonHDLatestNeural`（男）
`en-US`	`en-US-Aria:DragonHDLatestNeural`（女）
`en-US`	`en-US-Jenny:DragonHDLatestNeural`（女）
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural`（男）
`zh-cn`	`zh-cn-Xiaochen:DragonHDLatestNeural`（女）

新 HD 语音（预览版）

添加了 14 种 HD 语音

区域设置 (BCP-47)	语音名称
`de-DE`	`de-DE-Florian:DragonHDLatestNeural`（男）
`en-US`	`en-US-Adam:DragonHDLatestNeural`（男）
`en-US`	`en-US-Brian:DragonHDLatestNeural`（男）
`en-US`	`en-US-Davis:DragonHDLatestNeural`（男）
`en-US`	`en-US-Phoebe:DragonHDLatestNeural`（女）
`en-US`	`en-US-Serena:DragonHDLatestNeural`（女）
`en-US`	`en-US-Alloy:DragonHDLatestNeural`（男）
`en-US`	`en-US-Nova:DragonHDLatestNeural`（女）
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural`（女）
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural`（男）
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural`（女）
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural`（男）
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural`（女）
`zh-cn`	`zh-cn-Yunfan:DragonHDLatestNeural`（男）

引入新的多语言语音（预览版）

en-US 中添加了 4 种多语种语音，并具有情感支持。

区域设置 (BCP-47)	语音名称	样式
`en-US`	`DerekMultilingualNeural`（男）	`empathetic`、`excited`、`relieved`、`shy`
`en-US`	`PhoebeMultilingualNeural`（女）	`empathetic`、`sad`、`serious`
`en-US`	`DavisMultilingualNeural`（男）	`empathetic`、`funny`、`relieved`
`en-US`	`NancyMultilingualNeural`（女）	`excited`、`friendly`、`funny`、`relieved`、`shy`

语音质量改进（正式发布）

提高了 16 种语音的质量。

区域设置 (BCP-47)	语音名称
`ar-EG`	`ar-EG-ShakirNeural`（男）
`ca-ES`	`ca-ES-EnricNeural`（男）
`en-IE`	`en-IE-EmilyNeural`（女）
`fi-FI`	`fi-FI-HarriNeural`（男）
`fi-FI`	`fi-FI-SelmaNeural`（女）
`fr-CH`	`fr-CH-FabriceNeural`（女）
`hr-HR`	`hr-HR-GabrijelaNeural`（女）
`nl-NL`	`nl-NL-MaartenNeural`（男）
`pt-PT`	`pt-PT-RaquelNeural`（女）
`ro-RO`	`ro-RO-AlinaNeural`（女）
`sv-SE`	`sv-SE-MattiasNeural`（男）
`sv-SE`	`sv-SE-SofieNeural`（女）
`vi-VN`	`vi-VN-HoaiMyNeural`（女）
`vi-VN`	`vi-VN-NamMinhNeural`（男）
`zh-HK`	`zh-HK-HiuMaanNeural`（女）
`zh-HK`	`zh-HK-WanLungNeural`（男）

2024 年 9 月版本

标准语音

在以下区域设置中添加了对新语音的支持和正式发布：

区域设置 (BCP-47)	语言	文本转语音声音
`as-IN`	阿萨姆语（印度）	`as-IN-YashicaNeural`（女） `as-IN-PriyomNeural`（男）
`or-IN`	奥迪亚 (印度)	`or-IN-SubhasiniNeural`（女） `or-IN-SukantNeural`（男）
`pa-IN`	旁遮普语（印度）	`pa-IN-OjasNeural`（男） `pa-IN-VaaniNeural`（女）

此表中的一种语音已经普遍可用，但仅支持 "en-IN" 区域语言环境设置。

区域设置 (BCP-47)	语言	文本转语音声音
`en-IN`	英语（印度）	`en-IN-AashiNeural`（女）

此表中的五种语音普遍可用，并支持“en-IN”和“hi-IN”区域设置。

区域设置 (BCP-47)	语言	文本转语音声音
`en-IN`	英语（印度）	`en-IN-AaravNeural`（男） `en-IN-AnanyaNeural`（女） `en-IN-KavyaNeural`（女） `en-IN-KunalNeural`（男） `en-IN-RehaanNeural`（男）
`hi-IN`	印地语（印度）	`hi-IN-AaravNeural`（男） `hi-IN-AnanyaNeural`（女） `hi-IN-KavyaNeural`（女） `hi-IN-KunalNeural`（男） `hi-IN-RehaanNeural`（男）

声音风格和角色

添加了对 newscast 和 cheerful 语音的 empathetic、en-IN-NeerjaNeural、hi-IN-SwaraNeural 样式支持。

为以下语音添加了新样式：

es-MX-DaliaNeural：whispering、sad、cheerful
fr-FR-DeniseNeural：whispering、sad、excited
it-IT-IsabellaNeural：whispering、sad、excited、cheerful
pt-PT-RaquelNeural： whispering， sad
de-DE-ConradNeural： sad， cheerful
en-GB-RyanNeural： whispering， sad
es-MX-JorgeNeural：whispering、sad、excited、cheerful
fr-FR-HenriNeural：whispering、sad、excited
it-IT-DiegoNeural：sad、excited、cheerful
es-ES-AlvaroNeural： cheerful， sad
ko-KR-InjoonNeural: sad

有关详细信息，请参阅语音风格和角色。

2024 年 8 月版本

标准语音

在公共预览版中推出了新的多语言声音。有关详细信息，请参阅完整的语言和语音列表。

全新的多语言语音

地区	语言	性别	语音名称
zh-CN	美国英语	男	en-US-AdamMultilingualNeural
zh-CN	美国英语	女	en-US-AmandaMultilingualNeural
zh-CN	美国英语	男	en-US-DerekMultilingualNeural
zh-CN	美国英语	男	en-US-LewisMultilingualNeural
zh-CN	美国英语	女	en-US-LolaMultilingualNeural
zh-CN	美国英语	女	en-US-PhoebeMultilingualNeural
zh-CN	美国英语	男	en-US-SamuelMultilingualNeural
zh-CN	美国英语	女	en-US-SerenaMultilingualNeural
zh-CN	美国英语	男	en-US-DustinMultilingualNeural
zh-CN	美国英语	女	en-US-EvelynMultilingualNeural
es-ES	西班牙语(西班牙)	男	es-ES-TristanMultilingualNeural
fr-FR	法语(法国)	男	fr-FR-LucienMultilingualNeural
pt-BR	葡萄牙语（巴西）	男	pt-BR-MacerioMultilingualNeural
zh-cn	中文（普通话，简体）	男	zh-cn- 云帆多语言神经网络
zh-cn	中文（普通话，简体）	男	zh-cn-YunxiaoMultilingualNeural
zh-cn	中文（普通话，简体）	男	zh-cn-YunyiMultilingualNeural

单语言模型更新为多语言声音，提升了自然性

地区	语言	性别	语音名称
zh-CN	美国英语	女	en-US-NancyMultilingualNeural
zh-CN	美国英语	男	en-US-BrandonMultilingualNeural
zh-CN	美国英语	男	en-US-ChristopherMultilingualNeural
zh-CN	美国英语	女	en-US-CoraMultilingualNeural
zh-CN	美国英语	男	en-US-DavisMultilingualNeural
zh-CN	美国英语	男	en-US-SteffanMultilingualNeural
es-ES	西班牙语(西班牙)	女	es-ES-XimenaMultilingualNeural
it-IT	意大利语（意大利）	男	it-IT-GiuseppeMultilingualNeural
ko-KR	韩语(韩国)	男	ko-KR-HyunsuMultilingualNeural

改进了下列当前的多语言语音质量。

地区语言性别语音名称

zh-CN 美国英语男 en-US-AndrewMultilingualNeural

zh-CN 美国英语女 en-US-AvaMultilingualNeural
现在有三种多语言语音支持风格。有关详细信息，请参阅语音风格和角色。
- en-US-SerenaMultilingualNeural：empathetic、excited、friendly、shy、serious、relieved、sad。
- en-US-AndrewMultilingualNeural：empathetic 和 relieved。
- zh-cn-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry, 和 story.

地区	语言	性别	语音名称
zh-CN	美国英语	男	en-US-AndrewMultilingualNeural
zh-CN	美国英语	女	en-US-AvaMultilingualNeural

在公共预览版中引入了 2 种新的多语言声音：zh-cn-YunfanMultilingualNeural 和 zh-cn-YunxiaoMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。

嵌入式神经网络语音

en-US-JennyMultilingual 语音已投入生产，支持多达 24 种语言环境的设备体验。有关支持的区域设置，请参阅下表。

地区	语言
`da-DK`	丹麦语（丹麦）
`de-DE`	德语（德国）
`en-AU`	英语（澳大利亚）
`en-GB`	英语（英国）
`en-IN`	英语（印度）
`en-US`	美国英语
`es-ES`	西班牙语(西班牙)
`es-MX`	西班牙语（墨西哥）
`fr-CA`	法语（加拿大）
`fr-FR`	法语(法国)
`he-IL`	希伯来语（以色列）
`it-IT`	意大利语（意大利）
`ja-JP`	日语（日本）
`ko-KR`	韩语(韩国)
`nb-NO`	挪威书面语Bokmål（挪威）
`nl-NL`	荷兰语（荷兰）
`pl-PL`	波兰语（波兰）
`pt-PT`	葡萄牙语(葡萄牙)
`sv-SE`	瑞典语（瑞典）
`th-TH`	泰语（泰国）
`tr-TR`	土耳其语 (Türkiye)
`zh-cn`	中文（普通话，简体）
`zh-HK`	中文(粤语，繁体)
`zh-TW`	中文（台湾普通话，繁体）

2024 年 5 月版本

个人声音（正式版）

标准语音

在公共预览版中引入了 8 种新的多语言语音：en-GB-AdaMultilingualNeural、en-GB-OllieMultilingualNeural、es-ES-ArabellaMultilingualNeural、es-ES-IsidoraMultilingualNeural、it-IT-AlessioMultilingualNeural、it-IT-IsabellaMultilingualNeural、it-IT-MarcelloMultilingualNeural 和 pt-BR-ThalitaMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
在公共预览版中引入了针对呼叫中心场景优化的 2 种新的 en-US 语音：en-US-LunaNeural 和 en-US-KaiNeural。有关详细信息，请参阅完整的语言和语音列表。

2024 年 3 月版本

标准语音

9 种多语言语音在所有区域正式发布：en-US-AvaMultilingualNeural、en-US-AndrewMultilingualNeural、en-US-EmmaMultilingualNeural、en-US-BrianMultilingualNeural、de-DE-FlorianMultilingualNeural、de-DE-SeraphinaMultilingualNeural、fr-FR-RemyMultilingualNeural、fr-FR-VivienneMultilingualNeural、zh-cn-XiaoxiaoMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
为公共预览版引入一种新的多语言语音：ja-JP-MasaruMultilingualNeural。有关详细信息，请参阅完整的语言和语音列表。
其他更新：
- en-US-RyanMultilingualNeural 在所有区域中正式发布。
- en-US-JennyMultilingualV2Neural 在所有区域正式发布，并与 en-US-JennyMultilingualNeural 合并。

2024 年 2 月版本

标准语音

为公共预览版引入新的多语言语音：

区域设置 (BCP-47)	语言	文本转语音声音
`de-DE`	德语（德国）	`de-DE-FlorianMultilingualNeural`（男）
`de-DE`	德语（德国）	`de-DE-SeraphinaMultilingualNeural`（女）
`en-US`	美国英语	`en-US-AvaMultilingualNeural`（女）
`en-US`	美国英语	`en-US-EmmaMultilingualNeural`（女）
`fr-FR`	法语(法国)	`fr-FR-RemyMultilingualNeural`（男）
`en-US`	美国英语	`en-US-BrianMultilingualNeural`（男）
`en-US`	美国英语	`en-US-AndrewMultilingualNeural`（男）
`fr-FR`	法语(法国)	`fr-FR-VivienneMultilingualNeural`（女）
`zh-cn`	中文（普通话，简体）	`zh-cn-XiaoxiaoMultilingualNeural`（女）
`zh-cn`	中文（普通话，简体）	`zh-cn-XiaochenMultilingualNeural`（女）
`zh-cn`	中文（普通话，简体）	`zh-cn-YunyiMultilingualNeural`（男）

为公共预览版引入新的 zh-cn-XiaoxiaoDialectsNeural 语音，支持多个中文方言和口音：

语音名称	次要语言	方言/口音
`zh-cn-XiaoxiaoDialectsNeural`	`zh-cn-shaanxi`	中文（中原官话，简体）
	`zh-cn-sichuan`	中文（西南普通话，简体）
	`zh-cn-shanxi`	中文（山西口音普通话，简体）
	`nan-CN`	中文（闽南话，简体）
	`zh-cn-anhui`	中文（安徽江淮普通话，简体）
	`zh-cn-hunan`	中文（湖南口音普通话，简体）
	`zh-cn-gansu`	中文（甘肃兰银普通话，简体）
	`zh-cn-shandong`	中文（冀鲁官话，简体）
	`zh-cn-henan`	中文（中原官话河南，简体）
	`zh-cn-liaoning`	中文（东北官话，简体）
	`zh-TW`	中文（台湾普通话，繁体）

2023 年 11 月版本

标准语音

为公共预览版引入新语音：

区域设置 (BCP-47)	语言	文本转语音声音
`de-DE`	德语（德国）	`SeraphinaNeural`（女）
`es-ES`	西班牙语(西班牙)	`XimenaNeural`（女）
`fr-CA`	法语（加拿大）	`ThierryNeural`（男）
`fr-FR`	法语(法国)	`VivienneNeural`（女）
`it-IT`	意大利语（意大利）	`GiuseppeNeural`（男）
`ko-KR`	韩语(韩国)	`HyunsuNeural`（男）
`pt-BR`	葡萄牙语（巴西）	`ThalitaNeural`（女）

模型更新，修复了错误并改进了质量：

区域设置 (BCP-47)	语言	文本转语音声音
`es-ES`	西班牙语(西班牙)	`AlvaroNeural`（男）
`en-GB`	英语（英国）	`RyanNeural`（男）
`ko-KR`	韩语(韩国)	`InjoonNeural`（男）

2023 年 9 月版本

标准语音

为公共预览版引入新语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	美国英语	`en-US-EmmaNeural`（女）
`en-US`	美国英语	`en-US-AndrewNeural`（男）
`en-US`	美国英语	`en-US-BrianNeural`（男）

嵌入式神经网络语音

此处的所有 147 个区域设置（fa-IR、波斯语(伊朗) 除外）都开箱即用，并提供选定的女性或男性语音。

2023 年 7 月版本

标准语音

为公共预览版引入新的 en-US 性别中立语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	美国英语	`en-US-BlueNeural`（中立）

为公共预览版引入新的多语言语音：

区域设置 (BCP-47)	语言	文本转语音声音
`en-US`	美国英语	`en-US-JennyMultilingualV2Neural`（女）
`en-US`	美国英语	`en-US-RyanMultilingualNeural`（男）

多语言语音 en-US-JennyMultilingualV2Neural 和 en-US-RyanMultilingualNeural 会自动检测输入文本的语言。但是，你仍然可以使用 <lang> 元素来调整这些语音的说话语言。

这些新的多语言语音可以讲 41 种语言和口音：Arabic (Egypt)、Arabic (Saudi Arabia)、Catalan、Czech (Czechia)、Danish (Denmark)、German (Austria)、German (Switzerland)、 German (Germany)、English (Australia)、English (Canada)、English (United Kingdom)、English (Hong Kong SAR of People's Republic of China)、English (Ireland)、English (India)、English (美国)、 Spanish (Spain)、Spanish (Mexico)、 Finnish (Finland)， French (Belgium)， French (Canada)， French (Switzerland)， French (France)， Hindi (India)， Hungarian (Hungary)， Indonesian (Indonesia)， Italian (Italy)、Japanese (Japan)、Korean (Korea)、Norwegian Bokmål (Norway)、Dutch (Belgium)、Dutch (Netherlands)、Polish (Poland)、Portuguese (Brazil)、Portuguese (Portugal)、 Russian (Russia)、Swedish (Sweden)、Thai (Thailand)、Turkish (Türkiye)、Chinese (Mandarin, Simplified)、Chinese (Cantonese, Traditional)、Chinese (Taiwanese Mandarin, Traditional)。

这些多语言语音并不完全支持某些 SSML 元素，例如停顿、强调、静音和替代。

重要

en-US-JennyMultilingualV2Neural 语音暂时以公共预览版形式提供，仅用于评估目的。未来将会删除。

若要使用英语以外的语言说话，语音的 en-US-JennyMultilingualNeural 当前实现需要设置 <lang xml:lang> 元素。我们预计，在 2023 日历年第 4 季度，en-US-JennyMultilingualNeural 语音将更新为使用输入文本的语言说话，而无需 <lang xml:lang> 元素。这将与 en-US-JennyMultilingualV2Neural 语音相当。

公共预览版中对以下语音推出新功能：

为塞尔维亚语（塞尔维亚）sr-RS 语音添加了拉丁语输入：sr-latn-RS-SophieNeural 和 sr-latn-RS-NicholasNeural。
对阿尔巴尼亚语（阿尔巴尼亚）sq-AL 语音添加了英语发音支持：sq-AL-AnilaNeural 和 sq-AL-IlirNeural。

2023 年 5 月版本

有声内容创作

所有具有讲话风格的标准语音和多样式自定义语音都支持风格程度调整。
现在，可以通过说出单词并录制，即可修复单词的发音。可以从录制内容中自动识别音素。 通过语音识别功能现已进入公开预览。

2023 年 4 月版本

标准语音

这些语音的以下功能已从公共预览版升级为正式版：

样式	文本转语音声音
style=“chat”	`en-GB-RyanNeural`、`es-MX-JorgeNeural` 和 `it-IT-IsabellaNeural`
style="欢快"	`en-GB-RyanNeural`、`en-GB-SoniaNeural`、`es-MX-JorgeNeural`、`fr-FR-DeniseNeural`、`fr-FR-HenriNeural` 和 `it-IT-IsabellaNeural`
style=“sad”	`en-GB-SoniaNeural`、`fr-FR-DeniseNeural` 和 `fr-FR-HenriNeural`

改进 hi-IN、ta-IN 和 te-IN 语音的英语发音，目前正在公共预览版区域中进行此工作

有关详细信息，请参阅语言和语音列表。

2023 年 3 月版本

新功能

语音合成标记语言 (SSML) 已更新，可支持音频效果处理器元素，这些元素可针对设备上的特定方案优化合成语音输出的质量。在语音合成标记中了解详细信息。

标准语音

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`en-AU`	英语（澳大利亚）	`en-AU-AnnetteNeural`（女） `en-AU-CarlyNeural`（女） `en-AU-DarrenNeural`（男） `en-AU-DuncanNeural`（男） `en-AU-ElsieNeural`（女） `en-AU-FreyaNeural`（女） `en-AU-JoanneNeural`（女） `en-AU-KenNeural`（男） `en-AU-KimNeural`（女） `en-AU-NeilNeural`（男） `en-AU-TimNeural`（男） `en-AU-TinaNeural`（女） `en-AU-WilliamNeural`（男）
`en-GB`	英语（英国）	`en-GB-RyanNeural`（男） `en-GB-SoniaNeural`（女）
`es-ES`	西班牙语(西班牙)	`es-ES-AbrilNeural`（女） `es-ES-ArnauNeural`（男） `es-ES-DarioNeural`（男） `es-ES-EliasNeural`（男） `es-ES-EstrellaNeural`（女） `es-ES-IreneNeural`（女） `es-ES-LaiaNeural`（女） `es-ES-LiaNeural`（女） `es-ES-NilNeural`（男） `es-ES-SaulNeural`（男） `es-ES-TeoNeural`（男） `es-ES-TrianaNeural`（女） `es-ES-VeraNeural`（女）
`es-MX`	西班牙语（墨西哥）	`es-MX-JorgeNeural`（男）
`fr-FR`	法语(法国)	`fr-FR-HenriNeural`（男）
`it-IT`	意大利语（意大利）	`it-IT-IsabellaNeural`（女）
`ja-JP`	日语（日本）	`ja-JP-AoiNeural`（女） `ja-JP-DaichiNeural`（男） `ja-JP-MayuNeural`（女） `ja-JP-NaokiNeural`（男） `ja-JP-ShioriNeural`（女）

添加了对 cheerful 样式的 de-DE-ConradNeural 语音的支持。

2023 年 2 月版本

标准语音

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`zh-cn`	中文（普通话，简体）	`zh-cn-XiaomengNeural`（女） `zh-cn-XiaoyiNeural`（女） `zh-cn-XiaozhenNeural`（女） `zh-cn-YunfengNeural`（男） `zh-cn-YunhaoNeural`（男） `zh-cn-YunjianNeural`（男） `zh-cn-YunxiaNeural`（男） `zh-cn-YunzeNeural`（男）
`zh-cn-henan`	中文（中原官话河南，简体）	`zh-cn-henan-YundengNeural`（男）

2022 年 11 月版本

标准语音（正式版）

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`es-MX`	西班牙语（墨西哥）	`es-MX-BeatrizNeural`（女） `es-MX-CandelaNeural`（女） `es-MX-CarlotaNeural`（女） `es-MX-CecilioNeural`（男） `es-MX-GerardoNeural`（男） `es-MX-LarissaNeural`（女） `es-MX-LibertoNeural`（男） `es-MX-LucianoNeural`（男） `es-MX-MarinaNeural`（女） `es-MX-NuriaNeural`（女） `es-MX-PelayoNeural`（男） `es-MX-RenataNeural`（女） `es-MX-YagoNeural`（男）
`it-IT`	意大利语（意大利）	`it-IT-BenignoNeural`（男） `it-IT-CalimeroNeural`（男） `it-IT-CataldoNeural`（男） `it-IT-FabiolaNeural`（女） `it-IT-FiammaNeural`（女） `it-IT-GianniNeural`（男） `it-IT-ImeldaNeural`（女） `it-IT-IrmaNeural`（女） `it-IT-LisandroNeural`（男） `it-IT-PalmiraNeural`（女） `it-IT-PierinaNeural`（女） `it-IT-RinaldoNeural`（男）
`pt-BR`	葡萄牙语（巴西）	`pt-BR-BrendaNeural`（女） `pt-BR-DonatoNeural`（男） `pt-BR-ElzaNeural`（女） `pt-BR-FabioNeural`（男） `pt-BR-GiovannaNeural`（女） `pt-BR-HumbertoNeural`（男） `pt-BR-JulioNeural`（男） `pt-BR-LeilaNeural`（女） `pt-BR-LeticiaNeural`（女） `pt-BR-ManuelaNeural`（女） `pt-BR-NicolauNeural`（男） `pt-BR-ValerioNeural`（男） `pt-BR-YaraNeural`（女）

2022 年 10 月版本

标准语音（正式版）

现已正式发布以下语音。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`eu-ES`	巴斯克语	`eu-ES-AinhoaNeural`（女） `eu-ES-AnderNeural`（男）
`hy-AM`	亚美尼亚语（亚美尼亚）	`hy-AM-AnahitNeural`（女） `hy-AM-HaykNeural`（男）

标准语音（预览版）

以下语音现在以公共预览版提供。有关详细信息，请参阅完整的语言和语音列表。

区域设置 (BCP-47)	语言	文本转语音声音
`en-AU`	英语（澳大利亚）	`en-AU-AnnetteNeural`（女） `en-AU-CarlyNeural`（女） `en-AU-DarrenNeural`（男） `en-AU-DuncanNeural`（男） `en-AU-ElsieNeural`（女） `en-AU-FreyaNeural`（女） `en-AU-JoanneNeural`（女） `en-AU-KenNeural`（男） `en-AU-KimNeural`（女） `en-AU-NeilNeural`（男） `en-AU-TimNeural`（男） `en-AU-TinaNeural`（女）
`es-ES`	西班牙语(西班牙)	`es-ES-AbrilNeural`（女） `es-ES-AlvaroNeural`（男） `es-ES-ArnauNeural`（男） `es-ES-DarioNeural`（男） `es-ES-EliasNeural`（男） `es-ES-EstrellaNeural`（女） `es-ES-IreneNeural`（女） `es-ES-LaiaNeural`（女） `es-ES-LiaNeural`（女） `es-ES-NilNeural`（男） `es-ES-SaulNeural`（男） `es-ES-TeoNeural`（男） `es-ES-TrianaNeural`（女） `es-ES-VeraNeural`（女）
`ja-JP`	日语（日本）	`ja-JP-AoiNeural`（女） `ja-JP-DaichiNeural`（男） `ja-JP-MayuNeural`（女） `ja-JP-NaokiNeural`（男） `ja-JP-ShioriNeural`（女）
`ko-KR`	韩语(韩国)	`ko-KR-BongJinNeural`（男） `ko-KR-GookMinNeural`（男） `ko-KR-JiMinNeural`（女） `ko-KR-SeoHyeonNeural`（女） `ko-KR-SoonBokNeural`（女） `ko-KR-YuJinNeural`（女）
`wuu-CN`	中文（吴语，简体）	`wuu-CN-XiaotongNeural`（女） `wuu-CN-YunzheNeural`（男）
`yue-CN`	中文（粤语，简体中文）	`yue-CN-XiaoMinNeural`（女） `yue-CN-YunSongNeural`（男）

常规 TTS 语音更新

改进了 fil-PH-AngeloNeural 和 fil-PH-BlessicaNeural 语音的质量。
针对 es-CL 西班牙语（智利）和 uz-UZ 乌兹别克语（乌兹别克斯坦）语言环境的语音更新了文本规范化规则。
添加了 sq-AL 阿尔巴尼亚语（阿尔巴尼亚）和 az-AZ 阿塞拜疆语（阿塞拜疆）区域设置的英语字母拼写。
改进了 zh-HK-WanLungNeural 语音的英语发音。
改进了 nl-NL-MaartenNeural 和 pt-BR-AntonioNeural 语音的问题语气。
添加了对 <lang ="en-US"> 标记的支持，该标记可以改善以下语音的英语发音：de-DE-ConradNeural、de-DE-KatjaNeural、es-ES-AlvaroNeural、es-MX-DaliaNeural、es-MX-JorgeNeural、fr-CA-SylvieNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural、it-IT-DiegoNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="chat" 标记的支持：en-GB-RyanNeural、es-MX-JorgeNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="cheerful" 标记的支持：en-GB-RyanNeural、en-GB-SoniaNeural、es-MX-JorgeNeural、fr-FR-DeniseNeural、fr-FR-HenriNeural 和 it-IT-IsabellaNeural。
添加了对用于以下语音的 style="sad" 标记的支持：en-GB-SoniaNeural、fr-FR-DeniseNeural 和 fr-FR-HenriNeural。

2022 年 9 月版本

标准语音

所有标准语音都已升级到高保真语音，采样率为 48kHz。

2022 年 8 月版本

标准语音

推出了新的语音公共预览版：

英语（美国）语音：en-US-AIGenerate1Neural和en-US-AIGenerate2Neural。
中文区域性语言的语音：zh-cn-henan-YundengNeural、zh-cn-shaanxi-XiaoniNeural 和 zh-cn-shandong-YunxiangNeural。

有关详细信息，请参阅语言和语音列表。

2022 年 7 月版本

标准语音

在公共预览版中新增了5种zh-cn中文（普通话、简体中文）语音和1种en-US美式英语语音。参阅完整语言和语音列表。

语言	地区	性别	语音名称	风格支持
中文（普通话，简体）	`zh-cn`	女	`zh-cn-XiaomengNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-cn`	女	`zh-cn-XiaoyiNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-cn`	女	`zh-cn-XiaozhenNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-cn`	男	`zh-cn-YunxiaNeural` ^新增内容	常规，使用 SSML 提供多种风格
中文（普通话，简体）	`zh-cn`	男	`zh-cn-YunzeNeural` ^新增内容	常规，使用 SSML 提供多种风格
美国英语	`en-US`	男	`en-US-RogerNeural` ^新增内容	常规

添加的神经语音的受支持样式和角色。

Voice	样式	风格程度	角色
zh-cn-XiaomengNeural ^{公共预览版}	`chat`	支持
zh-cn-XiaoyiNeural ^{公共预览版}	`affectionate`、`angry`、`cheerful`、`disgruntled`、`embarrassed`、`fearful`、`gentle`、`sad`、`serious`	支持
zh-cn-XiaozhenNeural ^{公共预览版}	`angry`、`cheerful`、`disgruntled`、`fearful`、`sad`、`serious`	支持
zh-cn-YunxiaNeural ^{公共预览版}	`angry`、`calm`、`cheerful`、`fearful`、`sad`	支持
zh-cn-YunzeNeural ^{公共预览版}	`angry`、`calm`、`cheerful`、`depressed`、`disgruntled`、`documentary-narration`、`fearful`、`sad`、`serious`	支持	支持

使用视位技术获取面部位置

添加了对混合形状的支持，以驱动设计的 3D 角色的面部运动。详细了解如何使用视素获取面部位置。
SSML 已更新，现支持 viseme 元素。请参阅语音合成标记。

2022 年 6 月版本

标准语音

为神经网络文本转语音添加了 9 种新语言和变体：

语言	地区	性别	语音名称	风格支持
阿拉伯语（黎巴嫩）	`ar-LB`	女	`ar-LB-LaylaNeural` ^新增内容	常规
阿拉伯语（黎巴嫩）	`ar-LB`	男	`ar-LB-RamiNeural` ^新增内容	常规
阿拉伯语（阿曼）	`ar-OM`	女	`ar-OM-AyshaNeural` ^新增内容	常规
阿拉伯语（阿曼）	`ar-OM`	男	`ar-OM-AbdullahNeural` ^新增内容	常规
阿塞拜疆语（阿塞拜疆）	`az-AZ`	女	`az-AZ-BabekNeural` ^新增内容	常规
阿塞拜疆语（阿塞拜疆）	`az-AZ`	男	`az-AZ-BanuNeural` ^新增内容	常规
波斯尼亚语（波斯尼亚和黑塞哥维那）	`bs-BA`	女	`bs-BA-VesnaNeural` ^新增内容	常规
波斯尼亚语（波斯尼亚和黑塞哥维那）	`bs-BA`	男	`bs-BA-GoranNeural` ^新增内容	常规
格鲁吉亚语（格鲁吉亚）	`ka-GE`	女	`ka-GE-EkaNeural` ^新增内容	常规
格鲁吉亚语（格鲁吉亚）	`ka-GE`	男	`ka-GE-GiorgiNeural` ^新增内容	常规
蒙古语（蒙古）	`mn-MN`	女	`mn-MN-YesuiNeural` ^新增内容	常规
蒙古语（蒙古）	`mn-MN`	男	`mn-MN-BataaNeural` ^新增内容	常规
尼泊尔语（尼泊尔）	`ne-NP`	女	`ne-NP-HemkalaNeural` ^新增内容	常规
尼泊尔语（尼泊尔）	`ne-NP`	男	`ne-NP-SagarNeural` ^新增内容	常规
阿尔巴尼亚语（阿尔巴尼亚）	`sq-AL`	女	`sq-AL-AnilaNeural` ^新增内容	常规
阿尔巴尼亚语（阿尔巴尼亚）	`sq-AL`	男	`sq-AL-IlirNeural` ^新增内容	常规
泰米尔语（马来西亚）	`ta-MY`	女	`ta-MY-KaniNeural` ^新增内容	常规
泰米尔语（马来西亚）	`ta-MY`	男	`ta-MY-SuryaNeural` ^新增内容	常规

en-GB 英语（英国）、fr-FR 法语（法国）和 de-DE 德语（德国）的公共预览版的正式发布 36 种语音：

语言	地区	性别	语音名称	风格支持
英语（英国）	`en-GB`	女	`en-GB-AbbiNeural`	常规
英语（英国）	`en-GB`	女	`en-GB-BellaNeural`	常规
英语（英国）	`en-GB`	女	`en-GB-HollieNeural`	常规
英语（英国）	`en-GB`	女	`en-GB-MaisieNeural`	常规设置，儿童语音
英语（英国）	`en-GB`	女	`en-GB-OliviaNeural`	常规
英语（英国）	`en-GB`	女	`en-GB-SoniaNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-AlfieNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-ElliotNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-EthanNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-NoahNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-OliverNeural`	常规
英语（英国）	`en-GB`	男	`en-GB-ThomasNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-BrigitteNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-CelesteNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-CoralieNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-EloiseNeural`	常规设置，儿童语音
法语(法国)	`fr-FR`	女	`fr-FR-JacquelineNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-JosephineNeural`	常规
法语(法国)	`fr-FR`	女	`fr-FR-YvetteNeural`	常规
法语(法国)	`fr-FR`	男	`fr-FR-AlainNeural`	常规
法语(法国)	`fr-FR`	男	`fr-FR-ClaudeNeural`	常规
法语(法国)	`fr-FR`	男	`fr-FR-JeromeNeural`	常规
法语(法国)	`fr-FR`	男	`fr-FR-MauriceNeural`	常规
法语(法国)	`fr-FR`	男	`fr-FR-YvesNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-AmalaNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-ElkeNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-GiselaNeural`	常规设置，儿童语音
德语（德国）	`de-DE`	女	`de-DE-KlarissaNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-LouisaNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-MajaNeural`	常规
德语（德国）	`de-DE`	女	`de-DE-TanjaNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-BerndNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-ChristophNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KasperNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KillianNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-KlausNeural`	常规
德语（德国）	`de-DE`	男	`de-DE-RalfNeural`	常规

在公共预览版中添加了 40 种新语音，包括 es-MX 西班牙语（墨西哥）、it-IT 意大利语（意大利）、pt-BR 葡萄牙语（巴西）和 2 种 zh-cn 中文口音（普通话、简体）的语音：

语言	地区	性别	语音名称	风格支持
西班牙语（墨西哥）	`es-MX`	女	`es-MX-BeatrizNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-CarlotaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-NuriaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-RenataNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-LarissaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-CandelaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	女	`es-MX-MarinaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-FiammaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-IrmaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-FabiolaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-PalmiraNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-ImeldaNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	女	`it-IT-PierinaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-ElzaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-ManuelaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-BrendaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-LeilaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-YaraNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-GiovannaNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	女	`pt-BR-LeticiaNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-CecilioNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-LibertoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-LucianoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-PelayoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-YagoNeural` ^新增内容	常规
西班牙语（墨西哥）	`es-MX`	男	`es-MX-GerardoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-BenignoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-CataldoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-LisandroNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-CalimeroNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-RinaldoNeural` ^新增内容	常规
意大利语（意大利）	`it-IT`	男	`it-IT-GianniNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-DonatoNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-HumbertoNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-FabioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-JulioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-ValerioNeural` ^新增内容	常规
葡萄牙语（巴西）	`pt-BR`	男	`pt-BR-NicolauNeural` ^新增内容	常规
中文（普通话，简体）	`zh-cn-sichuan`	男	`zh-cn-sichuan-YunxiSichuanNeural` ^新增内容	一般的四川口音
中文（普通话，简体）	`zh-cn-liaoning`	女	`zh-cn-liaoning-XiaobeiNeural` ^新增内容	常规，辽宁口音

改进了 en-SG-LunaNeural 和 en-SG-WayneNeural 的质量
48kHz 输出支持公开预览版，其中包含 en-US-JennyNeural、en-US-AriaNeural 和 zh-cn-XiaoxiaoNeural

有声内容创作工具

支持分页功能。
启用此项即可以全局方式按工作文件页上的名称、文件类型和更新时间排序。

2022 年 5 月版本

标准语音

在公共预览版中发布了 5 种新声音，这些声音有多种风格，可以丰富美国英语的多样性。参阅完整语言和语音列表。
公共预览版 Angry 支持这些新风格：Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified、Whispering 和 en-US-AriaNeural。
在公共预览版中，Angry 和 Cheerful 支持这些新风格：Excited、Friendly、Hopeful、Sad、Shouting、Unfriendly、Terrified、Whispering、en-US-GuyNeural 和 en-US-JennyNeural。
支持这些新风格：Excited、Friendly、Hopeful、Shouting、Unfriendly、Terrified 和 Whispering，用于 en-US-SaraNeural 的公共预览版。请参阅语音风格和角色。
在公共预览版中发布了新的语音 zh-cn-YunjianNeural、zh-cn-YunhaoNeural 和 zh-cn-YunfengNeural。参阅完整语言和语音列表。
sports-commentary 的公共预览版支持 2 个新样式：sports-commentary-excited、zh-cn-YunjianNeural。请参阅语音风格和角色。
advertisement-upbeat 的公共预览版支持 1 个新样式：zh-cn-YunhaoNeural。请参阅语音风格和角色。
cheerful 的 sad 和 fr-FR-DeniseNeural 样式在所有区域中均已正式发布。
SSML 已更新以支持 en-US 和 en-AU 语音的 MathML 元素。在语音合成标记中了解详细信息。

有声内容创作工具

启用此项后，无需登录即可试用有声内容创作工具。
改进了用于调整音素的界面设计。
增强性能：指定了一次上传文件的最大数目 (200)。
增强性能：指定了最大目录深度级别（5 个级别）。

2022 年 3 月版本

标准语音

在公开预览版中，使用 Cheerful 添加了对 Sad 和 fr-FR-DeniseNeural 风格的支持。请参阅语音风格和角色。

有声内容创作工具

更新了免费层 (F0) 资源的文件大小和并发限制，以获得与语音 SDK 和 API 一致的体验。请参阅语音服务配额和限制。

2022 年 2 月版本

有声内容创作工具

删除了下载音频时的输出长度限制。

2022 年 1 月版本

新语言和语音

为神经网络文本转语音添加了 10 种新语言和变体：

语言	地区	性别	语音名称	风格支持
孟加拉语（印度）	`bn-IN`	女	`bn-IN-TanishaaNeural` ^新增内容	常规
孟加拉语（印度）	`bn-IN`	男	`bn-IN-BashkarNeural` ^新增内容	常规
冰岛语（冰岛）	`is-IS`	女	`is-IS-GudrunNeural` ^新增内容	常规
冰岛语（冰岛）	`is-IS`	男	`is-IS-GunnarNeural` ^新增内容	常规
卡纳达语（印度）	`kn-IN`	女	`kn-IN-SapnaNeural` ^新增内容	常规
卡纳达语（印度）	`kn-IN`	男	`kn-IN-GaganNeural` ^新增内容	常规
哈萨克语（哈萨克斯坦）	`kk-KZ`	女	`kk-KZ-AigulNeural` ^新增内容	常规
哈萨克语（哈萨克斯坦）	`kk-KZ`	男	`kk-KZ-DauletNeural` ^新增内容	常规
老挝语(老挝)	`lo-LA`	女	`lo-LA-KeomanyNeural` ^新增内容	常规
老挝语(老挝)	`lo-LA`	男	`lo-LA-ChanthavongNeural` ^新增内容	常规
马其顿语（北马其顿共和国）	`mk-MK`	女	`mk-MK-MarijaNeural` ^新增内容	常规
马其顿语（北马其顿共和国）	`mk-MK`	男	`mk-MK-AleksandarNeural` ^新增内容	常规
马拉雅拉姆语（印度）	`ml-IN`	女	`ml-IN-SobhanaNeural` ^新增内容	常规
马拉雅拉姆语（印度）	`ml-IN`	男	`ml-IN-MidhunNeural` ^新增内容	常规
普什图语（阿富汗）	`ps-AF`	女	`ps-AF-LatifaNeural` ^新增内容	常规
普什图语（阿富汗）	`ps-AF`	男	`ps-AF-GulNawazNeural` ^新增内容	常规
塞尔维亚语（塞尔维亚，西里尔语）	`sr-RS`	女	`sr-RS-SophieNeural` ^新增内容	常规
塞尔维亚语（塞尔维亚，西里尔语）	`sr-RS`	男	`sr-RS-NicholasNeural` ^新增内容	常规
僧伽罗语（斯里兰卡）	`si-LK`	女	`si-LK-ThiliniNeural` ^新增内容	常规
僧伽罗语（斯里兰卡）	`si-LK`	男	`si-LK-SameeraNeural` ^新增内容	常规

有关可用语音的完整列表，请参阅语言支持。

新语音（预览版）

在预览版中为 en-GB、fr-FR 和 de-DE 添加了新语音：

语言	地区	性别	语音名称	风格支持
英语（英国）	`en-GB`	女	`en-GB-AbbiNeural` ^新增内容	常规
英语（英国）	`en-GB`	女	`en-GB-BellaNeural` ^新增内容	常规
英语（英国）	`en-GB`	女	`en-GB-HollieNeural` ^新增内容	常规
英语（英国）	`en-GB`	女	`en-GB-OliviaNeural` ^新增内容	常规
英语（英国）	`en-GB`	女孩	`en-GB-MaisieNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-AlfieNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-ElliotNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-EthanNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-NoahNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-OliverNeural` ^新增内容	常规
英语（英国）	`en-GB`	男	`en-GB-ThomasNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-BrigitteNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-CelesteNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-CoralieNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-JacquelineNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-JosephineNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女	`fr-FR-YvetteNeural` ^新增内容	常规
法语(法国)	`fr-FR`	女孩	`fr-FR-EloiseNeural` ^新增内容	常规
法语(法国)	`fr-FR`	男	`fr-FR-AlainNeural` ^新增内容	常规
法语(法国)	`fr-FR`	男	`fr-FR-ClaudeNeural` ^新增内容	常规
法语(法国)	`fr-FR`	男	`fr-FR-JeromeNeural` ^新增内容	常规
法语(法国)	`fr-FR`	男	`fr-FR-MauriceNeural` ^新增内容	常规
法语(法国)	`fr-FR`	男	`fr-FR-YvesNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-AmalaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-ElkeNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-KlarissaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-LouisaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-MajaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女	`de-DE-TanjaNeural` ^新增内容	常规
德语（德国）	`de-DE`	女孩	`de-DE-GiselaNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-BerndNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-ChristophNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KasperNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KillianNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-KlausNeural` ^新增内容	常规
德语（德国）	`de-DE`	男	`de-DE-RalfNeural` ^新增内容	常规

有关可用语音的完整列表，请参阅语言支持。

发音准确度

改进了所有 he-IL 语音的英语单词发音。
为 cs-CZ 和 da-DK 改进了单词级别的发音准确度。
改进了阿拉伯语的语音重音符号处理以及希伯来语的元音符号处理。
为 ja-JP 改进了实体读取

Speech Studio

有声内容创作：启用了更多输出格式

2021 年 10 月版本

新语言和语音

为神经网络文本转语音添加了 49 种新语言和 98 种语音：

af-ZA 南非荷兰语（南非）的 Adri、af-ZA 南非荷兰语（南非）的 Willem、am-ET 阿姆哈拉语（埃塞俄比亚）的 Mekdes、am-ET 阿姆哈拉语（埃塞俄比亚）的 Ameha、ar-AE 阿拉伯语（阿拉伯联合酋长国）的 Fatima、ar-AE 阿拉伯语（阿拉伯联合酋长国）的 Hamdan、ar-BH 阿拉伯语（巴林）的 Laila、ar-BH 阿拉伯语（巴林）的 Ali、ar-DZ 阿拉伯语（阿尔及利亚）的 Amina、ar-DZ 阿拉伯语（阿尔及利亚）的 Ismael、ar-IQ 阿拉伯语（伊拉克）的 Rana、ar-IQ 阿拉伯语（伊拉克）的 Bassel、ar-JO 阿拉伯语（约旦）的 Sana、ar-JO 阿拉伯语（约旦）的 Taim、ar-KW 阿拉伯语（科威特）的 Noura、ar-KW 阿拉伯语（科威特）的 Fahed、ar-LY 阿拉伯语（利比亚）的 Iman、ar-LY 阿拉伯语（利比亚）的 Omar、ar-MA 阿拉伯语（摩洛哥）的 Mouna、ar-MA 阿拉伯语（摩洛哥）的 Jamal、ar-QA 阿拉伯语（卡塔尔）的 Amal、ar-QA 阿拉伯语（卡塔尔）的 Moaz、ar-SY 阿拉伯语（叙利亚）的 Amany、ar-SY 阿拉伯语（叙利亚）的 Laith、ar-TN 阿拉伯语（突尼斯）的 Reem、ar-TN 阿拉伯语（突尼斯）的 Hedi、ar-YE 阿拉伯语（也门）的 Maryam、ar-YE 阿拉伯语（也门）的 Saleh、bn-BD 孟加拉语（孟加拉国）的 Nabanita、bn-BD 孟加拉语（孟加拉国）的 Pradeep、en-KE 英语（肯尼亚）的 Asilia、en-KE 英语（肯尼亚）的 Chilemba、en-NG 英语（尼日利亚）的 Ezinne、en-NG 英语（尼日利亚）的 Abeo、en-TZ 英语（坦桑尼亚）的 Imani、en-TZ 英语（坦桑尼亚）的 Elimu、es-BO 西班牙语（玻利维亚）的 Sofia、es-BO 西班牙语（玻利维亚）的 Marcelo、es-CL 西班牙语（智利）的 Catalina、es-CL 西班牙语（智利）的 Lorenzo、es-CR 西班牙语（哥斯达黎加）的 Maria、es-CR 西班牙语（哥斯达黎加）的 Juan、es-CU 西班牙语（古巴）的 Belkys、es-CU 西班牙语（古巴）的 Manuel、es-DO 西班牙语（多米尼加共和国）的 Ramona、es-DO 西班牙语（多米尼加共和国）的 Emilio、es-EC 西班牙语（厄瓜多尔）的 Andrea、es-EC 西班牙语（厄瓜多尔）的 Luis、es-GQ 西班牙语（赤道几内亚）的 Teresa、es-GQ 西班牙语（赤道几内亚）的 Javier、es-GT 西班牙语（危地马拉）的 Marta、es-GT 西班牙语（危地马拉）的 Andres、es-HN 西班牙语（洪都拉斯）的 Karla、es-HN 西班牙语（洪都拉斯）的 Carlos、es-NI 西班牙语（尼加拉瓜）的 Yolanda、es-NI 西班牙语（尼加拉瓜）的 Federico、es-PA 西班牙语（巴拿马）的 Margarita、es-PA 西班牙语（巴拿马）的 Roberto、es-PE 西班牙语（秘鲁）的 Camila、es-PE 西班牙语（秘鲁）的 Alex、es-PR 西班牙语（波多黎各）的 Karina、es-PR 西班牙语（波多黎各）的 Victor、es-PY 西班牙语（巴拉圭）的 Tania、es-PY 西班牙语（巴拉圭）的 Mario、es-SV 西班牙语（萨尔瓦多）的 Lorena、es-SV 西班牙语（萨尔瓦多）的 Rodrigo、es-UY 西班牙语（乌拉圭）的 Valentina、es-UY 西班牙语（乌拉圭）的 Mateo、es-VE 西班牙语（委内瑞拉）的 Paola、es-VE 西班牙语（委内瑞拉）的 Sebastian、fa-IR 波斯语（伊朗）的 Dilara、fa-IR 波斯语（伊朗）的 Farid、fil-PH 菲律宾语（菲律宾）的 Blessica、fil-PH 菲律宾语（菲律宾）的 Angelo、gl-ES 加利西亚语的 Sabela、gl-ES 加利西亚语的 Roi、jv-ID 爪哇语（印度尼西亚）的 Siti、jv-ID 爪哇语（印度尼西亚）的 Dimas、km-KH 高棉语（柬埔寨）的 Sreymom、km-KH 高棉语（柬埔寨）的 Piseth、my-MM 缅甸语（缅甸）的 Nilar、my-MM 缅甸语（缅甸）的 Thiha、so-SO 索马里语（索马里）的 Ubax、so-SO 索马里语（索马里）的 Muuse、su-ID 巽他语（印度尼西亚）Tuti 、su-ID 巽他语（印度尼西亚）的 Jajang、sw-TZ 斯瓦希里语（坦桑尼亚）的 Rehema、sw-TZ 斯瓦希里语（坦桑尼亚）的 Daudi、ta-LK 泰米尔语（斯里兰卡）的 Saranya、ta-LK 泰米尔语（斯里兰卡）的 Kumar、ta-SG 泰米尔语（新加坡）的 Venba、ta-SG 泰米尔语（新加坡）的 Anbu、ur-IN 乌尔都语（印度）的 Gul、ur-IN 乌尔都语（印度）的 Salman、uz-UZ 乌兹别克语（乌兹别克斯坦）的 Madina、uz-UZ 乌兹别克语（乌兹别克斯坦）的 Sardor、zu-ZA 祖鲁语（南非）的 Thando、zu-ZA 祖鲁语（南非）的 Themba。

2021 年 9 月版本

新的聊天机器人语音（en-US英语（美国））：Sara 表示一位年轻女性，其说话风格更随意，最适合聊天机器人场景。
为 ja-JP 日语语音 Nanami 添加的新样式：Nanami 现在提供三种新样式：聊天、客户服务和快乐。
整体发音改进：Ardi id-ID、Premwadee th-TH、Christel da-DK、HoaiMy 和 NamMinh vi-VN。
zh-cn在预览阶段的中文（普通话，中国）中有两种新语音：Xiaochen 和 Xiaoyan，专为自发语音和客户服务场景优化。

2021 年 7 月版本

神经网络文本转语音更新

希伯来语减少了 20% 的发音错误。

Speech Studio 的更新

有声内容创作：修复了“导出”性能问题。

2021 年 6 月版本

Speech Studio 更新

音频内容创建：发布了支持自定义词典的新功能。利用此功能，用户可以轻松地创建其词典文件，并为其音频输出定义自定义发音。

2021 年 5 月版本

为神经 TTS 添加的新语言和语音

引入了 10 种新语言 - 神经 TTS 语言列表中添加了 10 个新区域设置中的 20 种新语音，分别为：Yan en-HK 英语（香港），Sam en-HK 英语（香港），Molly en-NZ 英语（新西兰），Mitchell en-NZ 英语（新西兰），Luna en-SG 英语（新加坡），Wayne en-SG 英语（新加坡），Leah en-ZA 英语（南非），Luke en-ZA 英语（南非），Dhwani gu-IN 古吉拉特语（印度），Niranjan gu-IN 古吉拉特语（印度），Aarohi mr-IN 马拉地语（印度），Manohar mr-IN 马拉地语（印度），Elena es-AR 西班牙语（阿根廷），Tomas es-AR 西班牙语（阿根廷），Salome es-CO 西班牙语（哥伦比亚），Gonzalo es-CO 西班牙语（哥伦比亚），Paloma es-US 西班牙语（美国），Alonso es-US 西班牙语（美国），Zuri sw-KE 斯瓦希里语（肯尼亚），Rafiki sw-KE 斯瓦希里语（肯尼亚）。
预览版中添加十一种新 en-US 语音 - 预览版中有 11 种新 en-US 语音添加到美式英语中，分别为 Ashley、Amber、Ana、Brandon、Christopher、Cora、Elizabeth、Eric、Michelle、Monica、Jacob。
五种zh-cn中文（普通话，简体中文）语音正式发布 - 5 种中文（普通话，简体中文）语音从预览版转为正式发布。分别为 Yunxi、Xiaomo、Xiaoman、Xiaoxuan、Xiaorui。现在，这些语音在所有区域都可以使用。 Yunxi 添加了一种新的“助手”风格，适用于聊天机器人和语音代理。 Xiaomo 的语音风格经过改进，更加自然和富有特色。

2021 年 3 月版本

为神经 TTS 添加的新语言和语音

引入了六种新语言 - 向神经 TTS 语言列表中添加了 6 个新的区域设置中的 12 种新语音：cy-GB 威尔士语（英国）中的 Nia、cy-GB 威尔士语（英国）中的 Aled、en-PH 英语(菲律宾) 中的 Rosa、en-PH 英语(菲律宾) 中的 James、fr-BE 法语(比利时) 中的 Charline、fr-BE 法语(比利时) 中的 Gerard、nl-BE 荷兰语(比利时) 中的 Dena、nl-BE 荷兰语(比利时) 中的 Arnaud、uk-UA 乌克兰语(乌克兰) 中的 Polina、uk-UA 乌克兰语(乌克兰) 中的 Ostap、ur-PK 乌尔都语(巴基斯坦) 中的 Uzma、ur-PK 乌尔都语(巴基斯坦) 中的 Asad。
五种语言从预览版升级到正式版 - 11 月在 5 个区域设置中引入的 10 种语音现在已正式发布：et-EE 爱沙尼亚语（爱沙尼亚）中的 Kert、ga-IE 爱尔兰语（爱尔兰）中的 Colm、lv-LV 拉脱维亚语（拉脱维亚）中的 Nils、lt-LT 立陶宛语（立陶宛）中的 Leonas、mt-MT 马耳他语（马耳他）中的 Joseph。
为法语（加拿大）添加了新的男性语音 - 现在为 fr-CA 法语（加拿大）提供了新语音 Antoine。
质量改进 - 降低了语音错误率：匈牙利语 - 48.17%、hu-HU 挪威语 - 52.76%、nb-NO 荷兰语(荷兰) - 22.11%。

此版本现已支持总共 142 种神经语音，涵盖 60 种语言/地区。此外，在 49 种语言和地区中可使用 70 多种标准语音。有关完整列表，请访问语言支持。

获取人脸姿态事件以创建角色动画

神经网络文本转语音现在包含视素事件。使用视素事件，用户可获取人脸姿态序列和合成语音。视素可以用来控制 2D 和 3D 头像模型的运动，使嘴巴的运动与合成的语音匹配。视素事件目前仅适用于 en-US-AriaNeural 语音。

以语音合成标记语言 (SSML) 添加 bookmark 元素

使用 bookmark 元素可以在 SSML 中插入自定义标记，以获得音频流中每个标记的偏移量。它可用于引用文本或标记序列中的特定位置。

2020 年 12 月版本

正式版和预览版中的新神经语音

发布了 51 种新的语音选项，总计 129 种神经语音，涵盖 54 种语言/区域：

GA 区域设置中的 46 个新声音：Shakir 在ar-EG 阿拉伯语（埃及）、Hamed 在阿拉伯语（沙特阿拉伯）、Borislav 在ar-SA 保加利亚语（保加利亚）、Joana 在bg-BG 加泰罗尼亚语中、Antonin 在ca-ES 捷克语（捷克共和国）、Jeppe 在cs-CZ 丹麦语（丹麦）、Jonas 在da-DK 德语（奥地利）、Jan 在de-AT 德语（瑞士）、Nestoras 在de-CH 希腊语（希腊）、Liam 在el-GR 英语（加拿大）、Connor 在en-CA 英语（爱尔兰）、Madhur 在en-IE 印地语（印度）、Mohan 在en-IN 泰卢固语（印度）、Prabhat 在en-IN 英语（印度）、Valluvar 在en-IN 泰米尔语（印度）、Enric 在en-IN 加泰罗尼亚语、Kert 在es-ES 爱沙尼亚语（爱沙尼亚）、Harri 在et-EE 芬兰语（芬兰）、 Selma 在fi-FI 芬兰语（芬兰）、Fabrice 在fi-FI 法语（瑞士）、Colm 在fr-CH 爱尔兰语（爱尔兰）、Avri 在ga-IE 希伯来语（以色列）、Srecko 在he-IL 克罗地亚语（克罗地亚）、Tamas 在hr-HR 匈牙利语（匈牙利）、Gadis 在hu-HU 印尼语（印度尼西亚）、Leonas 在id-ID 立陶宛语（立陶宛）、Nils 在lt-LT 拉脱维亚语（拉脱维亚）、Osman 在lv-LV 马来语（马来西亚）、Joseph 在ms-MY 马耳他语（马耳他）、Finn 在mt-MT 挪威语，Bokmål（挪威）、Pernille 在nb-NO 挪威语，Bokmål（挪威）、Fenna 在nb-NO 荷兰语（荷兰）、Maarten 在nl-NL 荷兰语（荷兰）、Agnieszka 在nl-NL 波兰语（波兰）、Marek 在pl-PL 波兰语（波兰）、Duarte 在pl-PL 葡萄牙语（巴西）、Raquel 在pt-BR 葡萄牙语（葡萄牙）、Emil 在pt-PT 罗马尼亚语（罗马尼亚）、Dmitry 在ro-RO 俄语（俄罗斯）、 Svetlana 在ru-RU 俄语（俄罗斯）、Lukas 在ru-RU 斯洛伐克语（斯洛伐克）、Rok 在sk-SK 斯洛文尼亚语（斯洛文尼亚）、Mattias 在sl-SI 瑞典语（瑞典）、Sofie 在sv-SE 瑞典语（瑞典）、Niwat 在sv-SE 泰语（泰国）、Ahmet 在th-TH 土耳其语（土耳其）、NamMinh 在tr-TR 越南语（越南）、HsiaoChen 在vi-VN 台湾普通话（台湾，中国省）、YunJhe 在zh-TW 台湾普通话（台湾，中国省）、HiuMaan 在zh-TW 粤语（中国香港特别行政区）、WanLung 在zh-HK 粤语（中华人民共和国香港特别行政区）。
预览版区域设置中的 5 种新语音：et-EE 爱沙尼亚语（爱沙尼亚）中的 Kert、ga-IE 爱尔兰语（爱尔兰）中的 Colm、lv-LV 拉脱维亚语（拉脱维亚）中的 Nils、lt-LT 立陶宛语（立陶宛）中的 Leonas、mt-MT 马耳他语（马耳他）中的 Joseph。

此版本更新现在支持 54 种语言/地区的 129 种神经语音。此外，在 49 种语言和地区中可使用 70 多种标准语音。有关完整列表，请访问语言支持。

音频内容创作更新

通过语音类别和详细的语音说明改善了语音选择 UI。
针对所有不同语言的神经语音启用了语调调节功能。
根据浏览器的语言自动执行了 UI 本地化。
已为所有 StyleDegree 神经网络语音启用 zh-cn 控件。若要查看新功能，请访问音频内容创建工具。

简体中文语音的更新

已将所有 zh-cn 神经网络语音更新以支持英语。
已启用所有 zh-cn 神经语音以支持语调调整。可以使用 SSML 或音频内容创建工具进行调整以获取最佳语调。
已更新所有 zh-cn 多样式神经网络语音以支持 StyleDegree 控件。可调整情感强度（弱或强）。
已更新 zh-cn-YunyeNeural 以支持多种风格，这些风格可以表现不同的情感。

2020 年 11 月版本

新功能

支持 SSML 无声标记。
一般性的 TTS 语音质量改进：在 nb-NO 中改进了单词级别的发音准确度。将发音错误减小了 53%。

有关详细信息，请参阅此技术博客。

2020 年 10 月版本

新功能

Jenny 支持新的 newscast 样式。请参阅如何在 SSML 中使用说话风格。
神经语音已升级为 HiFiNet vocoder，具有更高的音频保真度和更快的合成速度。这使那些方案依赖于高保真音频或长时间交互（包括视频翻译、有声书籍或在线教育材料）的客户受益。在我们的技术社区博客上详细了解该内容并收听语音样本
音频内容创建：为 XiaoxiaoNeural 添加了样式度控件；优化了自定义中断功能，使之包括 50 毫秒的增量中断。

一般性的 TTS 语音质量改进

提高了以下语言单词级别发音的准确度：pl-PL（错误率降低：51%）和 fi-FI（错误速率降低：58%）
改进了字典方案的 ja-JP 单个字词阅读功能。将发音错误减小了 80%。
zh-cn-XiaoxiaoNeural：改进了情绪/客户服务/新闻广播/快乐/愤怒风格的语音质量。
zh-cn：改进了 Erhua 发音和轻声，优化了空间韵律，从而大大提高了清晰度。

2020 年 9 月版本

新功能

神经网络文本转语音
- 已扩展以支持 18 种新语言/区域设置。 它们分别是：保加利亚语、捷克语、德语（奥地利）、德语（瑞士）、希腊语、英语（爱尔兰）、法语（瑞士）、希伯来语、克罗地亚语、匈牙利语、印度尼西亚语、马来语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、泰米尔语、泰卢固语和越南语。
- 发布了 14 种新语音，以丰富现有语言的多样性。 参阅完整语言和语音列表。
- en-US 和 zh-cn 语音的新说话风格。 在美国英语区域设置中，Jenny 支持聊天机器人、客户服务和助理风格的语音。我们的简体中文语音 XiaoXiao 提供 10 种新的说话风格。此外，XiaoXiao 神经语音支持 StyleDegree 优化。请参阅如何在 SSML 中使用说话风格。

阅读 Ignite 2020 TTS 更新的完整公告

2020 年 8 月版本

新功能

神经网络文本转语音：为 en-US Aria 语音添加了新的说话风格。播报新闻时，AriaNeural 听起来像新闻播音员。 “newscast-formal”风格听起来更严肃，而“newscast-casual”风格则更为放松和随意。请参阅如何在 SSML 中使用说话风格。
音频内容创建：一组新功能，可实现更强大的语音优化和音频管理功能。
- 发音：将发音优化功能更新为最新的音素集。可以从库中选取正确的音素元素，并优化所选字词的发音。
- 下载：音频“下载”/“导出”这一功能得到增强，支持按段落生成音频。可以编辑同一文件/SSML 中的内容，同时生成多个音频输出。 “下载”的文件结构也得到了完善。现在，可以轻松将所有音频文件保存在一个文件夹中。
- 任务状态：多文件导出体验得到改善。过去导出多个文件时，如果其中一个文件失败，则整个任务将失败。但现在，所有其余文件都将成功导出。任务报表中包含了更加详细和结构化的信息。可以通过报表查看所有失败文件和句子的记录。
- SSML 文档：链接到 SSML 文档，帮助您检查关于如何运用所有调节功能的规则。
语音列表 API 已更新，现包含易记的显示名称和神经网络语音支持的说话风格。

一般性的 TTS 语音质量改进

降低了单词级别发音错误 %：ru-RU（错误减少 56%）、sv-SE（错误减少 49%）
对 en-US 神经网络语音的复音词读取能力提高了 40%。复音词的示例包括“read”、“live”、“content”、“record”、“object”等。
使 fr-FR 中的疑问语气更加自然。 MOS（平均意见得分）增益：+0.28
更新了以下语音的声码器，提高了保真度，并使整体性能提升了40%。

地区 Voice

en-GB 米娅

es-MX 达利亚

fr-CA 西尔维

fr-FR 丹尼斯

ja-JP Nanami

ko-KR 森喜

地区	Voice
`en-GB`	米娅
`es-MX`	达利亚
`fr-CA`	西尔维
`fr-FR`	丹尼斯
`ja-JP`	Nanami
`ko-KR`	森喜

Bug 修复

修复了音频内容创建工具的一些 Bug
- 修复了自动刷新问题。
- 修复了稳定性问题，包括“break”标记的导出错误和标点错误。

语音听录 SDK 正式发布

语音听录 SDK 现已正式发布（版本 1.0.0），适用于 C#、Python、Java 和 JavaScript/TypeScript。 SDK 为语音服务的快速听录和 LLM 语音功能提供了统一客户端。有关详细信息，请参阅什么是语音听录 SDK？。

2026 年 4 月版本

改进了发音评估模型

我们更新了发音评估模型 de-DE，改进了皮尔逊相关系数（PCC），这意味着更精确和更可靠的评估。

更新后的模型可通过 API 使用。

2026 年 3 月版本

Fast Transcription API 现在支持单个音频文件输入的时长最多为 5 小时。

发布日期：2025 年 12 月

语音转文本 5.1.0

已解决的漏洞

2025 年 11 月版本

快速转录功能一般可用。它可以比实际音频时间更快地转录音频。有关详细信息，请参阅快速听录 API 指南。
若要在音频文件中持续准确地听录多语言内容，现在可以使用最新的多语言模型，而无需通过快速听录 API 指定区域设置代码。有关详细信息，请参阅快速转录中的多语言转录。

2025 年 10 月版本

语音转文本 REST API 版本 2025-10-15

语音转文本 REST API 版本 2025-10-15 正式发布。有关详细信息，请参阅语音转文本 REST API 参考文档和语音转文本 REST API 指南。

语音 SDK 的短语列表权重控制

现在，可以在将语音 SDK 与实时听录结合使用时控制短语列表对语音识别结果的影响。使用新的短语列表权重功能，可以设置介于 0.0（已禁用）和 2.0（最大影响）之间的偏差级别，以微调默认字典中接收的优先级短语列表术语数量。有关详细信息，请参阅使用短语列表提高识别准确性。

2025 年 9 月版本

语音转文本 5.0.3-预览

修复了漏洞
支持用户为语音分离设置 Redis 终结点。
STT 后端/前端引擎更新
以前版本 4.12 中支持的区域设置已被纳入覆盖。

2025 年 8 月版本

快速听录中支持的新区域设置

快速听录现在支持其他区域设置，包括 en- 变体（12 个区域设置）、es- 变体（19 个区域设置）和 ar- 变体（13 个区域设置）。有关详细信息，请参阅语音转文本支持的语言。

2025 年 7 月版本

改进了语音转文本模型

英语模型（除 en-* 外的所有 en-IN 模型）已更新，并添加了新的语音活动检测器 (VAD)，有助于将延迟降低 100 毫秒或更多。它可以积极和消极地影响准确性和静音分段，目的是降低延迟。未来几个月将进行进一步的语言扩展。

2025 年 6 月版本

改进了发音评估模型

我们对 ta-IN 和 ms-MY 的发音评估模型进行了重大升级。你会注意到皮尔逊相关系数（PCC）的明显增加，这意味着更精确和更可靠的评估。

这些更新后的模型可以通过 API 和 Microsoft Foundry playground 使用，跟以前一样。

改进了语音转文本模型

在快速听录中，de-DE、en-US、en-GB、es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR 和 zh-cn 语言环境下的语音转文本模型的准确率分别提高了 10%-25%，尤其是在实体的可读性和识别性方面有所提高。

2025 年 5 月版本

改进了语音转文本模型

针对 ta-IN、te-IN、en-IN 和 hu-HU 区域设置的语音转文字模型的准确率分别提高了 5% 至 10%。我们还预计，对于ta-IN和te-IN模型，冗余词数量减少了大约20倍。

快速听录 API - 多语言语音听录

若要在音频文件中连续准确地转录多语言内容，现在可以使用最新的多语言模型，而无需通过快速听录 API 指定区域设置代码。有关详细信息，请参阅快速转录中的多语言转录。

快速听录中支持的新区域设置

快速转录现在支持其他地区，包括 fi-FI、he-IL、id-ID、pl-PL、pt-PT、sv-SE等。有关详细信息，请参阅语音转文本支持的语言。

2025 年 4 月版本

发音评估

我们很高兴地宣布对这些区域设置的发音评估模型的大幅改进：de-DE、、es-MX、it-ITja-JP、 ko-KR和pt-BR。这些增强功能在皮尔逊相关系数（PCC）中取得了显著进展，确保评估更加准确和可靠。

与以前一样，模型通过 API 提供。

2025 年 3 月版本

异步对话听录多声道分割聚类（已停用）

对话转录多通道分割功能于 2025 年 3 月 28 日停用。

若要继续使用语音转文本进行分割聚类，请改用以下功能：

使用分割聚类进行快速听录
使用分割聚类进行批量听录

这些语音转文本功能仅支持单声道音频的分割聚类。不支持用于对话听录多通道分割聚类的多声道音频。

2025 年 1 月版本

新增功能 - 语义分段

宣告发布新功能：语义分段。此功能在解码器中集成标点符号模块，以基于语义信息对音频进行分段，从而产生更符合逻辑和更精准的分段边界。主要优势：

改进了分段准确度：通过利用语义信息，此功能显著减少了由于输入音频中缺少暂停而导致的长片段实例。
降低因分段不足导致的延迟：降低了语音识别的总体延迟，其中 5% 的最长分段的长度减少了 40%-60%。
缓解过度分段：此功能还有助于在可以构造更好的句子时，通过延迟分段来防止过度分段。

支持的语言环境：

英语（en-US、en-GB）
中文（zh-cn，zh-HK）
日语 (ja-JP)
韩语 (ko-KR)
德语 (de-DE)
法语 (fr-FR)
意大利语 (it-IT)
西班牙语（es-ES、es-MX）
印地语 (hi-IN)
葡萄牙语（pt-BR、pt-PT）
土耳其语 (tr-TR)
俄语 (ru-RU)
泰语（th-TH）
印度尼西亚语 (id-ID)

有关实现详细信息，请参阅文档：如何识别语音的“语义分段”部分。

实时语音转文本 - 发布新的英语模型

宣告发布最新的英语语音模型（en-US、en-CA），该模型在各种性能指标方面带来了实质性的改进。下面是此次发布的主要亮点：

辅助功能增强：在 Microsoft 内部辅助功能测试集上达到了词错误率（WER）36% 的下降，使语音识别更加准确和可靠，提高了对语音障碍人士语音的识别能力。
幽灵词减少：在幽灵词开发集上，幽灵词显著减少了90%，在其他幽灵词数据集上的减少范围从63%到100%，显著增强了转录的清晰度和准确性。

新模型还提高了整体性能，包括实体识别和更好地识别拼写的字母。

这些改进预计将为所有用户提供更准确、高效且令人满意的体验。新模型可通过 API 和 Microsoft Foundry 场地获得。鼓励提供反馈以进一步优化其功能。

2024 年 11 月版本

语音转文本 REST API 版本 2024-11-15

语音转文本 REST API 版本 2024-11-15 已正式发布。有关详细信息，请参阅语音转文本 REST API 参考文档和语音转文本 REST API 指南。

注意

语音转文本 REST API 版本 2024-05-15-preview 已弃用。

快速听录 (GA)

快速听录现已通过语音转文本 REST API 版本 2024-11-15 正式发布。通过快速转录，您可以以高速度准确同步地将音频文件转录为文本。它可以比实际音频的时长更快地转录音频。有关详细信息，请参阅快速听录 API 指南。

2024 年 10 月版本

实时语音转文本（双语）

通过 es-US 双语模型，对短西班牙语术语的识别质量有了显著改善。该模型是双语的，也支持英语。英语识别的质量也得到了提高。

2024 年 9 月版本

实时语音转文本

实时语音转文本发布了以下语言的新模型，质量更佳。

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

快速听录（预览版）

快速听录现在支持差异化以识别和区分单声道音频文件中的多个说话者。有关详细信息，请参阅快速听录 API 指南。

2024 年 8 月版本

语言学习（预览版）

语言学习现在以公共预览版提供。交互式语言学习可让你的学习体验变得更加有趣和有效。有关详细信息，请参阅带有发音评估的交互式语言学习。

发音评估

语音发音评估现在支持 33 种正式发布的语言，每种语言均可在所有语音转文本区域使用。有关详细信息，请参阅发音评估的完整语言列表。

语言	区域设置 (BCP-47)
阿拉伯语（埃及）	`ar-EG`
阿拉伯语(沙特阿拉伯)	`ar-SA`
加泰罗尼亚语	`ca-ES`
中文(粤语，繁体)	`zh-HK`
中文（普通话，简体）	`zh-cn`
中文（台湾普通话，繁体）	`zh-TW`
丹麦语（丹麦）	`da-DK`
荷兰语（荷兰）	`nl-NL`
英语（澳大利亚）	`en-AU`
英语（加拿大）	`en-CA`
英语（印度）	`en-IN`
英语（英国）	`en-GB`
美国英语	`en-US`
芬兰语（芬兰）	`fi-FI`
法语（加拿大）	`fr-CA`
法语(法国)	`fr-FR`
德语（德国）	`de-DE`
印地语（印度）	`hi-IN`
意大利语（意大利）	`it-IT`
日语（日本）	`ja-JP`
韩语(韩国)	`ko-KR`
马来语（马来西亚）	`ms-MY`
挪威书面语Bokmål（挪威）	`nb-NO`
波兰语（波兰）	`pl-PL`
葡萄牙语（巴西）	`pt-BR`
葡萄牙语(葡萄牙)	`pt-PT`
俄语（俄罗斯）	`ru-RU`
西班牙语（墨西哥）	`es-MX`
西班牙语(西班牙)	`es-ES`
瑞典语（瑞典）	`sv-SE`
泰米尔语（印度）	`ta-IN`
泰语（泰国）	`th-TH`
越南语(越南)	`vi-VN`

2024 年 7 月版本

快速听录 API（预览版）

快速听录现在以公共预览版提供。通过快速转录，您可以以高速度准确同步地将音频文件转录为文本。它可以比实际音频的时长更快地转录音频。有关详细信息，请参阅快速听录 API 指南。

2024 年 6 月版本

语音转文本 REST API v3.2 正式发布

语音转文本 REST API 版本 3.2 现已正式发布。有关语音转文本 REST API v3.2 的详细信息，请参阅语音转文本 REST API v3.2 参考文档和语音转文本 REST API 指南。

注意

预览版 3.2-preview.1 和 3.2-preview.2 于 2024 年 9 月停用。

语音转文本 REST API v3.1 和 v3.0 已于 2026 年 3 月 31 日停用。有关升级的详细信息，请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。

2024 年 5 月版本

发音评估

语音发音评估现在正式支持 24 种语言（添加了 1 种新语言），另外，对 7 种语言的支持推出了公共预览版。有关详细信息，请参阅发音评估的完整语言列表。

语音转文本模型更新

实时语音转文本已发布具有双语功能的新模型。 en-IN 模型现在支持英语和印地语双语方案，并提高了准确性。阿拉伯语区域设置（ar-AE、ar-BH、ar-DZ、ar-IL、ar-IQ、ar-KW、ar-LB、ar-LY、ar-MA、ar-OM、ar-PS、ar-QA、ar-SA、ar-SY、ar-TN、ar-YE）现在都具有双语英语支持、更高的准确性和呼叫中心支持。

批量转录为以下语言环境提供具有新体系结构的模型：es-ES、es-MX、fr-FR、it-IT、ja-JP、ko-KR、pt-BR 和 zh-cn。这些模型显著改善了可读性和实体识别。

2024 年 2 月版本

发音评估

语音发音评估现在正式支持 23 种语言（添加了 5 种新语言），另外，对 3 种语言的支持推出了公共预览版。有关详细信息，请参阅发音评估的完整语言列表。

短语列表

添加了对以下区域设置的短语列表支持：ar-SA、de-CH、en-IE、en-ZA、es-US、id-ID、nl-NL、pl-PL、pt-PT、ru-RU、sv-SE、th-TH、vi-VN、zh-HK、zh-TW。

2023 年 11 月版本

双语语音建模简介！

我们很高兴能够为我们的实时语音建模（双语语音建模）提供开创性补充。这一显著增强功能使我们的语音模型能够无缝支持双语语言对，如英语和西班牙语以及英语和法语。这一功能使用户能够在实时交互过程中轻松切换语言，这标志着我们致力于增强沟通体验的关键时刻。

主要亮点：

双语支持：通过我们的最新版本，用户可以在实时语音交互期间在英语和西班牙语之间或英语和法语之间无缝切换。此功能是为适应经常在这两种语言之间转换的双语使用者而量身定制的。
增强的用户体验：无论是在工作、家庭还是在各种社区环境中，双语使用者都会发现此功能非常有益。该模型能够实时理解和响应英语和西班牙语，为有效和流畅的沟通开辟了新的可能性。

如何使用：

调用语音服务 API 或在 Speech Studio 上试用时，请选择 es-US（西班牙语和英语）或 fr-CA（法语和英语）。可以随意使用任何一种语言或将它们混合在一起 — 该模型旨在动态调整，以两种语言提供准确和上下文感知的响应。

是时候使用我们最新发布的功能提升你的沟通游戏了 — 无缝多语言沟通触手可及！

语音转文本模型更新

我们很高兴能对语音模型进行重大更新，承诺增强的准确度、提高可读性和改进实体识别。这一升级带来了强大的新结构，并得到了扩展的定型数据集的支持，确保了整体性能的显著提升。它包括新发布的 en-US、zh-cn、ja-JP、it、pt-BR、es-MX、es-ES、fr-FR、de-DE、ko-KR、tr-TR、sv-SE 和 he-IL 的模型。

亮点：

使用新的模型结构提高了准确度：重新定义的模型结构，加上更丰富的训练数据集，提高了准确度水平，有望实现更精确的语音输出。
可读性提高：最新模型大大提高了可读性，增强了口语内容的连贯性和清晰度。
高级实体识别：实体识别得到了实质性的升级，产生了更准确、更细致的结果。

潜在影响：尽管取得了这些进步，但重要的是要注意潜在影响：

自定义静音超时功能：使用自定义静音超时的用户，尤其是设置较低超时的用户，可能会遇到单字短语的过度分段和潜在的遗漏问题。
新模型可能与关键字前缀功能存在兼容性问题，建议用户评估其在特定应用程序中的性能。
减少了不流畅的单词或短语：用户可能会注意到语音输出中“嗯”或“呃”等不流畅的词或短语减少了。
单词时间戳持续时间不准确：一些不流畅的单词可能在时间戳持续期间显示不准确，需要在依赖于精确时间的应用中引起注意。
可信度分数分布差异：依赖可信度得分和相关阈值的用户应该意识到分布中的潜在变化，需要进行调整以获得最佳性能。
短语列表特征的准确度增强可能会受到某些短语错误识别的影响。

我们鼓励探索这些改进，并考虑无缝过渡的潜在问题，一如既往，你的反馈有助于改进和推进我们的服务。

发音评估

语音发音评估现在支持 18 种语言，还有 6 种语言可供公众预览。有关详细信息，请参阅发音评估的完整语言列表。
我们很高兴地宣布，发音评估将从 2023 年 11 月 1 日开始引入新功能：韵律、语法、词汇和主题。这些增强功能旨在为阅读和说话评估提供更全面的语言学习体验。升级到 SDK 1.35.0 或更改版本，在如何使用发音评估和 Speech Studio 中的发音评估中浏览更多详细信息。

语音转文本 REST API v3.2 公共预览版

语音转文本 REST API v3.2 以预览版提供。语音转文本 REST API v3.1 已正式发布。语音转文本 REST API v3.0 已于 2026 年 3 月 31 日停用。有关详细信息，请参阅语音转文本 REST API v3.0 到 v3.1 和 v3.1 到 v3.2 迁移指南。

2023 年 8 月版

新的语音转文本区域设置：

语音转文本支持两个新的语言地区，如下表所示。在此处查看完整的语言列表。

地区	语言
`pa-IN`	旁遮普语（印度）
`ur-IN`	乌尔都语（印度）

发音评估

语音发音评估现在支持英语（加拿大）、英语（印度）和法语（加拿大）中一般可用的 3 种其他语言，预览版中还可以使用另外 3 种语言。有关详细信息，请参阅发音评估的完整语言列表。

2023 年 5 月版本

发音评估

语音发音评估现在以正式版形式支持额外 3 种语言 - 德语（德国）、日语（日本）和西班牙语（墨西哥），还有另外 4 种语言在预览版中可用。有关详细信息，请参阅发音评估的完整语言列表。
现在，可在所有公共区域使用标准语音转文本承诺层级进行发音评估。如果你购买了标准语音转文本的承诺层级，则用于发音评估的支出将用于满足承诺。请参阅承诺层级定价。

2023 年 2 月版本

发音评估

语音发音评估现在支持 5 种其他语言，正式版本提供英语（英国）、英语（澳大利亚）、法语（法国）、西班牙语（西班牙）和中文（普通话、简体），预览版本提供其他语言。
新增了示例代码，演示如何在自己的应用程序中使用流式处理模式下的发音评估。
- C#：请参阅示例代码。
- C++：请参阅示例代码。
- java：请参阅 sample code。
- javascript：请参阅示例代码。
- Objective-C：请参阅示例代码。
- Python：请参阅示例代码。
- Swift：请参阅示例代码。

自定义语音

为 de-AT 区域设置添加了对音频和人工标记转录的支持。

2023 年 1 月版本

自定义语音

为更多语言区域添加了对音频 + 人工标记的转录的支持：ar-BH、ar-DZ、ar-EG、ar-MA、ar-SA、ar-TN、ar-YE 和 ja-JP。

为 de-AT 区域设置添加了对结构化文本改编的支持。

2022 年 12 月版本

语音转文本 REST API

语音转文本的 REST API 版本 3.1 已正式发布。语音转文本 REST API 版本 3.0 即将停用。若要详细了解如何进行迁移，请参阅指南。

2022 年 10 月版本

新的语音转文本区域设置

添加了 ml-IN 区域设置的马拉雅拉姆语（印度）的支持。在此处查看完整的语言列表。

2022 年 7 月版本

新的语音转文本区域设置：

增加了 7 个新区域设置，如下表所示。在此处查看完整的语言列表。

地区	语言
`bs-BA`	波斯尼亚语（波斯尼亚和黑塞哥维那）
`yue-CN`	中文（粤语，简体中文）
`zh-cn-sichuan`	中文（西南普通话，简体）
`wuu-CN`	中文（吴语，简体）
`ps-AF`	普什图语（阿富汗）
`so-SO`	索马里语（索马里）
`cy-GB`	威尔士语（英国）

2022 年 6 月版本

新的语音转文本区域设置：

增加了 10 个新区域设置，如下表所示。在此处查看完整的语言列表。

地区	语言
`sq-AL`	阿尔巴尼亚语（阿尔巴尼亚）
`hy-AM`	亚美尼亚语（亚美尼亚）
`az-AZ`	阿塞拜疆语（阿塞拜疆）
`eu-ES`	巴斯克语
`gl-ES`	加利西亚语
`ka-GE`	格鲁吉亚语（格鲁吉亚）
`it-CH`	意大利语（瑞士）
`kk-KZ`	哈萨克语（哈萨克斯坦）
`mn-MN`	蒙古语（蒙古）
`ne-NP`	尼泊尔语（尼泊尔）

2022 年 4 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

地区	语言
`bn-IN`	孟加拉语（印度）

2022 年 1 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

地区	语言
`af-ZA`	南非语（南非）
`am-ET`	阿姆哈拉语（埃塞俄比亚）
`de-CH`	德语（瑞士）
`fr-BE`	法语（比利时）
`is-IS`	冰岛语（冰岛）
`jv-ID`	爪哇语（印度尼西亚）
`km-KH`	高棉语(柬埔寨)
`kn-IN`	卡纳达语（印度）
`lo-LA`	老挝语(老挝)
`mk-MK`	马其顿语（北马其顿）
`my-MM`	缅甸语(缅甸)
`nl-BE`	荷兰语（比利时）
`si-LK`	僧伽罗语（斯里兰卡）
`sr-RS`	塞尔维亚语（塞尔维亚）
`sw-TZ`	斯瓦希里语（坦桑尼亚）
`uk-UA`	乌克兰语(乌克兰)
`uz-UZ`	乌兹别克语（乌兹别克斯坦）
`zu-ZA`	祖鲁语（南非）

2021 年 7 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

地区	语言
`ar-DZ`	阿拉伯语（阿尔及利亚）
`ar-LY`	阿拉伯语（利比亚）
`ar-MA`	阿拉伯语（摩洛哥）
`ar-TN`	阿拉伯语（突尼斯）
`ar-YE`	阿拉伯语（也门）
`bg-BG`	保加利亚语(保加利亚)
`el-GR`	希腊语(希腊)
`et-EE`	爱沙尼亚语(爱沙尼亚)
`fa-IR`	波斯语（伊朗）
`ga-IE`	爱尔兰语（爱尔兰）
`hr-HR`	克罗地亚语（克罗地亚）
`lt-LT`	立陶宛语(立陶宛)
`lv-LV`	拉脱维亚语(拉脱维亚)
`mt-MT`	马耳他语（马耳他）
`ro-RO`	罗马尼亚语(罗马尼亚)
`sk-SK`	斯洛伐克语（斯洛伐克）
`sl-SI`	斯洛文尼亚语（斯洛文尼亚）
`sw-KE`	斯瓦希里语（肯尼亚）

2021 年 1 月版本

新的语音转文本区域设置：

下面是新区域设置的列表。在此处查看完整的语言列表。

地区	语言
`ar-AE`	阿拉伯语（阿拉伯联合酋长国）
`ar-IL`	阿拉伯语（以色列）
`ar-IQ`	阿拉伯语（伊拉克）
`ar-OM`	阿拉伯语（阿曼）
`ar-PS`	阿拉伯语（巴勒斯坦权力机构）
`de-AT`	德语（奥地利）
`en-GH`	英语（加纳）
`en-KE`	英语（肯尼亚）
`en-NG`	英语（尼日利亚）
`en-TZ`	英语（坦桑尼亚）
`es-GQ`	西班牙语（赤道几内亚）
`fil-PH`	菲律宾语（菲律宾）
`fr-CH`	法语（瑞士）
`he-IL`	希伯来语（以色列）
`id-ID`	印度尼西亚语(印度尼西亚)
`ms-MY`	马来语（马来西亚）
`vi-VN`	越南语(越南)

2020 年 8 月版本

新增语音转文本的区域设置：

语音转文本在 8 月份发布了 26 个新的区域设置：2 个欧洲语言（cs-CZ 和 hu-HU），5 个英语区域设置，以及涵盖大部分南美国家/地区的 19 个西班牙语区域设置。下面是新区域设置的列表。在此处查看完整的语言列表。

地区	语言
`cs-CZ`	捷克语（捷克共和国）
`en-HK`	英语（中国香港特别行政区）
`en-IE`	英语（爱尔兰）
`en-PH`	英语（菲律宾）
`en-SG`	英语（新加坡）
`en-ZA`	英语（南非）
`es-AR`	西班牙语（阿根廷）
`es-BO`	西班牙语（玻利维亚）
`es-CL`	西班牙语（智利）
`es-CO`	西班牙语（哥伦比亚）
`es-CR`	西班牙语（哥斯达黎加）
`es-CU`	西班牙语（古巴）
`es-DO`	西班牙语（多米尼加共和国）
`es-EC`	西班牙语（厄瓜多尔）
`es-GT`	西班牙语（危地马拉）
`es-HN`	西班牙语（洪都拉斯）
`es-NI`	西班牙（尼加拉瓜）
`es-PA`	西班牙语（巴拿马）
`es-PE`	西班牙语（秘鲁）
`es-PR`	西班牙语（波多黎各）
`es-PY`	西班牙语（巴拉圭）
`es-SV`	西班牙语（萨尔瓦多）
`es-US`	西班牙语（美国）
`es-UY`	西班牙语（乌拉圭）
`es-VE`	西班牙语（委内瑞拉）
`hu-HU`	匈牙利语(匈牙利)

2025 年 6 月版本

神经文本转语音 3.11.0

添加了对新神经语音的支持：de-DE-SeraphinaMultilingualNeural、es-ES-XimenaMultilingualNeural、fi-FI-SelmaNeural、nb-NO-FinnNeural。
添加了对多语言自定义词典的支持。

2025 年 5 月发布

添加了对最新模型版本的支持：

对于文本转语音：

更新了文本到语音的后端和前端引擎到最新版本。
添加了对多语言自定义词典的支持。
改进了运行状况检查功能。健康检查端点现在是 /synthesize/health。服务正常时，此终结点返回 HTTP 状态 200;如果服务运行不正常，则返回 HTTP 状态 503。
将基础映像更新到 AspNet 8.0.16，以解决 2025 年 3 月/4 月Microsoft ASP.NET Core安全更新中的安全漏洞。

2025 年 3 月发布

添加了对最新模型版本的支持：

神经文本转语音 3.9.0
语音转文本 5.0.1 （预览版）
自定义语音转文本 5.0.1 （预览版）

对于语音转文本和自定义语音转文本，包括以下功能：

支持新的语音转文本模型
操作系统更改为 Azure Linux 3.0
支持新区域设置：ar-dz、as-in、es-gq 或 in、pa-in 和 your-in
解码器更新
能够在容器中使用较新的自定义模型（2023+）

对于文本转语音，添加了对新神经语音的支持： en-GB-OliviaNeural和 en-US-ChristopherNeuralnl-NL-FennaNeural。

2025 年 2 月版

添加了对最新模型版本的支持：

语音语言识别 1.18.0
神经文本转语音 3.7.0
语音转文本 4.12.0
自定义语音转文本 4.12.0

以下是版本的亮点：

功能更新	语音转文本	自定义语音转文本	神经网络文本转语音	语音语言识别
漏洞修复	✅	✅	✅	✅
已将 OS 从 Ubuntu 20.04 迁移到 Ubuntu 22.04	✅	✅	✅	✅
新区域设置：ar-ly、fr-be、nl-be 及 uz-uz	✅	✅
更新了“nuget”包和 Go 版本	✅	✅
添加了模型下载并行化以减少模型下载时间	✅	✅	✅

2024 年 10 月版本

添加了对最新模型版本的支持：

语音语言识别 1.16.0
神经网络文本转语音 3.5.0
- 将 en-us-ariacpuneural 设置为 en-us-jessacpuneural 的别名
- 更新文本转语音后端引擎版本
语音转文本 4.10.0
- 恢复对 uk-UA 语言环境的支持
- 修复静音设置，以处理音频中长时间的静音
- 替换已弃用的模型：cs-CZ、da-DK、en-GB、fr-CA、hu-HU、it-CH、tr-TR、zh-cn-sichuan
自定义语音转文本 4.10.0

2024 年 9 月版本

添加了对最新模型版本的支持：

语音语言识别 1.15.0
- 缓解漏洞问题
神经网络文本转语音 3.4.0
- 新语音：en-us-andrewmultilingualneural、en-us-jessaneural、es-us-alonsoneural、es-us-palomaneural、it-it-isabellamultilingualneural
- 缓解漏洞问题
语音转文本 4.9.0
- 新区域设置：ar-YE、af-ZA、am-ET、ar-MA、ar-TN、sw-KE、sw-TZ、zu-ZA
- 缓解漏洞问题
- 更新已弃用的模型
自定义语音转文本 4.9.0
- 缓解漏洞问题

2024 年 8 月版

添加了对最新模型版本的支持：

语音语言识别 1.14.0
- 升级 .NET 8.0
- 缓解漏洞问题
神经网络文本转语音 3.3.0
- 升级 .NET 8.0
- 缓解漏洞问题
语音转文本 4.8.0
- 升级 .NET 8.0
- 缓解漏洞问题
- 升级识别引擎
- 修复 PropertyId.Speech_SegmentationSilenceTimeoutMs 被忽略的问题。
- 更新已弃用的模型
- 删除 uk-UA 区域设置

2024 年 2 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.6.0
语音转文本 4.6.0
神经网络文本转语音 3.1.0

将语音转文本组件升级到最新版本。将所有 es 区域设置模型升级到最新版本。增加语音转文本用例的媒体转换缓冲区。

2023 年 11 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.5.0
语音转文本 4.5.0
神经网络文本转语音 2.19.0

2023 年 10 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.4.0
语音转文本 4.4.0
神经网络文本转语音 2.18.0

修复多个高风险漏洞问题。

移除容器中的冗余日志。

将内部媒体组件升级到最新版本。

添加对语音 en-IN-NeerjaNeural 的支持。

2023 年 9 月版本

添加了对最新模型版本的支持：

语音语言识别 1.12.0
自定义语音转文本 4.3.0
语音转文本 4.3.0
神经网络文本转语音 2.17.0

将自定义语音转文本和语音转文本升级到最新框架。

修复漏洞问题。

添加对语音 ar-AE-FatimaNeural 的支持。

2023 年 7 月版

添加了对最新模型版本的支持：

自定义语音转文本 4.1.0
语音转文本 4.1.0
神经网络文本转语音 2.15.0

修复使用本地自定义模型文件通过 docker 装载选项运行语音转文本容器的问题。

修复在某些情况下 RECOGNIZING 事件不会通过语音 SDK 在响应中显示的问题。

修复漏洞问题。

2023 年 6 月版本

添加了对最新模型版本的支持：

自定义语音转文本 4.0.0
语音转文本 4.0.0
神经网络文本转语音 2.14.0

本地语音转文本图像升级到 .NET 6.0

升级用于语言环境的显示模型，包括 en-us、ar-eg、ar-bh、ja-jp、ko-kr 等。

升级语音转文本容器组件以解决漏洞问题。

添加对以下区域设置语音的支持：de-DE-AmalaNeural、de-AT-IngridNeural、de-AT-JonasNeural 和 en-US-JennyMultilingualNeural

2023 年 5 月版本

添加了对最新模型版本的支持：

自定义语音转文本 3.14.0
语音转文本 3.14.0
神经网络文本转语音 2.13.0

修复 he-IL 标点问题

修复漏洞问题

添加新的区域语音 en-US-MichelleNeural 和 es-MX-CandelaNeural

2023 年 4 月版本

安全更新

修复漏洞问题

2023 年 3 月版

添加了对最新模型版本的支持：

自定义语音转文本 3.12.0
语音转文本 3.12.0
语音语言识别 1.11.0
神经网络文本转语音 2.11.0

修复漏洞问题

修复 tr-TR 大写问题

升级语音转文本 en-US 显示模式

添加对 ar-AE-HamdanNeural 标准语音的支持。

2023 年 2 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.11.0
语音转文本 3.11.0
神经网络文本转语音 2.10.0

修复漏洞问题

定期升级语音模型

添加新的阿拉伯语区域设置：

ar-IL
ar-PS

升级希伯来语和土耳其语显示模型

2023 年 1 月版

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.10.0
语音转文本 3.10.0
神经网络文本转语音 2.9.0

修复假设模式问题

修复 HTTP 代理问题

自定义语音转文字容器脱机模式

向 TTS 前端添加 CNV 断开连接容器支持

添加对以下本地化语音配置的支持：

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

2022 年 12 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.9.0
语音转文本 3.9.0
神经网络文本转语音 2.8.0

修复 ipv4/ipv6 问题

修复漏洞问题

2022 年 11 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.8.0
语音转文本 3.8.0
神经网络文本转语音 2.7.0

2022 年 10 月版本

新容器版本

添加了对最新模型版本的支持：

自定义语音转文本 3.7.0
语音转文本 3.7.0
神经网络文本转语音 2.6.0

2022 年 9 月版本

语音转文本 3.6.0-amd64

添加对最新模型版本的支持。

添加对以下区域设置的支持：

az-az
bn-in
bs-ba
cy-gb
eu-es
fa-ir
gl-es
he-il
hy-am
it-ch
ka-ge
kk-kz
mk-mk
mn-mn
ne-np
ps-af
so-so
sq-al
wuu-cn
粤-cn
zh-cn-四川

每月定期更新，包括安全升级和漏洞修复。

自定义语音转文本 3.6.0-amd64

每月定期更新，包括安全升级和漏洞修复。

神经网络文本转语音 v2.5.0

添加对这些标准语音的支持：

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

每月定期更新，包括安全升级和漏洞修复。

2022 年 5 月版本

语音语言检测容器 v1.9.0-amd64-preview

语音语言检测的错误修复。

2022 年 1 月版

语音转文本容器 v3.0.0

添加了在断开连接的环境中使用容器的支持。

语音转文本容器 v2.18.0

每月定期更新，包括安全升级和漏洞修复。

神经网络-神经网络文本转语音容器 v1.12.0

添加对这些标准语音的支持： am-et-amehaneural、 am-et-mekdesneural、 so-so-muuseneural和 so-so-ubaxneural。

每月定期更新，包括安全升级和漏洞修复。

Last updated on 2026-06-12