Q: 基础模型和自定义语音转文本模型之间有什么区别？

基线语音转文本模型已使用 Azure 拥有的数据定型，并且已部署在云中。 你可以创建和使用自定义模型来更好地适应具有特定环境噪音或语言的环境。 工厂、汽车或嘈杂的街道需要适应的声学模型。 生物学、物理学、放射学、产品名称和自定义首字母缩略词等主题需要适应的语言模型。 如果要训练自定义模型，则应首先添加相关文本来改进对特殊术语和短语的识别。

Q: 如果想要使用基础模型，从何处开始？

首先，在 Azure 门户 中获取 API 密钥和区域。 如果要对预先部署的基础模型进行 REST 调用，请参阅 REST API 文档。 如果要使用 WebSocket，请 下载语音 SDK 。

Q: 是否始终需要生成自定义语音模型？

不能。 如果应用程序使用通用的日常语言，则无需自定义模型。 如果应用程序用于背景噪音很小或无背景噪音的环境，则无需自定义模型。 你可以在门户中部署基线模型和自定义模型，并针对这些模型运行准确度测试。 可以使用此功能衡量基础模型与自定义模型的准确度。

Q: 如何知道何时完成数据集或模型的处理？

目前，唯一可以了解的途径是查看表中模型或数据集的状态。 处理完成后，状态是“成功” 。

Q: 能否创建多个模型？

集合中可以拥有的模型数量没有限制。

Q: 我意识到自己犯了一个错误。 如何取消正在进行的数据导入或模型创建？

当前无法回滚声学或语言适应过程。 可以在导入的数据和模型处于终点状态时删除它们。

Q: 我针对每个短语获得了采用详细输出格式的多个结果。 应使用哪种方法？

始终采用第一个结果，即使另一个结果（“N-最佳”）可能具有更高的置信度值。 语音服务认为第一个结果是最佳的。 如果未识别出语音，则结果也可以是空字符串。 其他结果可能更糟，可能没有应用完整的大写和标点。 这些结果在特殊情况下非常有用，例如，为用户提供选项来从列表中选取更正项或处理错误识别的命令。

Q: 为什么有多个基础模型？

你可以从语音服务的多个基础模型中进行选择。 每个模型名称都包含添加它的日期。 开始训练自定义模型时，请使用最新模型以获取最佳准确度。 有新模型可用之后，较旧的基础模型在一段时间内仍可供使用。 可以继续使用所使用的模型，直到它被停用（请参阅 模型和终结点生命周期 ）。 仍建议切换到最新的基础模型，以提高准确度。

Q: 能否更新现有模型（模型堆叠）？

无法更新现有模型。 一种解决方案是将旧数据集与新数据集合并，然后重新适应。 旧数据集和新数据集必须合并为单个 .zip 文件（用于声学数据）或 .txt 文件（用于语言数据）。 适应完成后，重新部署新的更新后模型以获取新的终结点。

Q: 当有新版本的基础模型可用时，我的部署是否会自动更新？

部署 不会 自动更新。 如果你已调整并部署了某个模型，现有部署会保持原样。 你可以解除已部署的模型，使用较新版本的基础模型重新调整，并重新部署以提高准确度。 基础模型和自定义模型在一段时间后都会被停用（请参阅 模型和终结点生命周期 ）。

Question 1

基础模型和自定义语音转文本模型之间有什么区别？

Accepted Answer

基线语音转文本模型已使用 Azure 拥有的数据定型，并且已部署在云中。你可以创建和使用自定义模型来更好地适应具有特定环境噪音或语言的环境。工厂、汽车或嘈杂的街道需要适应的声学模型。生物学、物理学、放射学、产品名称和自定义首字母缩略词等主题需要适应的语言模型。如果要训练自定义模型，则应首先添加相关文本来改进对特殊术语和短语的识别。

Question 2

如果想要使用基础模型，从何处开始？

Accepted Answer

首先，在 Azure 门户中获取 API 密钥和区域。如果要对预先部署的基础模型进行 REST 调用，请参阅 REST API 文档。如果要使用 WebSocket，请下载语音 SDK。

Question 3

是否始终需要生成自定义语音模型？

Accepted Answer

不能。如果应用程序使用通用的日常语言，则无需自定义模型。如果应用程序用于背景噪音很小或无背景噪音的环境，则无需自定义模型。

你可以在门户中部署基线模型和自定义模型，并针对这些模型运行准确度测试。可以使用此功能衡量基础模型与自定义模型的准确度。

Question 4

如何知道何时完成数据集或模型的处理？

Accepted Answer

目前，唯一可以了解的途径是查看表中模型或数据集的状态。处理完成后，状态是“成功” 。

Question 5

能否创建多个模型？

Accepted Answer

集合中可以拥有的模型数量没有限制。

Question 6

我意识到自己犯了一个错误。 如何取消正在进行的数据导入或模型创建？

Accepted Answer

当前无法回滚声学或语言适应过程。可以在导入的数据和模型处于终点状态时删除它们。

Question 7

我针对每个短语获得了采用详细输出格式的多个结果。 应使用哪种方法？

Accepted Answer

始终采用第一个结果，即使另一个结果（“N-最佳”）可能具有更高的置信度值。语音服务认为第一个结果是最佳的。如果未识别出语音，则结果也可以是空字符串。

其他结果可能更糟，可能没有应用完整的大写和标点。这些结果在特殊情况下非常有用，例如，为用户提供选项来从列表中选取更正项或处理错误识别的命令。

Question 8

为什么有多个基础模型？

Accepted Answer

你可以从语音服务的多个基础模型中进行选择。每个模型名称都包含添加它的日期。开始训练自定义模型时，请使用最新模型以获取最佳准确度。有新模型可用之后，较旧的基础模型在一段时间内仍可供使用。可以继续使用所使用的模型，直到它被停用（请参阅模型和终结点生命周期）。仍建议切换到最新的基础模型，以提高准确度。

Question 9

能否更新现有模型（模型堆叠）？

Accepted Answer

无法更新现有模型。一种解决方案是将旧数据集与新数据集合并，然后重新适应。

旧数据集和新数据集必须合并为单个 .zip 文件（用于声学数据）或 .txt 文件（用于语言数据）。适应完成后，重新部署新的更新后模型以获取新的终结点。

Question 10

当有新版本的基础模型可用时，我的部署是否会自动更新？

Accepted Answer

部署不会自动更新。

如果你已调整并部署了某个模型，现有部署会保持原样。你可以解除已部署的模型，使用较新版本的基础模型重新调整，并重新部署以提高准确度。

基础模型和自定义模型在一段时间后都会被停用（请参阅模型和终结点生命周期）。

Question 11

是否可以将数据集、模型和部署复制或移动到另一个区域或订阅？

Accepted Answer

可以使用 Models_Copy REST API 将自定义模型复制到另一个区域或订阅。无法复制数据集和部署。可以在另一个订阅中再次导入数据集，并使用模型副本在其中创建终结点。

Question 12

是否记录了我的请求？

Accepted Answer

默认情况下不记录请求（既不进行音频记录，也不进行听录）。如果需要，可以在创建自定义终结点时选择“从此终结点记录内容”选项。你还可以在语音 SDK 中逐个请求启用音频日志记录，而无需创建自定义终结点。在两种情况下，请求的音频和识别结果都将存储在安全的存储中。使用 Microsoft 拥有的存储的订阅将可供使用 30 天。

如果你在启用了“从此终结点记录内容”的情况下使用自定义终结点，则可在 Speech Studio 中的部署页面上导出所记录的文件。如果音频日志记录是通过 SDK 启用的，请调用 API 来访问文件。还可以使用 API 随时删除日志。

Question 13

我的请求是否受到限制？

Accepted Answer

有关信息，请参阅语音服务配额和限制。

Question 14

双声道音频如何收费？

Accepted Answer

如果你单独提交每个声道（在其自己的文件中），则将按每个文件的音频持续时间向你收费。如果你提交单个文件，其中的声道一起多路复用，则按单个文件的持续时间对你收费。有关定价的详细信息，请参阅 Azure AI 服务定价页。

重要

如果还有禁止使用自定义语音识别服务的进一步隐私问题，请与某个支持渠道联系。

提高并发性

有关信息，请参阅语音服务配额和限制。

Question 15

数据集大小的限制是什么？为何限制？

Accepted Answer

之所以存在限制，是由于 HTTP 上传文件大小存在限制。有关实际限制，请参阅语音服务配额和限制。你可以将数据拆分为多个数据集，并选择所有数据集来训练模型。

Question 16

是否可以压缩文本文件，以便可上传更大的文本文件？

Accepted Answer

不能。目前，仅允许未压缩的文本文件。

Question 17

数据报告表明，有言语导入失败。 问题出在哪里？

Accepted Answer

未能上传文件中 100% 的语句并不是什么问题。如果成功导入了声学或语言数据集中的大多数话语（如 95% 以上的话语），则该数据集可用。但是，仍建议尝试了解语句失败的原因，然后解决问题。大多数常见问题（如格式设置错误）很容易修复。

Question 18

需要多少声学数据？

Accepted Answer

建议从 30 分钟到 1 小时的声学数据入手。

Question 19

应该收集哪些数据？

Accepted Answer

收集尽可能接近于应用程序方案和用例的数据。数据收集应在设备、环境和说话人类型方面与目标应用程序和用户匹配。一般而言，应从尽可能广泛的说话人中收集数据。

Question 20

如何收集声学数据？

Accepted Answer

可以创建独立的数据收集应用程序，或使用现成的录音软件。你还可以创建一个用于记录音频数据并使用该数据的应用程序版本。

Question 21

是否需要自行转录适应数据？

Accepted Answer

是的。可以自行转录或使用专业听录服务进行转录。有些用户更喜欢使用专业听录器，而其他用户则使用众包或自己听录数据。

Question 22

使用音频数据训练一个自定义模型需要多长时间？

Accepted Answer

使用音频数据训练模型可能是一个漫长的过程。创建自定义模型可能需要几天时间，具体取决于数据量。如果它无法在一周内完成，则服务可能会中止训练操作并将该模型报告为失败。

Question 23

什么是字错误率 (WER) 以及如何计算此错误率？

Accepted Answer

WER 是用于语音识别的评估指标。 WER 由错误总数（插入、删除和替换）除以引用听录中的总字数计算得出。有关详细信息，请参阅以定量方式测试模型。

Question 24

如何确定准确度测试的结果是否良好？

Accepted Answer

测试结果对基础模型和自定义模型进行了比较。若要使自定义模型变得有价值，应以超越基础模型为目标。

Question 25

如何确定基础模型的 WER 以便查看是否得到改进？

Accepted Answer

离线测试结果显示了自定义模型的基线准确度以及与基线相比的改进情况。

Question 26

需要上传多少文本数据？

Accepted Answer

这取决于应用程序中使用的词汇和短语与初始语言模型存在多大差异。对于所有新字词，尽可能多地提供这些字的使用示例很有用。对于应用程序中使用的常用短语（包括语言数据中的短语），提供许多示例十分有用，因为这会告知系统也要侦听这些术语。在语言数据集中至少有 100 句语句（通常几百句或更多语句）是很常见的。另外，如果预期某些类型的查询比其他查询更加常用，则可以在数据集中插入常用查询的多个副本。

Question 27

我是否可以只上传字词列表？

Accepted Answer

上传字词列表会将它们添加到词汇中，但不会告知系统这些字词的通常用法。通过提供完整或部分语句（用户很可能会说事物的句子或短语），语言模型可以学习这些新字词及其用法。自定义语言模型不仅适用于向系统中添加新字词，还适用于调整应用程序已知字词的概率。提供完整话语可帮助系统更好地学习。

Question 28

为什么识别的文本与引用文本不同？

Accepted Answer

根据音频输入、引用文本、 EnableMiscue 配置和评估模式生成已识别的文本。

在 脚本化评估中，有两种模式：单次和连续模式，其行为略有不同。在单次模式下，如果 EnableMiscue 设置为 false，系统将强制识别的文本与引用文本匹配。当EnableMiscue为true时，只有引用文本中存在的单词才被视为音频输入中的识别结果。连续模式不支持该EnableMiscue选项，其行为类似于在单枪模式中将EnableMiscue设置为true时的表现。由于语音识别模型中的发音变化、背景噪音或限制等因素，识别文本和引用文本之间的差异可能会发生。

在 未标明的评估中，识别的文本仅从音频输入生成，没有任何引用文本，这可能会导致识别的文本与预期内容之间存在差异。在这些情况下，识别的文本反映了系统从音频中解释的内容，并且可能并不总是与预期的消息保持一致。如果发现重大差异，请查看音频质量和扬声器清晰度，或者考虑先使用 Azure 语音转文本来转录音频。然后，可以使用该听录作为参考文本进行更准确的评估。

通过

常规

基础模型和自定义语音转文本模型之间有什么区别？

如果想要使用基础模型，从何处开始？

是否始终需要生成自定义语音模型？

如何知道何时完成数据集或模型的处理？

能否创建多个模型？

我意识到自己犯了一个错误。如何取消正在进行的数据导入或模型创建？

我针对每个短语获得了采用详细输出格式的多个结果。应使用哪种方法？

为什么有多个基础模型？

能否更新现有模型（模型堆叠）？

当有新版本的基础模型可用时，我的部署是否会自动更新？

是否可以将数据集、模型和部署复制或移动到另一个区域或订阅？

是否记录了我的请求？

我的请求是否受到限制？

双声道音频如何收费？

提高并发性

导入数据

数据集大小的限制是什么？为何限制？

是否可以压缩文本文件，以便可上传更大的文本文件？

数据报告表明，有言语导入失败。问题出在哪里？

创建声学模型

需要多少声学数据？

应该收集哪些数据？

如何收集声学数据？

是否需要自行转录适应数据？

使用音频数据训练一个自定义模型需要多长时间？

精确度测试

什么是字错误率 (WER) 以及如何计算此错误率？

如何确定准确度测试的结果是否良好？

如何确定基础模型的 WER 以便查看是否得到改进？

创建语言模型

需要上传多少文本数据？

我是否可以只上传字词列表？

发音评估

为什么识别的文本与引用文本不同？

后续步骤

通过

语音转文本常见问题解答

常规

基础模型和自定义语音转文本模型之间有什么区别？

如果想要使用基础模型，从何处开始？

是否始终需要生成自定义语音模型？

如何知道何时完成数据集或模型的处理？

能否创建多个模型？

我意识到自己犯了一个错误。 如何取消正在进行的数据导入或模型创建？

我针对每个短语获得了采用详细输出格式的多个结果。 应使用哪种方法？

为什么有多个基础模型？

能否更新现有模型（模型堆叠）？

当有新版本的基础模型可用时，我的部署是否会自动更新？

是否可以将数据集、模型和部署复制或移动到另一个区域或订阅？

是否记录了我的请求？

我的请求是否受到限制？

双声道音频如何收费？

提高并发性

导入数据

数据集大小的限制是什么？为何限制？

是否可以压缩文本文件，以便可上传更大的文本文件？

数据报告表明，有言语导入失败。 问题出在哪里？

创建声学模型

需要多少声学数据？

应该收集哪些数据？

如何收集声学数据？

是否需要自行转录适应数据？

使用音频数据训练一个自定义模型需要多长时间？

精确度测试

什么是字错误率 (WER) 以及如何计算此错误率？

如何确定准确度测试的结果是否良好？

如何确定基础模型的 WER 以便查看是否得到改进？

创建语言模型

需要上传多少文本数据？

我是否可以只上传字词列表？

发音评估

为什么识别的文本与引用文本不同？

后续步骤

其他资源

我意识到自己犯了一个错误。如何取消正在进行的数据导入或模型创建？

我针对每个短语获得了采用详细输出格式的多个结果。应使用哪种方法？

数据报告表明，有言语导入失败。问题出在哪里？