AI Studio 中的发音评估工具

重要

本文中标记了“（预览版）”的项目目前为公共预览版。此预览版未提供服务级别协议，不建议将其用于生产工作负载。某些功能可能不受支持或者受限。有关详细信息，请参阅适用于 Azure 预览版的补充使用条款。

发音评估使用语音转文本功能为语言学习者提供主观和客观的反馈。练习发音时及时获得反馈对于提高语言技能至关重要。经验丰富的教师进行的评估可能需要很多时间，对于学习者来说可能很昂贵。发音评估有助于让学习者无论背景如何，都能更容易参与并享受到这一过程。

本文介绍如何在不编写任何代码的情况下，通过AI Studio使用发音评估工具。有关如何在语音应用程序中集成发音评估的信息，请参阅如何使用发音评估。

注意

有关发音评估的可用性的信息，请参阅支持的语言和可用性区域。

阅读、对话和游戏场景

对于发音评估，有三种方案：阅读、朗读和游戏。

阅读：该场景专为脚本化评估而设计。它要求学习者阅读给定文本。会提前提供参考文本。
口语：该场景专为未脚本化评估而设计。它要求学习者就给定主题发言。不会提前提供参考文本。
游戏：此方案专为脚本化评估而设计。它要求学习者阅读绕口令以获得发音和每个音节的分数。会提前提供参考文本。

进行阅读评估

请遵循以下步骤访问参考文本的发音：

在AI Studio中转到“发音评估”。
在“阅读”选项卡上，选择要评估发音的受支持语言。
可使用预配的文本示例，也可输入自己的脚本。

阅读文本时，应靠近麦克风，以确保录制的声音不会太低。

否则，可上传录制的音频以进行发音评估。成功上传后，系统会自动评估音频，如下图所示。

进行口语评估

如果要执行未脚本化评估，请选择“口语”选项卡。该功能可以在没有提前提供参考文本的情况下执行非脚本评估。以下将说明如何继续：

在AI Studio中转到“发音评估”。
在“口语”选项卡上，选择要评估发音的受支持语言。
接下来，可以从所提供的示例主题中进行选择，也可输入你自己的主题。这种选择让你能够评估自身在没有预定义脚本的情况下就给定主题发言的能力。

录制语音以进行发音评估时，请务必确保录制时间介于建议的 15 秒（相当于 50 个以上的单词）至 10 分钟之间。要准确评估语音的内容，这个时间范围是最合适的。要获得主题分数，口语音频应包含至少 3 个句子。

还可上传录制的音频来进行发音评估。成功上传后，系统会自动评估音频。

进行游戏评估

如果要通过游戏练习语言学习，请执行以下步骤：

在AI Studio中转到“发音评估”。
在“游戏”选项卡上，生成想要练习的新扭曲器。
最后，可以开始记录并练习绕口令，以获得分数。

发音评估结果

录制语音或上传录制好的音频后，会输出“评估结果”。结果包括口语音频以及对语音评估的反馈。可收听口语音频，并在必要时下载。

还可查看 JSON 格式的发音评估结果。 JSON 文件中包含单词级别、音节级别和音素级别的准确度分数。

显示器
JSON

屏幕截图显示显示窗口中的评估结果，其中包括语音的脚本和反馈。

单词将根据错误类型高亮显示。发音评估中的错误类型使用不同的颜色表示。借助这种视觉区别，可以更容易地发现和分析特定错误。通过它可以清楚地了解语音中错误类型和频率的总体情况，帮助你专注于需要改进的领域。可打开/关闭每个错误类型，以着重关注特定类型的错误或者不显示特定类型。此功能为你如何查看和分析口语音频中的错误提供了灵活性。将鼠标悬停在每个单词上时，可查看整个单词或特定音素的准确度得分。

在评估结果的底部将显示评分结果。脚本化发音评估只提供发音分数（包括准确度分数、流畅度分数、完整性分数和韵律分数）。非脚本化发音评估将显示发音分数（包括准确度分数、流畅度分数和韵律分数）和内容分数（包括词汇分数、语法分数和主题分数）。

完整的听录显示在 text 属性中。你可以查看整个单词、音节和特定音素的准确度分数。可使用语音 SDK 获得相同的结果。有关信息，请参阅如何使用发音评估。

{
    "text": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
    "duration": 156100000,
    "offset": 800000,
    "json": {
        "Id": "f583d7588c89425d8fce76686c11ed12",
        "RecognitionStatus": 0,
        "Offset": 800000,
        "Duration": 156100000,
        "DisplayText": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
        "SNR": 40.47014,
        "NBest": [
            {
                "Confidence": 0.97532314,
                "Lexical": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "ITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "MaskedITN": "today was a beautiful day we had a great time taking a long long walk in the morning the countryside was in full bloom yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain",
                "Display": "Today was a beautiful day. We had a great time taking a long long walk in the morning. The countryside was in full bloom, yet the air was crisp and cold towards end of the day clouds came in forecasting much needed rain.",
                "PronunciationAssessment": {
                    "AccuracyScore": 92,
                    "FluencyScore": 81,
                    "CompletenessScore": 93,
                    "PronScore": 85.6
                },
                "Words": [
                    // Words preceding "countryside" are omitted for brevity...
                    {
                        "Word": "countryside",
                        "Offset": 66200000,
                        "Duration": 7900000,
                        "PronunciationAssessment": {
                            "AccuracyScore": 30,
                            "ErrorType": "Mispronunciation"
                        },
                        "Syllables": [
                            {
                                "Syllable": "kahn",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 3
                                },
                                "Offset": 66200000,
                                "Duration": 2700000
                            },
                            {
                                "Syllable": "triy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 19
                                },
                                "Offset": 69000000,
                                "Duration": 1100000
                            },
                            {
                                "Syllable": "sayd",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 51
                                },
                                "Offset": 70200000,
                                "Duration": 3900000
                            }
                        ],
                        "Phonemes": [
                            {
                                "Phoneme": "k",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 66200000,
                                "Duration": 900000
                            },
                            {
                                "Phoneme": "ah",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 0
                                },
                                "Offset": 67200000,
                                "Duration": 1000000
                            },
                            {
                                "Phoneme": "n",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 11
                                },
                                "Offset": 68300000,
                                "Duration": 600000
                            },
                            {
                                "Phoneme": "t",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 16
                                },
                                "Offset": 69000000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "r",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 27
                                },
                                "Offset": 69400000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "iy",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 15
                                },
                                "Offset": 69800000,
                                "Duration": 300000
                            },
                            {
                                "Phoneme": "s",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 26
                                },
                                "Offset": 70200000,
                                "Duration": 1700000
                            },
                            {
                                "Phoneme": "ay",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 56
                                },
                                "Offset": 72000000,
                                "Duration": 1300000
                            },
                            {
                                "Phoneme": "d",
                                "PronunciationAssessment": {
                                    "AccuracyScore": 100
                                },
                                "Offset": 73400000,
                                "Duration": 700000
                            }
                        ]
                    },
                    // Words following "countryside" are omitted for brevity...
                ]
            }
        ]
    }
}

发音评估的粒度

发音评估提供不同粒度（从单个音素到整个文本输入）的各种评估结果。

在全文级别，发音评估提供额外的流利度、完整性和韵律分数：流利度表示语音与本族语者在单词间无声停顿的使用上有多接近；完整性表示在语音中有多少单词能够正确发音与参考文本相匹配；韵律表示演讲者在语音中传达自然性、表现力和整体韵律的效果如何。然后，会根据准确度、流畅性、完整性和韵律综合得出一个整体分数，表明给定语音的整体语音质量。发音评估还在全文级别提供内容分数（词汇、语法和主题）。
在单词级别，发音评估可以自动检测错误并同时提供准确度分数，从而提供有关给定语音中的遗漏、重复、插入和错误发音的更详细信息。
音节级准确度分数目前通过 JSON 文件或语音 SDK 提供。
在音素层面，发音评估提供每个音素的准确度分数，帮助学习者更好地理解语音的发音细节。

除了准确度、流畅性和完整性这三个基线分数外，AI Studio 中的发音评估功能还包括更全面的分数，来提供有关语音表现和理解各个方面的详细反馈。加强分数包括韵律分数、词汇分数、语法分数和主题分数。这些分数对语音韵律、词汇使用、语法正确性和主题理解提供了有价值的见解。

屏幕截图显示 AI Studio 中的总体发音分数和总体内容分数。

在评估结果的底部，将显示两个整体分数：发音分数和内容分数。在“阅读”选项卡中，将找到显示的发音分数。在“口语”选项卡中，将显示发音分数和内容分数。

发音分数：这个分数表示对发音质量的综合评估，包括 4 个子方面。 “阅读”和“口语”选项卡中都提供了这些分数，用于脚本化评估和未脚本化评估。

准确度分数：评估发音的正确性。
流畅性分数：衡量语音的流畅程度和自然程度。
完整性分数：反映正确发音的单词数。
韵律分数：评估对语调、节奏和重音的恰当运用。引入了更多与韵律评估相关的错误类型，例如意外断句、缺少断句和语调单一。与以前的引擎相比，这些错误类型提供了有关发音错误的更详细信息。

内容分数：这个分数提供对语音内容的综合评估，包括 3 个子方面。这个分数只在“口语”选项卡中用于未脚本化评估。

“词汇分数”：评估说话人对单词的有效使用及其在给定上下文中准确表达想法的适当性，以及词汇的复杂程度。
语法分数：评估语法使用的正确性和句型的多样性。它考虑了词汇的准确性、语法的准确性和句子结构的多样性，从而更全面地评估语言能力。
主题分数：评估对语音中讨论的主题的理解程度和参与程度。它评估说话人有效表达与给定主题相关的思想和想法的能力。

这些整体分数对发音和内容提供了全面评估，为学习者提供了有关其语音表现和理解各个方面的宝贵反馈。使用这些增强功能，语言学习者可更深入地了解他们在发音和内容表达方面的优势以及需要改进的地方。

注意

内容和韵律评估仅在 en-US 区域设置中提供。

流式处理模式下的评估分数

发音评估支持不间断的流式处理模式。 AI Studio 演示允许在流式处理模式下进行长达 60 分钟的录制，以便进行评估。只要不按下停止录制按钮，评估过程就不会结束，你可以方便地暂停和恢复评估。

发音评估对发音的几个方面进行了评估。在“评估结果”的底部，可以看到“发音分数”显示为综合整体分数，它包含 4 个子方面：“准确度分数”、“流畅度分数”、“完整性分数”和“韵律分数”。在流式处理模式下，由于准确度分数、流畅性分数和韵律分数在整个录制过程中会随时间而变化，因此我们在 AI Studio 上演示了这样一种方法：在评估结束前逐步显示大致整体分数，该分数只使用准确度分数、流畅性分数和韵律分数进行加权。完整性分数只在评估结束时你按下停止按钮后进行计算，因此最终的发音整体分数根据准确度分数、流畅性分数、完整性分数和韵律分数加权汇总得出。

请参阅下面的演示示例，了解在流式处理模式下评估发音的整个过程。

开始录制

开始录制时，底部的分数将从 0 开始变化。

录制期间

在录制长段落期间，可以随时暂停录制。只要不按下停止按钮，就可以继续评估录制内容。

完成录制

按下停止按钮后，可以在底部看到发音分数、准确度分数、流畅性分数、完整性分数和韵律分数。

定价

基线是，对于标准或承诺层级定价，发音评估的使用成本与语音转文本的成本相同。如果你购买承诺层级以使用“语音转文本”功能，则在发音评估上的支出将冲抵该承诺使用量。

发音评估功能还提供基线语音到文本价格中不包括的其他分数，例如韵律分数。这些分数是基线语音转文本价格之上的附加费用。有关定价的信息，请参阅语音转文本定价。

下面的表格显示了可用的发音评估分数，而不管是在脚本化还是未脚本化评估中提供，也不管是包含在基线语音转文本价格中还是附加价格中。

分数	脚本化或未脚本化	包含在基线语音转文本价格中？
精确度	脚本化和未脚本化	是
流畅度	脚本化和未脚本化	是
完整性	已编写脚本	是
误读	脚本化和未脚本化	是
韵律	脚本化和未脚本化	否

后续步骤

使用使用语音 SDK 进行发音评估
阅读有关用例的博客

Last updated on 2025-11-25

通过