语音转文本快速入门 - Azure AI services

语音转文本 REST API 参考 | 针对短音频的语音转文本 REST API 参考 | GitHub上的其他示例

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用帐户
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和区域。部署语音资源后，选择“转到资源”以查看和管理密钥。

你还需要一份在本地计算机上的 .wav 音频文件。可使用自己的 .wav 文件（最长 60 秒），或者下载示例文件。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要为语音资源密钥和区域设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将“your-region”替换为你的资源所属地区之一。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为语音资源的实际终结点。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源区域设置环境变量，请执行相同步骤。将 SPEECH_REGION 设置为资源所在的区域。例如 chinanorth2。将 ENDPOINT 设置为资源的终结点

有关更多配置选项，请参阅 Xcode 文档。

从文件中识别语音

打开控制台窗口并运行以下 cURL 命令。将 YourAudioFile.wav 替换为你的音频文件的路径和名称。

curl --location --request POST "https://%SPEECH_REGION%.stt.speech.azure.cn/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" ^
--header "Ocp-Apim-Subscription-Key: %SPEECH_KEY%" ^
--header "Content-Type: audio/wav" ^
--data-binary "@YourAudioFile.wav"

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.azure.cn/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

audio_file=@'YourAudioFile.wav'

curl --location --request POST \
"https://${SPEECH_REGION}.stt.speech.azure.cn/speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed" \
--header "Ocp-Apim-Subscription-Key: ${SPEECH_KEY}" \
--header "Content-Type: audio/wav" \
--data-binary $audio_file

重要

请确保设置 SPEECH_KEY 和 SPEECH_REGION环境变量。如果未设置这些变量，示例会失败并显示错误消息。

应会收到类似于此处所示的响应。 DisplayText 应为从音频文件中识别的文本。该命令可识别长达 60 秒的音频，并将其转换为文本。

{
    "RecognitionStatus": "Success",
    "DisplayText": "My voice is my passport, verify me.",
    "Offset": 6600000,
    "Duration": 32100000
}

有关详细信息，请参阅适用于短音频的语音转文本 REST API。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | 程序包（PyPi） | GitHub 上的更多示例

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用订阅。
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和终结点。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

Python的语音 SDK 可用作 Python 包索引（PyPI）模块。适用于Python的语音 SDK 与 Windows、Linux 和 macOS 兼容。

对于 Windows，请安装适用于您的平台的 Microsoft Visual C++ Redistributable for Visual Studio 2015、2017、2019 和 2022。首次安装此包时，可能需要重启。
在 Linux 上，你必须使用 x64 目标体系结构。

请安装 Python 3.7 或更高版本。有关其他要求，请参阅安装语音 SDK。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要设置您的语音资源密钥和终结点的环境变量，请打开控制台窗口，并按照您的操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为您资源的某个终结点。

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源终结点设置环境变量，请执行以下步骤。将您的资源的终结点设置为 ENDPOINT。例如 https://YourServiceRegion.api.cognitive.azure.cn。

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

提示

试用 Azure Speech Toolkit，以便轻松地在Visual Studio Code上生成和运行示例。

按照以下步骤创建控制台应用程序。

在需要新项目的文件夹中打开命令提示符窗口。创建名为 speech_recognition.py 的新文件。

运行此命令以安装语音 SDK：

pip install azure-cognitiveservices-speech

将以下代码复制到 speech_recognition.py 中：

import os
import azure.cognitiveservices.speech as speechsdk

def recognize_from_microphone():
     # This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
     # Replace with your own subscription key and endpoint, the endpoint is like : "https://YourServiceRegion.api.cognitive.azure.cn"
    speech_config = speechsdk.SpeechConfig(subscription=os.environ.get('SPEECH_KEY'), endpoint=os.environ.get('ENDPOINT'))
    speech_config.speech_recognition_language="en-US"

    audio_config = speechsdk.audio.AudioConfig(use_default_microphone=True)
    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    print("Speak into your microphone.")
    speech_recognition_result = speech_recognizer.recognize_once_async().get()

    if speech_recognition_result.reason == speechsdk.ResultReason.RecognizedSpeech:
        print("Recognized: {}".format(speech_recognition_result.text))
    elif speech_recognition_result.reason == speechsdk.ResultReason.NoMatch:
        print("No speech could be recognized: {}".format(speech_recognition_result.no_match_details))
    elif speech_recognition_result.reason == speechsdk.ResultReason.Canceled:
        cancellation_details = speech_recognition_result.cancellation_details
        print("Speech Recognition canceled: {}".format(cancellation_details.reason))
        if cancellation_details.reason == speechsdk.CancellationReason.Error:
            print("Error details: {}".format(cancellation_details.error_details))
            print("Did you set the speech resource key and endpoint values?")

recognize_from_microphone()

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何从多种使用的语言中进行识别，请参阅语言识别。
运行新的控制台应用程序，从麦克风开始进行语音识别：
```
python speech_recognition.py
```
重要

请确保设置 SPEECH_KEY 和 ENDPOINT环境变量。如果未设置这些变量，示例会失败并显示错误消息。
当系统提示时，对着麦克风说话。你说出的内容应该会显示为文本：
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

备注

下面是其他一些注意事项：

此示例使用 recognize_once_async 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。
若要识别音频文件中的语音，请使用 filename 而不是 use_default_microphone：
```
audio_config = speechsdk.audio.AudioConfig(filename="YourAudioFile.wav")
```
对于压缩的音频文件（如 MP4），请安装 GStreamer 并使用 PullAudioInputStream 或 PushAudioInputStream。有关详细信息，请参阅如何使用压缩的输入音频。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | Package （NuGet） | 更多示例在 GitHub 上

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用订阅。
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和终结点。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

语音 SDK 可用作 NuGet 包并实现 .NET Standard 2.0。您将在本指南的后续部分安装语音 SDK。有关任何其他要求，请参阅安装语音 SDK。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要设置您的语音资源密钥和终结点的环境变量，请打开控制台窗口，并按照您的操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为您资源的某个终结点。

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源终结点设置环境变量，请执行以下步骤。将您的资源的终结点设置为 ENDPOINT。例如 https://YourServiceRegion.api.cognitive.azure.cn。

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

提示

试用 Azure Speech Toolkit，以便轻松地在Visual Studio Code上生成和运行示例。

按照以下步骤创建控制台应用程序并安装语音 SDK。

在需要新项目的文件夹中打开命令提示符窗口。运行以下命令，使用 .NET CLI 创建控制台应用程序。
```
dotnet new console
```
该命令会在你的项目目录中创建 Program.cs 文件。

使用 .NET CLI 在新项目中安装语音 SDK。

dotnet add package Microsoft.CognitiveServices.Speech

将 Program.cs 的内容替换为以下代码：

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

class Program 
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    static string speechKey = Environment.GetEnvironmentVariable("SPEECH_KEY");
    static string endpoint = Environment.GetEnvironmentVariable("ENDPOINT");

    static void OutputSpeechRecognitionResult(SpeechRecognitionResult speechRecognitionResult)
    {
        switch (speechRecognitionResult.Reason)
        {
            case ResultReason.RecognizedSpeech:
                Console.WriteLine($"RECOGNIZED: Text={speechRecognitionResult.Text}");
                break;
            case ResultReason.NoMatch:
                Console.WriteLine($"NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                var cancellation = CancellationDetails.FromResult(speechRecognitionResult);
                Console.WriteLine($"CANCELED: Reason={cancellation.Reason}");

                if (cancellation.Reason == CancellationReason.Error)
                {
                    Console.WriteLine($"CANCELED: ErrorCode={cancellation.ErrorCode}");
                    Console.WriteLine($"CANCELED: ErrorDetails={cancellation.ErrorDetails}");
                    Console.WriteLine($"CANCELED: Did you set the speech resource key and endpoint values?");
                }
                break;
        }
    }

    async static Task Main(string[] args)
    {
        var speechConfig = SpeechConfig.FromEndpoint(new Uri(endpoint), speechKey);
        speechConfig.SpeechRecognitionLanguage = "en-US";

        using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
        using var speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        Console.WriteLine("Speak into your microphone.");
        var speechRecognitionResult = await speechRecognizer.RecognizeOnceAsync();
        OutputSpeechRecognitionResult(speechRecognitionResult);
    }
}

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。
运行新的控制台应用程序，从麦克风开始进行语音识别：
```
dotnet run
```
重要

请确保设置 SPEECH_KEY 和 ENDPOINT环境变量。如果未设置这些变量，示例会失败并显示错误消息。
当系统提示时，对着麦克风说话。你说出的内容应该会显示为文本：
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

备注

下面是其他一些注意事项：

此示例使用 RecognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。
若要识别音频文件中的语音，请使用 FromWavFileInput 而不是 FromDefaultMicrophoneInput：
```
using var audioConfig = AudioConfig.FromWavFileInput("YourAudioFile.wav");
```
对于压缩的音频文件（如 MP4），请安装 GStreamer 并使用 PullAudioInputStream 或 PushAudioInputStream。有关详细信息，请参阅如何使用压缩的输入音频。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档包（npm）GitHub 上的附加示例库源代码

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用帐户
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和区域。部署语音资源后，选择“转到资源”以查看和管理密钥。

你还需要一份在本地计算机上的 .wav 音频文件。可使用自己的 .wav 文件（最长 30 秒），或者下载示例文件。

设置

创建新文件夹 transcription-quickstart，并使用以下命令转到快速入门文件夹：
```
mkdir transcription-quickstart && cd transcription-quickstart
```
使用以下命令创建 package.json：
```
npm init -y
```
使用以下命令安装适用于 JavaScript 的语音 SDK：
```
npm install microsoft-cognitiveservices-speech-sdk
```

检索资源信息

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要为语音资源密钥和区域设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将“your-region”替换为你的资源所属地区之一。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为语音资源的实际终结点。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源区域设置环境变量，请执行相同步骤。将 SPEECH_REGION 设置为资源所在的区域。例如 chinanorth2。将 ENDPOINT 设置为资源的终结点

有关更多配置选项，请参阅 Xcode 文档。

从文件中识别语音

若要将文件中的语音转录，请执行以下步骤：

创建包含以下内容 transcription.js 的新文件：

import { readFileSync, createReadStream } from "fs";
import { SpeechConfig, AudioConfig, ConversationTranscriber, AudioInputStream } from "microsoft-cognitiveservices-speech-sdk";
// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT), process.env.SPEECH_KEY);
function fromFile() {
    const filename = "katiesteve.wav";
    const audioConfig = AudioConfig.fromWavFileInput(readFileSync(filename));
    const conversationTranscriber = new ConversationTranscriber(speechConfig, audioConfig);
    const pushStream = AudioInputStream.createPushStream();
    createReadStream(filename).on('data', function (chunk) {
        pushStream.write(chunk.slice());
    }).on('end', function () {
        pushStream.close();
    });
    console.log("Transcribing from: " + filename);
    conversationTranscriber.sessionStarted = function (s, e) {
        console.log("SessionStarted event");
        console.log("SessionId:" + e.sessionId);
    };
    conversationTranscriber.sessionStopped = function (s, e) {
        console.log("SessionStopped event");
        console.log("SessionId:" + e.sessionId);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.canceled = function (s, e) {
        console.log("Canceled event");
        console.log(e.errorDetails);
        conversationTranscriber.stopTranscribingAsync();
    };
    conversationTranscriber.transcribed = function (s, e) {
        console.log("TRANSCRIBED: Text=" + e.result.text + " Speaker ID=" + e.result.speakerId);
    };
    // Start conversation transcription
    conversationTranscriber.startTranscribingAsync(function () { }, function (err) {
        console.trace("err - starting transcription: " + err);
    });
}
fromFile();

在 transcription.js中，将 YourAudioFile.wav 替换为自己的 .wav 文件。此示例仅识别 .wav 文件中的语音。有关其他音频格式的信息，请参阅如何使用压缩的输入音频。此示例支持最长 30 秒的音频。

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。

运行新的控制台应用程序，从文件开始进行语音识别：
```
node transcription.js
```

片刻之后即可获得响应。

输出

音频文件中的语音应以文本的形式输出：

RECOGNIZED: Text=I'm excited to try speech to text.

备注

此示例使用 recognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。

注意

Node.js 中不支持识别来自麦克风的语音。仅在基于浏览器的 JavaScript 环境中支持该功能。有关详细信息，请参阅 GitHub 上的 React 示例和从麦克风输入的语音转文本的实现。

React 示例演示身份验证令牌交换和管理的设计模式。该示例还演示如何从麦克风或文件捕获音频以进行语音转文本转换。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | GitHub上的附加示例

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用订阅。
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和终结点。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

若要设置环境，请安装语音 SDK。本快速入门中的示例适用于 Java Runtime。

安装 Apache Maven。然后运行 mvn -v 以确认安装成功。

在项目的根目录中创建一个新的 pom.xml 文件，并将以下代码复制到该文件中：

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>
    <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
    <artifactId>quickstart-eclipse</artifactId>
    <version>1.0.0-SNAPSHOT</version>
    <build>
        <sourceDirectory>src</sourceDirectory>
        <plugins>
        <plugin>
            <artifactId>maven-compiler-plugin</artifactId>
            <version>3.7.0</version>
            <configuration>
            <source>1.8</source>
            <target>1.8</target>
            </configuration>
        </plugin>
        </plugins>
    </build>
    <dependencies>
        <dependency>
        <groupId>com.microsoft.cognitiveservices.speech</groupId>
        <artifactId>client-sdk</artifactId>
        <version>1.43.0</version>
        </dependency>
    </dependencies>
</project>

安装语音 SDK 和依赖项。
```
mvn clean dependency:copy-dependencies
```

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要设置您的语音资源密钥和终结点的环境变量，请打开控制台窗口，并按照您的操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为您资源的某个终结点。

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源终结点设置环境变量，请执行以下步骤。将您的资源的终结点设置为 ENDPOINT。例如 https://YourServiceRegion.api.cognitive.azure.cn。

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

按照以下步骤创建用于语音识别的控制台应用程序。

在同一项目根目录中创建名为 SpeechRecognition.java 的新文件。

将以下代码复制到 SpeechRecognition.java 中：

import com.microsoft.cognitiveservices.speech.*;
import com.microsoft.cognitiveservices.speech.audio.AudioConfig;

import java.net.URI;
import java.net.URISyntaxException;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.Future;

public class SpeechRecognition {
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    private static String speechKey = System.getenv("SPEECH_KEY");
    private static String endpoint = System.getenv("ENDPOINT");

    public static void main(String[] args) throws InterruptedException, ExecutionException, URISyntaxException {
        SpeechConfig speechConfig = SpeechConfig.fromEndpoint(new URI(endpoint), speechKey);
        speechConfig.setSpeechRecognitionLanguage("en-US");
        recognizeFromMicrophone(speechConfig);
    }

    public static void recognizeFromMicrophone(SpeechConfig speechConfig) throws InterruptedException, ExecutionException {
        AudioConfig audioConfig = AudioConfig.fromDefaultMicrophoneInput();
        SpeechRecognizer speechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

        System.out.println("Speak into your microphone.");
        Future<SpeechRecognitionResult> task = speechRecognizer.recognizeOnceAsync();
        SpeechRecognitionResult speechRecognitionResult = task.get();

        if (speechRecognitionResult.getReason() == ResultReason.RecognizedSpeech) {
            System.out.println("RECOGNIZED: Text=" + speechRecognitionResult.getText());
        }
        else if (speechRecognitionResult.getReason() == ResultReason.NoMatch) {
            System.out.println("NOMATCH: Speech could not be recognized.");
        }
        else if (speechRecognitionResult.getReason() == ResultReason.Canceled) {
            CancellationDetails cancellation = CancellationDetails.fromResult(speechRecognitionResult);
            System.out.println("CANCELED: Reason=" + cancellation.getReason());

            if (cancellation.getReason() == CancellationReason.Error) {
                System.out.println("CANCELED: ErrorCode=" + cancellation.getErrorCode());
                System.out.println("CANCELED: ErrorDetails=" + cancellation.getErrorDetails());
                System.out.println("CANCELED: Did you set the speech resource key and endpoint values?");
            }
        }

        System.exit(0);
    }
}

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。
运行新的控制台应用程序，从麦克风开始进行语音识别：
```
javac SpeechRecognition.java -cp ".;target\dependency\*"
java -cp ".;target\dependency\*" SpeechRecognition
```
重要

请确保设置 SPEECH_KEY 和 ENDPOINT环境变量。如果未设置这些变量，示例会失败并显示错误消息。
当系统提示时，对着麦克风说话。你说出的内容应该会显示为文本：
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

备注

下面是其他一些注意事项：

此示例使用 RecognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。
若要识别音频文件中的语音，请使用 fromWavFileInput 而不是 fromDefaultMicrophoneInput：
```
AudioConfig audioConfig = AudioConfig.fromWavFileInput("YourAudioFile.wav");
```
对于压缩的音频文件（如 MP4），请安装 GStreamer 并使用 PullAudioInputStream 或 PushAudioInputStream。有关详细信息，请参阅如何使用压缩的输入音频。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | Package （NuGet） | 更多示例在 GitHub 上

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用订阅。
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和终结点。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

语音 SDK 可用作 NuGet 包并实现 .NET Standard 2.0。您将在本指南的后续部分安装语音 SDK。有关其他要求，请参阅安装语音 SDK。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要设置您的语音资源密钥和终结点的环境变量，请打开控制台窗口，并按照您的操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为您资源的某个终结点。

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源终结点设置环境变量，请执行以下步骤。将您的资源的终结点设置为 ENDPOINT。例如 https://YourServiceRegion.api.cognitive.azure.cn。

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

提示

试用 Azure Speech Toolkit，以便轻松地在Visual Studio Code上生成和运行示例。

按照以下步骤创建控制台应用程序并安装语音 SDK。

在 Visual Studio Community 中创建名为 SpeechRecognition 的新 C++ 控制台项目。
选择 Tools>Nuget Package Manager>Package Manager Console。在 Package Manager Console 中运行以下命令：
```
Install-Package Microsoft.CognitiveServices.Speech
```

将 SpeechRecognition.cpp 的内容替换为以下代码：

#include <iostream> 
#include <stdlib.h>
#include <speechapi_cxx.h>

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

std::string GetEnvironmentVariable(const char* name);

int main()
{
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    auto speechKey = GetEnvironmentVariable("SPEECH_KEY");
    auto endpoint = GetEnvironmentVariable("ENDPOINT");

    if (std::string(speechKey).empty() || std::string(endpoint).empty()) {
        std::cout << "Please set both SPEECH_KEY and ENDPOINT environment variables." << std::endl;
        return -1;
    }

    auto speechConfig = SpeechConfig::FromEndpoint(endpoint, speechKey);

    speechConfig->SetSpeechRecognitionLanguage("en-US");

    auto audioConfig = AudioConfig::FromDefaultMicrophoneInput();
    auto speechRecognizer = SpeechRecognizer::FromConfig(speechConfig, audioConfig);

    std::cout << "Speak into your microphone.\n";
    auto result = speechRecognizer->RecognizeOnceAsync().get();

    if (result->Reason == ResultReason::RecognizedSpeech)
    {
        std::cout << "RECOGNIZED: Text=" << result->Text << std::endl;
    }
    else if (result->Reason == ResultReason::NoMatch)
    {
        std::cout << "NOMATCH: Speech could not be recognized." << std::endl;
    }
    else if (result->Reason == ResultReason::Canceled)
    {
        auto cancellation = CancellationDetails::FromResult(result);
        std::cout << "CANCELED: Reason=" << (int)cancellation->Reason << std::endl;

        if (cancellation->Reason == CancellationReason::Error)
        {
            std::cout << "CANCELED: ErrorCode=" << (int)cancellation->ErrorCode << std::endl;
            std::cout << "CANCELED: ErrorDetails=" << cancellation->ErrorDetails << std::endl;
            std::cout << "CANCELED: Did you set the speech resource key and endpoint values?" << std::endl;
        }
    }
}

std::string GetEnvironmentVariable(const char* name)
{
#if defined(_MSC_VER)
    size_t requiredSize = 0;
    (void)getenv_s(&requiredSize, nullptr, 0, name);
    if (requiredSize == 0)
    {
        return "";
    }
    auto buffer = std::make_unique<char[]>(requiredSize);
    (void)getenv_s(&requiredSize, buffer.get(), requiredSize, name);
    return buffer.get();
#else
    auto value = getenv(name);
    return value ? value : "";
#endif
}

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。
若要从麦克风启动语音识别，请生成并运行新的控制台应用程序。

重要

请确保设置 SPEECH_KEY 和 ENDPOINT环境变量。如果未设置这些变量，示例会失败并显示错误消息。
当系统提示时，对着麦克风说话。你说出的内容应该会显示为文本：
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

备注

下面是其他一些注意事项：

此示例使用 RecognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。
若要识别音频文件中的语音，请使用 FromWavFileInput 而不是 FromDefaultMicrophoneInput：
```
auto audioConfig = AudioConfig::FromWavFileInput("YourAudioFile.wav");
```
对于压缩的音频文件（如 MP4），请安装 GStreamer 并使用 PullAudioInputStream 或 PushAudioInputStream。有关详细信息，请参阅如何使用压缩的输入音频。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | Package （Go） | GitHub 上的附加示例

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用订阅。
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和终结点。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

语音 SDK 以 Go 包的形式提供。您将在本指南的后续部分安装语音 SDK。有关任何其他要求，请参阅安装语音 SDK。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要设置您的语音资源密钥和终结点的环境变量，请打开控制台窗口，并按照您的操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为您资源的某个终结点。

setx SPEECH_KEY your-key
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源终结点设置环境变量，请执行以下步骤。将您的资源的终结点设置为 ENDPOINT。例如 https://YourServiceRegion.api.cognitive.azure.cn。

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

按照以下步骤创建 Go 应用程序并安装语音 SDK。

在需要新项目的文件夹中打开命令提示符窗口。运行以下命令以创建新的 Go 文件。
```
touch main.go
```

将 main.go 的内容替换为以下代码：

package main

import (
    "fmt"
    "os"

    "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
    "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
)

func main() {
    // This example requires environment variables named "SPEECH_KEY" and "ENDPOINT"
    speechKey := os.Getenv("SPEECH_KEY")
    endpoint := os.Getenv("ENDPOINT")

    speechConfig, err := speech.NewSpeechConfigFromEndpointWithSubscription(endpoint, speechKey)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechConfig.Close()

    audioConfig, err := audio.NewAudioConfigFromDefaultMicrophoneInput()
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer audioConfig.Close()

    speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(speechConfig, audioConfig)
    if err != nil {
        fmt.Println("Got an error: ", err)
        return
    }
    defer speechRecognizer.Close()

    fmt.Println("Speak into your microphone.")
    outcome := <-speechRecognizer.RecognizeOnceAsync()
    defer outcome.Close()
    if outcome.Error != nil {
        fmt.Println("Got an error: ", outcome.Error)
        return
    }

    fmt.Println("RECOGNIZED: Text=", outcome.Result.Text)
}

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。
运行以下命令，创建链接到GitHub上托管的语音 SDK 组件的 go.mod 文件：
```
go mod init captioning
go get github.com/Microsoft/cognitive-services-speech-sdk-go
```
生成 GO 模块。
```
go build
```
运行新的控制台应用程序，开始将语音合成到默认扬声器。
```
go run main.go
```
重要

请确保设置 SPEECH_KEY 和 ENDPOINT环境变量。如果未设置这些变量，示例会失败并显示错误消息。
当系统提示时，对着麦克风说话。你说出的内容应该会显示为文本：
```
Speak into your microphone.
RECOGNIZED: Text=I'm excited to try speech to text.
```

备注

下面是其他一些注意事项：

此示例使用 RecognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。

若要识别音频文件中的语音，请使用 NewAudioConfigFromWavFileInput 而不是 NewAudioConfigFromDefaultMicrophoneInput：

audioConfig, err := audio.NewAudioConfigFromWavFileInput("YourAudioFile.wav")
if err != nil {
     fmt.Println("Got an error: ", err)
     return
}
defer audioConfig.Close()

对于压缩的音频文件（如 MP4），请安装 GStreamer 并使用 PullAudioInputStream 或 PushAudioInputStream。有关详细信息，请参阅如何使用压缩的输入音频。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档 | 软件包（下载） | GitHub上的更多示例

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用帐户
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和区域。部署语音资源后，选择“转到资源”以查看和管理密钥。

设置环境

适用于 Swift 的语音 SDK 目前以框架捆绑包的形式分发。框架同时在 iOS 和 macOS 上支持 Objective-C 和 Swift。

可在 Xcode 项目中将语音 SDK 用作 CocoaPod，也可以直接下载并手动与其建立链接。本指南使用 CocoaPod。根据安装说明中所述，安装 CocoaPod 依赖项管理器。

设置环境变量

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要为语音资源密钥和区域设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将“your-region”替换为你的资源所属地区之一。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为语音资源的实际终结点。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源区域设置环境变量，请执行相同步骤。将 SPEECH_REGION 设置为资源所在的区域。例如 chinanorth2。将 ENDPOINT 设置为资源的终结点

有关更多配置选项，请参阅 Xcode 文档。

识别来自麦克风的语音

按照以下步骤识别 macOS 应用程序中的语音。

克隆 Azure-Samples/cognitive-services-speech-sdk 存储库，以便从 macOS 上的 Swift 中的麦克风获取重新识别语音示例项目。此存储库还包含 iOS 示例。
在终端中导航到已下载的示例应用 (helloworld) 的目录。
运行 pod install 命令。此命令生成一个 helloworld.xcworkspace Xcode 工作区，其中包含示例应用以及用作依赖项的语音 SDK。
在 Xcode 中打开 helloworld.xcworkspace 工作区。

打开名为 AppDelegate.swift 的文件，并找到和 applicationDidFinishLaunching 方法，如下所示。

import Cocoa

@NSApplicationMain
class AppDelegate: NSObject, NSApplicationDelegate {
    var label: NSTextField!
    var fromMicButton: NSButton!

    var sub: String!
    var region: String!

    @IBOutlet weak var window: NSWindow!

    func applicationDidFinishLaunching(_ aNotification: Notification) {
        print("loading")
        // load subscription information
        sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
        region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

        label = NSTextField(frame: NSRect(x: 100, y: 50, width: 200, height: 200))
        label.textColor = NSColor.black
        label.lineBreakMode = .byWordWrapping

        label.stringValue = "Recognition Result"
        label.isEditable = false

        self.window.contentView?.addSubview(label)

        fromMicButton = NSButton(frame: NSRect(x: 100, y: 300, width: 200, height: 30))
        fromMicButton.title = "Recognize"
        fromMicButton.target = self
        fromMicButton.action = #selector(fromMicButtonClicked)
        self.window.contentView?.addSubview(fromMicButton)
    }

    @objc func fromMicButtonClicked() {
        DispatchQueue.global(qos: .userInitiated).async {
            self.recognizeFromMic()
        }
    }

    func recognizeFromMic() {
        var speechConfig: SPXSpeechConfiguration?
        do {
            try speechConfig = SPXSpeechConfiguration(subscription: sub, region: region)
        } catch {
            print("error \(error) happened")
            speechConfig = nil
        }
        speechConfig?.speechRecognitionLanguage = "en-US"

        let audioConfig = SPXAudioConfiguration()

        let reco = try! SPXSpeechRecognizer(speechConfiguration: speechConfig!, audioConfiguration: audioConfig)

        reco.addRecognizingEventHandler() {reco, evt in
            print("intermediate recognition result: \(evt.result.text ?? "(no result)")")
            self.updateLabel(text: evt.result.text, color: .gray)
        }

        updateLabel(text: "Listening ...", color: .gray)
        print("Listening...")

        let result = try! reco.recognizeOnce()
        print("recognition result: \(result.text ?? "(no result)"), reason: \(result.reason.rawValue)")
        updateLabel(text: result.text, color: .black)

        if result.reason != SPXResultReason.recognizedSpeech {
            let cancellationDetails = try! SPXCancellationDetails(fromCanceledRecognitionResult: result)
            print("cancelled: \(result.reason), \(cancellationDetails.errorDetails)")
            print("Did you set the speech resource key and region values?")
            updateLabel(text: "Error: \(cancellationDetails.errorDetails)", color: .red)
        }
    }

    func updateLabel(text: String?, color: NSColor) {
        DispatchQueue.main.async {
            self.label.stringValue = text!
            self.label.textColor = color
        }
    }
}

在 AppDelegate.m 中，使用先前为语音资源密钥和区域设置的环境变量。

sub = ProcessInfo.processInfo.environment["SPEECH_KEY"]
region = ProcessInfo.processInfo.environment["SPEECH_REGION"]

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。
要使调试输出可见，请选择“视图”“调试区域”>“激活控制台”。
在菜单中选择产品>运行，或点击播放按钮，以构建并运行示例代码。

重要

请确保设置 SPEECH_KEY 和 SPEECH_REGION环境变量。如果未设置这些变量，示例会失败并显示错误消息。

选择应用中按钮并讲几句话后，应会在屏幕下方看到你讲出的文本。首次运行该应用时，系统应会提示你是否允许该应用访问计算机的麦克风。

备注

此示例使用 recognizeOnce 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。

Objective-C

Objective-C 版语音 SDK 与 Swift 版语音 SDK 共享客户端库和参考文档。有关 Objective-C 代码示例，请参阅 GitHub 中的在 macOS 上使用 Objective-C 从麦克风识别语音示例项目。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

参考文档包（npm）GitHub 上的附加示例库源代码

在本快速入门中，你将创建并运行应用程序以实时识别语音并将其转录为文本。

提示

若要快速听录音频文件，请考虑使用快速听录 API。快速听录 API 支持语言识别和分割等功能。

若要改为异步听录音频文件，请参阅什么是批量听录。如果不确定哪种语音转文本解决方案适合自己，请参阅什么是语音转文本？

先决条件

一个Azure订阅。可以创建一个试用帐户
在 Azure 门户中创建用于语音的 AI Services 资源。
获取语音资源密钥和区域。部署语音资源后，选择“转到资源”以查看和管理密钥。

你还需要一份在本地计算机上的 .wav 音频文件。可使用自己的 .wav 文件（最长 30 秒），或者下载示例文件。

设置

创建新文件夹 transcription-quickstart，并使用以下命令转到快速入门文件夹：
```
mkdir transcription-quickstart && cd transcription-quickstart
```
使用以下命令创建 package.json：
```
npm init -y
```
使用以下命令将 package.json 更新为 ECMAScript：
```
npm pkg set type=module
```
使用以下命令安装适用于 JavaScript 的语音 SDK：
```
npm install microsoft-cognitiveservices-speech-sdk
```
需要安装 Node.js 类型定义以避免 TypeScript 错误。运行下面的命令：
```
npm install --save-dev @types/node
```

检索资源信息

需要对应用程序进行身份验证才能访问Azure AI services。本文介绍如何使用环境变量来存储凭据。然后，你可以从代码访问环境变量来验证应用程序。对于生产环境，请使用更安全的方式来存储和访问凭据。

重要

我们建议使用 Microsoft Entra ID 来进行管理标识对 Azure 资源的身份验证，以避免将凭据存储在云中运行的应用程序中。

请谨慎使用 API 密钥。请不要直接在代码中包含 API 密钥，并且切勿公开发布该密钥。如果使用 API 密钥，请安全地将其存储在Azure Key Vault中，定期轮换密钥，并使用基于角色的访问控制和网络访问限制来限制对Azure Key Vault的访问。

有关 AI 服务安全性的详细信息，请参阅对 Azure AI 服务请求进行身份验证。

若要为语音资源密钥和区域设置环境变量，请打开控制台窗口，并按照操作系统和开发环境的说明进行操作。

要设置 SPEECH_KEY 环境变量，请将“your-key”替换为你的资源的某一个密钥。
要设置 SPEECH_REGION 环境变量，请将“your-region”替换为你的资源所属地区之一。
若要设置 ENDPOINT 环境变量，请将 your-endpoint 替换为语音资源的实际终结点。

setx SPEECH_KEY your-key
setx SPEECH_REGION your-region
setx ENDPOINT your-endpoint

注意

如果你只需要访问当前控制台中的环境变量，可使用 set（而不是 setx）来设置环境变量。

添加环境变量后，你可能需要重启任何需要读取环境变量的程序（包括控制台窗口）。例如，如果使用Visual Studio作为编辑器，请在运行示例之前重启Visual Studio。

Bash

编辑 .bashrc 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bashrc，使更改生效。

Bash

编辑 .bash_profile 文件，然后添加环境变量：

export SPEECH_KEY=your-key
export SPEECH_REGION=your-region
export ENDPOINT=your-endpoint

添加环境变量后，请从控制台窗口运行 source ~/.bash_profile，使更改生效。

Xcode

对于 iOS 和 macOS 开发，可在 Xcode 中设置环境变量。例如，按照以下步骤在 Xcode 13.4.1 中设置环境变量。

选择产品>方案>编辑方案。
在“运行”（“调试运行”）页面上选择“参数”。
在“环境变量”下，选择加号 (+) 符号来添加新的环境变量。
在名称中输入，在值中输入语音资源密钥。

若要为语音资源区域设置环境变量，请执行相同步骤。将 SPEECH_REGION 设置为资源所在的区域。例如 chinanorth2。将 ENDPOINT 设置为资源的终结点

有关更多配置选项，请参阅 Xcode 文档。

从文件中识别语音

若要将文件中的语音转录，请执行以下步骤：

创建包含以下内容 transcription.ts 的新文件：

import { readFileSync } from "fs";
import { 
    SpeechConfig, 
    AudioConfig, 
    SpeechRecognizer, 
    ResultReason, 
    CancellationDetails, 
    CancellationReason,
    SpeechRecognitionResult 
} from "microsoft-cognitiveservices-speech-sdk";

// This example requires environment variables named "ENDPOINT" and "SPEECH_KEY"
const speechConfig: SpeechConfig = SpeechConfig.fromEndpoint(new URL(process.env.ENDPOINT!), process.env.SPEECH_KEY!);
speechConfig.speechRecognitionLanguage = "en-US";

function fromFile(): void {
    const audioConfig: AudioConfig = AudioConfig.fromWavFileInput(readFileSync("YourAudioFile.wav"));
    const speechRecognizer: SpeechRecognizer = new SpeechRecognizer(speechConfig, audioConfig);

    speechRecognizer.recognizeOnceAsync((result: SpeechRecognitionResult) => {
        switch (result.reason) {
            case ResultReason.RecognizedSpeech:
                console.log(`RECOGNIZED: Text=${result.text}`);
                break;
            case ResultReason.NoMatch:
                console.log("NOMATCH: Speech could not be recognized.");
                break;
            case ResultReason.Canceled:
                const cancellation: CancellationDetails = CancellationDetails.fromResult(result);
                console.log(`CANCELED: Reason=${cancellation.reason}`);

                if (cancellation.reason === CancellationReason.Error) {
                    console.log(`CANCELED: ErrorCode=${cancellation.ErrorCode}`);
                    console.log(`CANCELED: ErrorDetails=${cancellation.errorDetails}`);
                    console.log("CANCELED: Did you set the speech resource key and region values?");
                }
                break;
        }
        speechRecognizer.close();
    });
}

fromFile();

在 transcription.ts中，将 YourAudioFile.wav 替换为自己的 .wav 文件。此示例仅识别 .wav 文件中的语音。有关其他音频格式的信息，请参阅如何使用压缩的输入音频。此示例支持最长 30 秒的音频。

若要更改语音识别语言，请将 en-US 替换为其他支持的语言。例如，使用 es-ES 表示西班牙语（西班牙）。如果未指定语言，则默认值为 en-US。若要详细了解如何识别可能说出的多种语言之一，请参阅语言识别。

创建 tsconfig.json 文件以转译 TypeScript 代码，然后复制以下 ECMAScript 代码。

{
    "compilerOptions": {
      "module": "NodeNext",
      "target": "ES2022", // Supports top-level await
      "moduleResolution": "NodeNext",
      "skipLibCheck": true, // Avoid type errors from node_modules
      "strict": true // Enable strict type-checking options
    },
    "include": ["*.ts"]
}

从 TypeScript 转译到 JavaScript。
```
tsc
```
如果成功，此命令不应生成任何输出。
运行新的控制台应用程序，从文件开始进行语音识别：
```
node transcription.js
```

片刻之后即可获得响应。

输出

音频文件中的语音应以文本的形式输出：

RECOGNIZED: Text=I'm excited to try speech to text.

备注

此示例使用 recognizeOnceAsync 操作听录 30 秒以内的语音，或直到检测到静音。如要详细了解长音频的持续识别（包括多语言对话），请参阅如何识别语音。

清理资源

可以使用 Azure 门户或 Azure命令行接口（CLI）删除创建的语音资源。

快速入门：识别语音并将其转换为文本

先决条件

设置环境变量

从文件中识别语音

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

清理资源

先决条件

设置

检索资源信息

从文件中识别语音

输出

备注

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

清理资源

先决条件

设置环境

设置环境变量

识别来自麦克风的语音

备注

Objective-C

清理资源

先决条件

设置

检索资源信息

从文件中识别语音

输出

备注

清理资源

下一步

其他资源