如何使用压缩的输入音频

语音转文本 REST API 参考 | 用于短音频的语音转文本 REST API 参考 | 更多示例，请访问 GitHub

可用性

可对压缩的音频使用 REST API，但我们尚未制作相关的指南。请选择其他编程语言以开始学习并了解相关概念。

参考文档 | Package （PyPi） | GitHub上的附加示例

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 SDK 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。需要安装一些依赖项和插件。

GStreamer 二进制文件必须位于系统路径中，以便语音 SDK 可以在运行时加载它们。例如，在 Windows，如果语音 SDK 在运行时找到 libgstreamer-1.0-0.dll 或 gstreamer-1.0-0.dll （对于最新的 GStreamer），则表示 GStreamer 二进制文件位于系统路径中。

选择一个平台以查看安装说明。

Linux
Windows

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

请确保安装相同平台（x64 或 x86）的包。例如，如果为 Python 安装了 x64 包，则需要安装 x64 GStreamer 包。以下说明适用于 x64 包。

创建文件夹 c:\gstreamer。
下载安装程序。
将安装程序复制到 c:\gstreamer。
以管理员身份打开 PowerShell。

在 PowerShell 中运行以下命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用“C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0”作为变量值添加系统变量 GST_PLUGIN_PATH。
使用“C:\gstreamer\1.0\msvc_x86_64”作为变量值添加系统变量 GSTREAMER_ROOT_X86_64。
编辑系统变量 PATH 以将“C:\gstreamer\1.0\msvc_x86_64\bin”添加为新条目。
重新启动计算机。

有关 GStreamer 的详细信息，请参阅 Windows 安装说明。

示例

若要将语音 SDK 配置为接受压缩音频输入，请创建 PullAudioInputStream 或 PushAudioInputStream。然后，从流类的实例创建 AudioConfig，以指定流的压缩格式。

假设你的用例是将 PullStream 用于 MP3 文件。你的代码可能如下所示：


import azure.cognitiveservices.speech as speechsdk

class BinaryFileReaderCallback(speechsdk.audio.PullAudioInputStreamCallback):
    def __init__(self, filename: str):
        super().__init__()
        self._file_h = open(filename, "rb")

    def read(self, buffer: memoryview) -> int:
        print('trying to read {} frames'.format(buffer.nbytes))
        try:
            size = buffer.nbytes
            frames = self._file_h.read(size)

            buffer[:len(frames)] = frames
            print('read {} frames'.format(len(frames)))

            return len(frames)
        except Exception as ex:
            print('Exception in `read`: {}'.format(ex))
            raise

    def close(self) -> None:
        print('closing file')
        try:
            self._file_h.close()
        except Exception as ex:
            print('Exception in `close`: {}'.format(ex))
            raise

def compressed_stream_helper(compressed_format,
        mp3_file_path,
        default_speech_auth):
    callback = BinaryFileReaderCallback(mp3_file_path)
    stream = speechsdk.audio.PullAudioInputStream(stream_format=compressed_format, pull_stream_callback=callback)

    speech_config = speechsdk.SpeechConfig(**default_speech_auth)
    audio_config = speechsdk.audio.AudioConfig(stream=stream)

    speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

    done = False

    def stop_cb(evt):
        """callback that signals to stop continuous recognition upon receiving an event `evt`"""
        print('CLOSING on {}'.format(evt))
        nonlocal done
        done = True

    # Connect callbacks to the events fired by the speech recognizer
    speech_recognizer.recognizing.connect(lambda evt: print('RECOGNIZING: {}'.format(evt)))
    speech_recognizer.recognized.connect(lambda evt: print('RECOGNIZED: {}'.format(evt)))
    speech_recognizer.session_started.connect(lambda evt: print('SESSION STARTED: {}'.format(evt)))
    speech_recognizer.session_stopped.connect(lambda evt: print('SESSION STOPPED {}'.format(evt)))
    speech_recognizer.canceled.connect(lambda evt: print('CANCELED {}'.format(evt)))
    # stop continuous recognition on either session stopped or canceled events
    speech_recognizer.session_stopped.connect(stop_cb)
    speech_recognizer.canceled.connect(stop_cb)

    # Start continuous speech recognition
    speech_recognizer.start_continuous_recognition()
    while not done:
        time.sleep(.5)

    speech_recognizer.stop_continuous_recognition()

def pull_audio_input_stream_compressed_mp3(mp3_file_path: str,
        default_speech_auth):
    # Create a compressed format
    compressed_format = speechsdk.audio.AudioStreamFormat(compressed_stream_format=speechsdk.AudioStreamContainerFormat.MP3)
    compressed_stream_helper(compressed_format, mp3_file_path, default_speech_auth)

Reference 文档 | Package（NuGet） | 更多示例 GitHub

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 SDK 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。需要安装一些依赖项和插件。

选择一个平台以查看安装说明。

Linux
Windows

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

请确保安装相同平台（x64 或 x86）的包。例如，如果为 Python 安装了 x64 包，则需要安装 x64 GStreamer 包。以下说明适用于 x64 包。

创建文件夹 c:\gstreamer。
下载安装程序。
将安装程序复制到 c:\gstreamer。
以管理员身份打开 PowerShell。

在 PowerShell 中运行以下命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用“C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0”作为变量值添加系统变量 GST_PLUGIN_PATH。
使用“C:\gstreamer\1.0\msvc_x86_64”作为变量值添加系统变量 GSTREAMER_ROOT_X86_64。
编辑系统变量 PATH 以将“C:\gstreamer\1.0\msvc_x86_64\bin”添加为新条目。
重新启动计算机。

有关 GStreamer 的详细信息，请参阅 Windows 安装说明。

示例

若要将语音 SDK 配置为接受压缩音频输入，请创建 PullAudioInputStream 或 PushAudioInputStream。然后，从流类的实例创建 AudioConfig，以指定流的压缩格式。在关于语音 SDK 音频输入流 API 中查找相关示例代码片段。

让我们假设你有一个名为 pullStream 的输入流类，并且使用 OPUS/OGG。你的代码可能如下所示：

using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

// ... omitted for brevity

var speechConfig =
    SpeechConfig.FromSubscription(
        "YourSpeechResoureKey",
        "YourServiceRegion");

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
var pullStream = AudioInputStream.CreatePullStream(
    AudioStreamFormat.GetCompressedFormat(AudioStreamContainerFormat.OGG_OPUS));
var audioConfig = AudioConfig.FromStreamInput(pullStream);

using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);
var result = await recognizer.RecognizeOnceAsync();

var text = result.Text;

参考文档 | 包（npm） | GitHub 上的附加示例 | 库源代码

适用于 JavaScript 的语音 SDK 不支持压缩的音频。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。若要输入压缩音频文件（例如 mp3），必须先将它转换为采用默认输入格式的 WAV 文件。若要流式传输压缩的音频，必须先将音频缓冲区解码为默认输入格式。有关详细信息，请参阅如何使用音频输入流。

参考文档 | GitHub 上的其他示例

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 SDK 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。需要安装一些依赖项和插件。

选择一个平台以查看安装说明。

处理压缩音频是使用 GStreamer 实现的。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。但是，需要使用适用于 Android 的预生成二进制文件。若要下载预生成库，请参阅为 Android 开发安装。

libgstreamer_android.so 对象是必需的。请确保已在 libgstreamer_android.so 中关联所有 GStreamer 插件（来自下面的 Android.mk 文件）。使用 GStreamer 版本 1.18.3 的语音 SDK 时，还需要确保 Android NDK 中的 libc++_shared.so 存在。

GSTREAMER_PLUGINS := coreelements app audioconvert mpg123 \
    audioresample audioparsers ogg opusparse \
    opus wavparse alaw mulaw flac

下面提供了 Android.mk 和 Application.mk 文件示例。按照以下步骤创建 gstreamer 共享对象：libgstreamer_android.so。

# Android.mk
LOCAL_PATH := $(call my-dir)

include $(CLEAR_VARS)

LOCAL_MODULE    := dummy
LOCAL_SHARED_LIBRARIES := gstreamer_android
include $(BUILD_SHARED_LIBRARY)

ifndef GSTREAMER_ROOT_ANDROID
$(error GSTREAMER_ROOT_ANDROID is not defined!)
endif

ifndef APP_BUILD_SCRIPT
$(error APP_BUILD_SCRIPT is not defined!)
endif

ifndef TARGET_ARCH_ABI
$(error TARGET_ARCH_ABI is not defined!)
endif

ifeq ($(TARGET_ARCH_ABI),armeabi)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm
else ifeq ($(TARGET_ARCH_ABI),armeabi-v7a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/armv7
else ifeq ($(TARGET_ARCH_ABI),arm64-v8a)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/arm64
else ifeq ($(TARGET_ARCH_ABI),x86)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86
else ifeq ($(TARGET_ARCH_ABI),x86_64)
GSTREAMER_ROOT        := $(GSTREAMER_ROOT_ANDROID)/x86_64
else
$(error Target arch ABI not supported: $(TARGET_ARCH_ABI))
endif

GSTREAMER_NDK_BUILD_PATH  := $(GSTREAMER_ROOT)/share/gst-android/ndk-build/
include $(GSTREAMER_NDK_BUILD_PATH)/plugins.mk
GSTREAMER_PLUGINS         :=  $(GSTREAMER_PLUGINS_CORE) \ 
                              $(GSTREAMER_PLUGINS_CODECS) \ 
                              $(GSTREAMER_PLUGINS_PLAYBACK) \
                              $(GSTREAMER_PLUGINS_CODECS_GPL) \
                              $(GSTREAMER_PLUGINS_CODECS_RESTRICTED)
GSTREAMER_EXTRA_LIBS      := -liconv -lgstbase-1.0 -lGLESv2 -lEGL
include $(GSTREAMER_NDK_BUILD_PATH)/gstreamer-1.0.mk

# Application.mk
APP_STL = c++_shared
APP_PLATFORM = android-21
APP_BUILD_SCRIPT = Android.mk

可以在 Ubuntu 18.04 或 20.04 上使用以下命令生成 libgstreamer_android.so。以下命令行针对使用 Android NDK b16b 的 [GStreamer Android 版本 1.14.4] 进行了测试。

# Assuming wget and unzip are already installed on the system
mkdir buildLibGstreamer
cd buildLibGstreamer
wget https://dl.google.com/android/repository/android-ndk-r16b-linux-x86_64.zip
unzip -q -o android-ndk-r16b-linux-x86_64.zip
export PATH=$PATH:$(pwd)/android-ndk-r16b
export NDK_PROJECT_PATH=$(pwd)/android-ndk-r16b
wget https://gstreamer.freedesktop.org/download/
mkdir gstreamer_android
tar -xjf gstreamer-1.0-android-universal-1.14.4.tar.bz2 -C $(pwd)/gstreamer_android/
export GSTREAMER_ROOT_ANDROID=$(pwd)/gstreamer_android

mkdir gstreamer
# Copy the Application.mk and Android.mk from the documentation above and put it inside $(pwd)/gstreamer

# Enable only one of the following at one time to create the shared object for the targeted ABI
echo "building for armeabi-v7a. libgstreamer_android.so will be placed in $(pwd)/armeabi-v7a"
ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=armeabi-v7a NDK_LIBS_OUT=$(pwd)

#echo "building for arm64-v8a. libgstreamer_android.so will be placed in $(pwd)/arm64-v8a"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=arm64-v8a NDK_LIBS_OUT=$(pwd)

#echo "building for x86_64. libgstreamer_android.so will be placed in $(pwd)/x86_64"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86_64 NDK_LIBS_OUT=$(pwd)

#echo "building for x86. libgstreamer_android.so will be placed in $(pwd)/x86"
#ndk-build -C $(pwd)/gstreamer "NDK_APPLICATION_MK=Application.mk" APP_ABI=x86 NDK_LIBS_OUT=$(pwd)

生成共享对象 (libgstreamer_android.so) 后，将共享对象放在 Android 应用中，以便语音 SDK 加载它。

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

请确保安装相同平台（x64 或 x86）的包。例如，如果为 Python 安装了 x64 包，则需要安装 x64 GStreamer 包。以下说明适用于 x64 包。

创建文件夹 c:\gstreamer。
下载安装程序。
将安装程序复制到 c:\gstreamer。
以管理员身份打开 PowerShell。

在 PowerShell 中运行以下命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用“C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0”作为变量值添加系统变量 GST_PLUGIN_PATH。
使用“C:\gstreamer\1.0\msvc_x86_64”作为变量值添加系统变量 GSTREAMER_ROOT_X86_64。
编辑系统变量 PATH 以将“C:\gstreamer\1.0\msvc_x86_64\bin”添加为新条目。
重新启动计算机。

有关 GStreamer 的详细信息，请参阅 Windows 安装说明。

示例

若要将语音 SDK 配置为接受压缩的音频输入，请创建 PullAudioInputStream 或 PushAudioInputStream。然后，从流类的实例创建 AudioConfig，以指定流的压缩格式。在 Speech SDK 示例中找到相关示例代码。

让我们假设你有一个名为 pullAudio 的输入流类并且使用 MP3。你的代码可能如下所示：

String filePath = "whatstheweatherlike.mp3";
PullAudioInputStream pullAudio = AudioInputStream.createPullStream(new BinaryAudioStreamReader(filePath),
    AudioStreamFormat.getCompressedFormat(AudioStreamContainerFormat.MP3));
AudioConfig audioConfig = AudioConfig.fromStreamInput(pullAudio);

Reference 文档 | Package（NuGet） | 更多示例 GitHub

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 SDK 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。需要安装一些依赖项和插件。

选择一个平台以查看安装说明。

Linux
Windows

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

请确保安装相同平台（x64 或 x86）的包。例如，如果为 Python 安装了 x64 包，则需要安装 x64 GStreamer 包。以下说明适用于 x64 包。

创建文件夹 c:\gstreamer。
下载安装程序。
将安装程序复制到 c:\gstreamer。
以管理员身份打开 PowerShell。

在 PowerShell 中运行以下命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用“C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0”作为变量值添加系统变量 GST_PLUGIN_PATH。
使用“C:\gstreamer\1.0\msvc_x86_64”作为变量值添加系统变量 GSTREAMER_ROOT_X86_64。
编辑系统变量 PATH 以将“C:\gstreamer\1.0\msvc_x86_64\bin”添加为新条目。
重新启动计算机。

有关 GStreamer 的详细信息，请参阅 Windows 安装说明。

示例

若要将语音 SDK 配置为接受压缩音频输入，请创建 PullAudioInputStream 或 PushAudioInputStream。然后，从流类的实例创建 AudioConfig，以指定流的压缩格式。在 Speech SDK 示例中找到相关示例代码。

让我们假设你有一个名为 pushStream 的输入流类，并且使用 OPUS/OGG。你的代码可能如下所示：

using namespace Microsoft::CognitiveServices::Speech;
using namespace Microsoft::CognitiveServices::Speech::Audio;

// ... omitted for brevity

 auto config =
    SpeechConfig::FromSubscription(
        "YourSpeechResoureKey",
        "YourServiceRegion"
    );

// Create an audio config specifying the compressed
// audio format and the instance of your input stream class.
auto pullStream = AudioInputStream::CreatePullStream(
    AudioStreamFormat::GetCompressedFormat(AudioStreamContainerFormat::OGG_OPUS));
auto audioConfig = AudioConfig::FromStreamInput(pullStream);

auto recognizer = SpeechRecognizer::FromConfig(config, audioConfig);
auto result = recognizer->RecognizeOnceAsync().get();

auto text = result->Text;

参考文档 | Package （Go） | GitHub 上的附加示例

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 SDK 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 SDK 关联。需要安装一些依赖项和插件。

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

示例

若要将语音 SDK 配置为接受压缩的音频输入，请创建 PullAudioInputStream 或 PushAudioInputStream。然后，从流类的实例创建 AudioConfig，以指定流的压缩格式。

在下面的示例中，假设用例使用 PushStream 来处理压缩文件。


package recognizer

import (
  "fmt"
  "time"
    "strings"

  "github.com/Microsoft/cognitive-services-speech-sdk-go/audio"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/speech"
  "github.com/Microsoft/cognitive-services-speech-sdk-go/samples/helpers"
)

func RecognizeOnceFromCompressedFile(subscription string, region string, file string) {
  var containerFormat audio.AudioStreamContainerFormat
  if strings.Contains(file, ".mulaw") {
    containerFormat = audio.MULAW
  } else if strings.Contains(file, ".alaw") {
    containerFormat = audio.ALAW
  } else if strings.Contains(file, ".mp3") {
    containerFormat = audio.MP3
  } else if strings.Contains(file, ".flac") {
    containerFormat = audio.FLAC
  } else if strings.Contains(file, ".opus") {
    containerFormat = audio.OGGOPUS
  } else {
    containerFormat = audio.ANY
  }
  format, err := audio.GetCompressedFormat(containerFormat)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer format.Close()
  stream, err := audio.CreatePushAudioInputStreamFromFormat(format)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer stream.Close()
  audioConfig, err := audio.NewAudioConfigFromStreamInput(stream)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer audioConfig.Close()
  config, err := speech.NewSpeechConfigFromSubscription(subscription, region)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer config.Close()
  speechRecognizer, err := speech.NewSpeechRecognizerFromConfig(config, audioConfig)
  if err != nil {
    fmt.Println("Got an error: ", err)
    return
  }
  defer speechRecognizer.Close()
  speechRecognizer.SessionStarted(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Started (ID=", event.SessionID, ")")
  })
  speechRecognizer.SessionStopped(func(event speech.SessionEventArgs) {
    defer event.Close()
    fmt.Println("Session Stopped (ID=", event.SessionID, ")")
  })
  helpers.PumpFileIntoStream(file, stream)
  task := speechRecognizer.RecognizeOnceAsync()
  var outcome speech.SpeechRecognitionOutcome
  select {
  case outcome = <-task:
  case <-time.After(40 * time.Second):
    fmt.Println("Timed out")
    return
  }
  defer outcome.Close()
  if outcome.Error != nil {
    fmt.Println("Got an error: ", outcome.Error)
  }
  fmt.Println("Got a recognition!")
  fmt.Println(outcome.Result.Text)
}

参考文档 | 软件包（下载） | GitHub上的更多示例

适用于 Objective-C 的语音 SDK 不支持压缩的音频。

语音 SDK 和语音 CLI 使用 GStreamer 支持不同类型的输入音频格式。 GStreamer 会先解压缩音频，然后再将音频作为原始 PCM 通过网络发送到语音服务。

默认音频流格式为 WAV（16 KHz 或 8 kHz，16 位，单声道 PCM）。除 WAV 和 PCM 之外，GStreamer 还支持以下压缩输入格式：

MP3
OPUS/OGG
FLAC
WAV 容器中的 ALAW
WAV 容器中的 MULAW
MP4 容器中的任意或未知媒体格式

GStreamer 配置

语音 CLI 可以使用 GStreamer 来处理压缩的音频。出于许可原因，GStreamer 二进制文件未编译，也未与语音 CLI 相关联。需要安装一些依赖项和插件。

GStreamer 二进制文件必须位于系统路径中，以便语音 CLI 可以在运行时加载它们。例如，在Windows上，如果语音 CLI 在运行时找到 libgstreamer-1.0-0.dll 或 gstreamer-1.0-0.dll（对于最新的 GStreamer），则表示 GStreamer 二进制文件位于系统路径中。

选择一个平台以查看安装说明。

Linux
Windows

你需要安装几个依赖项和插件。

Ubuntu/Debian

sudo apt install libgstreamer1.0-0 \
gstreamer1.0-plugins-base \
gstreamer1.0-plugins-good \
gstreamer1.0-plugins-bad \
gstreamer1.0-plugins-ugly

有关详细信息，请参阅 Linux 安装说明和支持的 Linux 发行版和目标体系结构。

请确保安装相同平台（x64 或 x86）的包。例如，如果为 Python 安装了 x64 包，则需要安装 x64 GStreamer 包。以下说明适用于 x64 包。

创建文件夹 c:\gstreamer。
下载安装程序。
将安装程序复制到 c:\gstreamer。
以管理员身份打开 PowerShell。

在 PowerShell 中运行以下命令：

cd c:\gstreamer
msiexec /passive INSTALLLEVEL=1000 INSTALLDIR=C:\gstreamer /i gstreamer-1.0-msvc-x86_64-1.18.3.msi

使用“C:\gstreamer\1.0\msvc_x86_64\lib\gstreamer-1.0”作为变量值添加系统变量 GST_PLUGIN_PATH。
使用“C:\gstreamer\1.0\msvc_x86_64”作为变量值添加系统变量 GSTREAMER_ROOT_X86_64。
编辑系统变量 PATH 以将“C:\gstreamer\1.0\msvc_x86_64\bin”添加为新条目。
重新启动计算机。

有关 GStreamer 的详细信息，请参阅 Windows 安装说明。

示例

--format 选项指定正在识别的音频文件的容器格式。对于 mp4 文件，请将格式设置为 any，如以下命令中所示：

终端
PowerShell

spx recognize --file YourAudioFile.mp4 --format any

spx --% recognize --file YourAudioFile.mp4 --format any

若要获取受支持音频格式的列表，请运行以下命令：

终端
PowerShell

spx help recognize format

spx help recognize format

参考文档 | 软件包（下载） | GitHub上的更多示例

适用于 Swift 的语音 SDK 不支持压缩的音频。

后续步骤

Last updated on 2026-06-09

如何使用压缩的输入音频

可用性

GStreamer 配置

示例

GStreamer 配置

示例

GStreamer 配置

示例

GStreamer 配置

示例

GStreamer 配置

示例

GStreamer 配置

示例

后续步骤

Recursos adicionales