快速入门:安装语音 SDK

选择编程语言或工具

参考文档 | 包 (NuGet) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 C# 的语音 SDK

平台要求

适用于 C# 的语音 SDK 与 Windows、Linux 和 macOS 兼容。

适用于 C# 的语音 SDK 仅支持 x64、ARM32 和 ARM64 体系结构上的以下分发:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12
  • Amazon Linux 2023
  • Azure Linux 3.0

重要

使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。

语音 SDK 依赖于以下 Linux 系统库:

  • GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads)。
  • OpenSSL 库版本 1.x (libssl1) 或 3.x (libssl3),以及证书 (ca-certificates)。
  • ALSA 应用程序的共享库 (libasound2)。

运行以下命令:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

安装适用于 C# 的语音 SDK

适用于 C# 的语音 SDK 以 NuGet 包的形式提供并实现了 .NET Standard 2.0。 有关详细信息,请参阅 Microsoft.CognitiveServices.Speech

可以使用以下 dotnet add 命令从 .NET Core CLI 安装适用于 C# 的语音 SDK:

dotnet add package Microsoft.CognitiveServices.Speech

参考文档 | 包 (NuGet) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 C++ 的语音 SDK

平台要求

适用于 C++ 的语音 SDK 与 Windows、Linux 和 macOS 兼容。

适用于 C++ 的语音 SDK 仅支持 x64、ARM32 和 ARM64 体系结构上的以下分发:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12
  • Amazon Linux 2023
  • Azure Linux 3.0

重要

使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。

语音 SDK 依赖于以下 Linux 系统库:

  • GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads)。
  • OpenSSL 库版本 1.x (libssl1) 或 3.x (libssl3),以及证书 (ca-certificates)。
  • ALSA 应用程序的共享库 (libasound2)。

运行以下命令:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

安装适用于 C++ 的语音 SDK

适用于 C++ 的语音 SDK 以 NuGet 包的形式提供。 有关详细信息,请参阅 Microsoft.CognitiveServices.Speech

可以使用以下 dotnet add 命令从 .NET Core CLI 安装适用于 C++ 的语音 SDK:

dotnet add package Microsoft.CognitiveServices.Speech

可以按照这些指南获取更多选项。

本指南介绍如何安装用于 Linux 的语音 SDK

使用以下过程下载并安装 SDK。 这些步骤包括.tar 文件格式下载所需的库和头文件

  1. 为语音 SDK 文件选择目录。 将 SPEECHSDK_ROOT 环境变量设置为指向该目录。 使用此变量,在将来的命令中可以轻松引用目录。

    若要使用主目录中的 speechsdk 目录,请运行以下命令

    export SPEECHSDK_ROOT="$HOME/speechsdk"
    
  2. 创建目录(如果不存在):

    mkdir -p "$SPEECHSDK_ROOT"
    
  3. 下载并提取包含语音 SDK 二进制文件的 .tar.gz 存档:

    wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
    tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
    
  4. 验证所提取的程序包的顶级目录的内容:

    ls -l "$SPEECHSDK_ROOT"
    

    目录列表应包含合作伙伴通知和许可证文件。 该列表还应包含容纳头文件 (.h) 的 include 目录和容纳 arm32、arm64、x64 和 x86 库的 lib 目录。

    路径 说明
    license.md 许可
    ThirdPartyNotices.md 合作伙伴通知
    REDIST.txt 再分发声明
    include C++ 必需的头文件
    lib/arm32 ARM32 必需的用来链接应用程序的本机库
    lib/arm64 ARM64 必需的用来链接应用程序的本机库
    lib/x64 x64 必需的用来链接应用程序的本机库
    lib/x86 需要 x86 本地库来链接您的应用程序

参考文档 | 包 (Go) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 Go 的语音 SDK

平台要求

适用于 Go 的语音 SDK 支持 x64 体系结构上的以下分发:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12

重要

使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。

语音 SDK 依赖于以下 Linux 系统库:

  • GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads)。
  • OpenSSL 库版本 1.x (libssl1) 或 3.x (libssl3),以及证书 (ca-certificates)。
  • ALSA 应用程序的共享库 (libasound2)。

运行以下命令:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

安装 Go 二进制版本 1.13 或更高版本

安装适用于 Go 的语音 SDK

使用以下过程下载并安装 SDK。 这些步骤包括.tar 文件格式下载所需的库和头文件

  1. 为语音 SDK 文件选择目录。 将 SPEECHSDK_ROOT 环境变量设置为指向该目录。 使用此变量,在将来的命令中可以轻松引用目录。

    若要使用主目录中的 speechsdk 目录,请运行以下命令

    export SPEECHSDK_ROOT="$HOME/speechsdk"
    
  2. 创建目录(如果不存在):

    mkdir -p "$SPEECHSDK_ROOT"
    
  3. 下载并提取包含语音 SDK 二进制文件的 .tar.gz 存档:

    wget -O SpeechSDK-Linux.tar.gz https://aka.ms/csspeech/linuxbinary
    tar --strip 1 -xzf SpeechSDK-Linux.tar.gz -C "$SPEECHSDK_ROOT"
    
  4. 验证所提取的程序包的顶级目录的内容:

    ls -l "$SPEECHSDK_ROOT"
    

    目录列表应包含合作伙伴通知和许可证文件。 该列表还应包含容纳头文件 (.h) 的 include 目录和容纳 arm32、arm64、x64 和 x86 库的 lib 目录。

    路径 说明
    license.md 许可
    ThirdPartyNotices.md 合作伙伴通知
    REDIST.txt 再分发声明
    include C++ 必需的头文件
    lib/arm32 ARM32 必需的用来链接应用程序的本机库
    lib/arm64 ARM64 必需的用来链接应用程序的本机库
    lib/x64 x64 必需的用来链接应用程序的本机库
    lib/x86 需要 x86 本地库来链接您的应用程序

配置 Go 环境

通过以下步骤可使 Go 环境能够查找语音 SDK。

  1. 由于绑定依赖于 cgo,因此需要设置环境变量,以便 Go 可以找到 SDK。

    export CGO_CFLAGS="-I$SPEECHSDK_ROOT/include/c_api"
    export CGO_LDFLAGS="-L$SPEECHSDK_ROOT/lib/<architecture> -lMicrosoft.CognitiveServices.Speech.core"
    

    重要

    <architecture> 替换为 CPU 的处理器体系结构:x64arm32arm64

  2. 若要运行应用程序和 SDK,需要告知操作系统可在何处可以找到库。

    export LD_LIBRARY_PATH="$SPEECHSDK_ROOT/lib/<architecture>:$LD_LIBRARY_PATH"
    

    重要

    <architecture> 替换为 CPU 的处理器体系结构:x64arm32arm64

参考文档 | GitHub 上的其他示例

在本快速入门中,我们安装适用于 Java 的语音 SDK

平台要求

选择目标环境:

适用于 Java 的语音 SDK 与 Windows、Linux 和 macOS 兼容。

适用于 Java 的语音 SDK 仅支持 x64、ARM32 和 ARM64 体系结构上的以下分发:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12
  • Amazon Linux 2023
  • Azure Linux 3.0

重要

使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。

语音 SDK 依赖于以下 Linux 系统库:

  • GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads)。
  • OpenSSL 库版本 1.x (libssl1) 或 3.x (libssl3),以及证书 (ca-certificates)。
  • ALSA 应用程序的共享库 (libasound2)。

运行以下命令:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

安装 Java 开发工具包,例如 Azul Zulu OpenJDKMicrosoft Build of OpenJDK 或你喜欢的 JDK 应该也能正常工作。

安装适用于 Java 的语音 SDK

某些说明使用特定的 SDK 版本,例如 1.42.0。 若要查看最新版本,请搜索我们的 GitHub 存储库

选择目标环境:

本指南介绍如何在 Java 运行时上安装用于 Java 的语音 SDK

支持的操作系统

用于 Java 包的语音 SDK 适用于以下操作系统:

按照以下步骤使用 Apache Maven 安装适用于 Java 的语音 SDK:

  1. 安装 Apache Maven

  2. 在需要新项目的位置打开命令提示符,并创建一个新的 pom.xml 文件。

  3. 将以下 XML 内容复制到 pom.xml 中:

    <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
        <modelVersion>4.0.0</modelVersion>
        <groupId>com.microsoft.cognitiveservices.speech.samples</groupId>
        <artifactId>quickstart-eclipse</artifactId>
        <version>1.0.0-SNAPSHOT</version>
        <build>
            <sourceDirectory>src</sourceDirectory>
            <plugins>
            <plugin>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.7.0</version>
                <configuration>
                <source>1.8</source>
                <target>1.8</target>
                </configuration>
            </plugin>
            </plugins>
        </build>
        <dependencies>
            <dependency>
            <groupId>com.microsoft.cognitiveservices.speech</groupId>
            <artifactId>client-sdk</artifactId>
            <version>1.42.0</version>
            </dependency>
        </dependencies>
    </project>
    
  4. 若要安装语音 SDK 和依赖项,请运行以下 Maven 命令。

    mvn clean dependency:copy-dependencies
    

参考文档 | 包 (npm) | GitHub 上的其他示例 | 库源代码

在本快速入门中,我们安装适用于 JavaScript 的语音 SDK

适用于 JavaScript 的语音 SDK 以 npm 包的形式提供。 请参阅 microsoft-cognitiveservices-speech-sdk 及其配套的 GitHub 存储库 cognitive-services-speech-sdk-js

平台要求

了解 Node.js 和客户端 Web 浏览器之间的各种体系结构影响。 例如,文档对象模型 (DOM) 不适用于服务器端应用程序。 Node.js 文件系统不适用于客户端应用程序。

安装适用于 JavaScript 的语音 SDK

请根据目标环境使用以下指南之一:

本指南介绍如何安装可以在 Node.js 中使用的 JavaScript 版语音 SDK

  1. 安装 Node.js

  2. 创建一个新目录,运行 npm init 并浏览其提示。

  3. 若要安装适用于 JavaScript 的语音 SDK,请运行以下 npm install 命令:

    npm install microsoft-cognitiveservices-speech-sdk
    

有关详细信息,请参阅 Node.js 示例

使用语音 SDK

  • 添加以下 import 语句以在 JavaScript 项目中使用语音 SDK:

    import * as sdk from "microsoft-cognitiveservices-speech-sdk";
    

有关 import 的详细信息,请参阅 JavaScript 网站上的导出和导入

或者,可以使用 require 语句:

const sdk = require("microsoft-cognitiveservices-speech-sdk");

参考文档 | 包(下载) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 Objective-C 的语音 SDK

提示

有关使用适用于 Swift 的语音 SDK 的详细信息,请参阅将 Objective-C 导入 Swift

安装适用于 Objective-C 的语音 SDK

适用于 Objective-C 的语音 SDK 以 CocoaPod 包的形式本机提供,适用于 Mac x64 和基于 ARM 的芯片。

Mac 的系统需求:

  • macOS 版本 10.14 或更高版本

macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。

  1. 转到 .xcodeproj 项目文件所在的 Xcode 目录。

  2. 运行 pod init 以创建一个名为 Podfile 的 Pod 文件。

  3. Podfile 文件的内容替换为以下内容。 将 target 名称从 AppName 更新为应用的名称。 根据需要更新平台或 Pod 版本。

    platform :osx, 10.14
    use_frameworks!
    
    target 'AppName' do
      pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.42.0'
    end
    
  4. 运行 pod install 以安装语音 SDK。

或者,下载二进制 CocoaPod 并提取其内容。 在 Xcode 项目中,添加对提取的 MicrosoftCognitiveServicesSpeech.xcframework 文件夹及其内容的引用。

参考文档 | 包(下载) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 Swift 的语音 SDK

提示

有关使用适用于 Swift 的语音 SDK 的详细信息,请参阅将 Objective-C 导入 Swift

安装适用于 Swift 的语音 SDK

用于 Swift 的语音 SDK 作为 CocoaPod 包原生提供,支持 Mac x64 和 ARM 架构的系统。

Mac 的系统需求:

  • macOS 版本 10.14 或更高版本

macOS CocoaPod 包可供下载并在 Xcode 9.4.1(或更高版本)集成开发环境 (IDE) 中使用。

  1. 转到 .xcodeproj 项目文件所在的 Xcode 目录。

  2. 运行 pod init 以创建一个名为 Podfile 的 Pod 文件。

  3. Podfile 文件的内容替换为以下内容。 将 target 名称从 AppName 更新为应用的名称。 根据需要更新平台或 Pod 版本。

    platform :osx, 10.14
    use_frameworks!
    
    target 'AppName' do
      pod 'MicrosoftCognitiveServicesSpeech-macOS', '~> 1.42.0'
    end
    
  4. 运行 pod install 以安装语音 SDK。

或者,下载二进制 CocoaPod 并提取其内容。 在 Xcode 项目中,添加对提取的 MicrosoftCognitiveServicesSpeech.xcframework 文件夹及其内容的引用。

参考文档 | 包 (PyPi) | GitHub 上的其他示例

在本快速入门中,我们安装适用于 Python 的语音 SDK

平台要求

适用于 Python 的语音 SDK 与 Windows、Linux 和 macOS 兼容。

适用于 Python 的语音 SDK 支持 x64 和 ARM64 体系结构上的以下分发:

  • Ubuntu 20.04/22.04/24.04
  • Debian 11/12
  • Amazon Linux 2023
  • Azure Linux 3.0

重要

使用 Linux 分发版的最新 LTS 版本。 例如,如果使用 Ubuntu 20.04 LTS,请使用最新版本的 Ubuntu 20.04.X。

语音 SDK 依赖于以下 Linux 系统库:

  • GNU C 库的共享库(包括 POSIX 线程编程库 libpthreads)。
  • OpenSSL 库版本 1.x (libssl1) 或 3.x (libssl3),以及证书 (ca-certificates)。
  • ALSA 应用程序的共享库 (libasound2)。

运行以下命令:

sudo apt-get update
sudo apt-get install build-essential ca-certificates libasound2-dev libssl-dev wget

安装 Python 3.8 或更高版本

  • 若要检查安装情况,请打开终端并运行命令 python --version。 如果 Python 安装正确,则会收到类似 Python 3.8.10 的响应。

  • 如果你使用的是 macOS 或 Linux,可能需要改为运行命令 python3 --version

    若要启用 python 而不是 python3,请运行 alias python='python3' 以设置别名。 语音 SDK 快速入门示例指定了 python 用法。

安装适用于 Python 的语音 SDK

安装适用于 Python 的语音 SDK 之前,请确保满足平台先决条件

从 PyPI 安装

若要安装适用于 Python 的语音 SDK,请在控制台窗口中运行以下命令:

pip install azure-cognitiveservices-speech

升级到最新的语音 SDK 版本

若要升级到最新的语音 SDK,请在控制台窗口中运行以下命令:

pip install --upgrade azure-cognitiveservices-speech

可以通过查看 azure.cognitiveservices.speech.__version__ 变量来检查当前安装的适用于 Python 的语音 SDK 版本。 例如,在控制台窗口中运行以下命令:

pip list

使用语音 SDK

添加以下 import 语句以在 Python 项目中使用语音 SDK:

import azure.cognitiveservices.speech as speechsdk

代码示例

GitHub 上的 Azure-Samples/cognitive-services-speech-sdk 存储库中提供了深入示例。 C# (包括 UWP 和 Unity)、C++、Java、JavaScript(包括浏览器和 Node.js)、Objective-C、Python 和 Swift 都有示例。 GitHub 上的 Microsoft/cognitive-services-speech-sdk-go 存储库中提供了 Go 代码示例。