什么是语音 CLI?
语音 CLI 是一种命令行工具,用于在不编写任何代码的情况下使用语音服务。 语音 CLI 需要的设置很少。 可以轻松地使用它来试验语音服务的主要功能,并了解它如何与用例结合使用。 在几分钟内即可运行简单的测试工作流,如对一系列文件中的语音进行批量语音识别,或对文件中的字符串集合进行文本转语音操作。 除了简单的工作流,语音 CLI 还可随时投入生产,并且可以使用自动化 .bat
或 shell 脚本进行纵向扩展,以运行更大的进程。
语音 SDK 中的大部分功能都可在语音 CLI 中使用,一些高级功能和自定义设置在语音 CLI 中进行了简化。 当你决定什么时候使用语音 CLI,什么时候使用语音 SDK 时,请考虑以下指南。
适合使用语音 CLI 的情况:
- 想在极少设置且无需编写代码的情况下试验语音服务功能。
- 对使用语音服务的生产应用程序的要求相对简单。
适合使用语音 SDK 的情况:
- 需要在特定语言或平台(如 C#、Python 或 C++)中集成语音服务功能。
- 你有可能需要高级服务请求的复杂需求。
- 你要开发自定义行为,包括响应流。
核心功能
语音识别:将音频文件中的或直接将麦克风语音转换为文本,或转录录制的对话。
语音合成:将文本文件中输入的文本或直接来自于命令行的输入文本转换为语音。 使用语音合成标记语言 (SSML) 配置自定义语音输出特征。
语音翻译:将源语言的音频翻译为目标语言的文本或音频。
在 Azure 计算资源上运行:使用
spx webjob
发送语音 CLI 命令以在 Azure 远程计算资源上运行。
入门
若要开始使用语音 CLI,请参阅快速入门。 本文介绍如何运行一些基本命令。 它还提供了一些稍微更高级的命令,用于运行语音转文本和文本转语音的批处理操作。 当你阅读了“基本信息”一文后,你应该已足够了解语法,因而可以开始编写一些自定义命令或自动执行简单的语音服务操作。