共用方式為

将代码从版本 2024-11-15 迁移到版本 2025-10-15

使用语音转文本 REST API 快速听录批量听录自定义语音。 本文介绍版本 2024-11-15 到版本 2025-10-15 的更改。

重要

语音转文本 REST API 版本 2025-10-15 是正式发布的最新版本。

  • 语音转文本 REST API 版本 2024-05-15-preview 即将停用,具体日期待宣布。
  • 语音转文本 REST API v3.0v3.1v3.23.2-preview.1将于 3.2-preview.2 2026 年 3 月 31 日停用。

有关升级的详细信息,请参阅语音转文本 REST API v3.0 到 v3.1v3.1 到 v3.2v3.2 到 2024-11-15 迁移指南。

总结此版本中的更改:

  • 转录 API 新增了增强模式和短语列表功能。
  • Projects API 已返回(不在 2024-11-15 版本中),且进行了若干更改。

转录 API 更改

请求结构

  • 新终结点:
    POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15
    
  • 标头和表单数据:
    • Content-Type: multipart/form-data
    • Ocp-Apim-Subscription-Key: $KEY
    • 窗体字段: definitionaudio

Example:

curl --request POST \
  --url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
  --header 'Content-Type: multipart/form-data' \
  --header 'Ocp-Apim-Subscription-Key: $KEY' \
  --form 'definition=$DEFINITION' \
  --form 'audio=@C:\workspace\audios\test.wav'

定义对象更新

  • 删除:
    • "models" 字典(不再位于请求定义中)
  • 添加:
    • "disfluencyRemoval" (布尔):删除填充词(如“um”和“uh”)
    • "phraseList":现在支持 biasingWeight 以调整识别偏差
    • "enhancedMode" 对象包括:
      • enabled(布尔值)
      • task (如 "translate"
      • targetLanguage (如 "ko"
      • prompt (指令数组或词汇增强)

Example:

{
  "locales": ["en-US"],
  "profanityFilterMode": "Masked",
  "diarization": {
    "enabled": true,
    "maxSpeakers": 6
  },
  "channels": [0],
  "disfluencyRemoval": true,
  "enhancedMode": {
    "enabled": true,
    "task": "translate",
    "targetLanguage": "ko",
    "prompt": [
      "Provide lexical output",
      "Boost the terms: CONTOSO, AAZZ; Replace '50cents' to '50-Cents'"
    ]
  },
  "phraseList": {
    "phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
    "biasingWeight": 1.6
  }
}

结果结构

  • 基于通道的输出:
    • 结果按通道进行组织
  • 短语分段:
    • 每个短语包括频道、开始和结束时间、发言者、文本和字词级置信度

项目 API 更改

新增功能

  • Foundry 项目名称:
    • 新属性: foundryProjectName 在“创建”、“获取”、“更新”和“列出 API”中
  • 项目创建:
    • 项目通过 Azure 资源管理器 (ARM) 约定创建
    • locale 现在需要用于自定义语音项目

Example:

POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
  Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
  Content-Type: application/json
Body:
{
  "locale": "en-US",
  "displayName": "My speech project",
  "foundryProjectName": "MyFoundrySpeechProject"
}

项目列表和筛选

  • 按 Foundry 项目名称进行筛选:
    GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15
    

后续步骤