如何创建人为标记的听录

人为标记的听录内容是对音频文件的逐字听录。 使用人为标记的听录内容来评估模型的准确性和提高识别准确性,尤其是针对字词被删除或错误替换的情况。 本指南可帮助你创建高质量的听录。

建议使用具有代表性的听录数据样本来评估模型准确性。 数据应涵盖能代表用户对应用程序所说内容的各种说话者和话语。 对于测试数据,每个单独音频文件的最大持续时间为 2 小时。

需要大的听录数据样本来提高识别准确性。 建议提供 1 到 100 小时的音频数据。 语音服务使用长达 100 小时的音频进行训练(对于不收取训练费用的较旧模型,最长为 20 小时)。 每个单独音频文件不应超过 40 秒(对于 Whisper 自定义,最长为 30 秒)。

本指南分为“美国英语”、“中国大陆普通话”和“德语”三部分。

所有 WAV 文件的听录都包含在单个纯文本文件(.txt 或 .tsv)中。 听录文件的每一行都包含一个音频文件的名称,后接相应的听录。 文件名和听录以制表符 (\t) 分隔。

例如:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

听录内容经过文本规范化,以便系统进行处理。 但是,在上传数据集之前,必须先进行一些重要的规范化处理。

除英语和中文普通话以外,其他语言的人为标记的听录内容都必须采用带字节顺序标记的 UTF-8 编码。 有关其他区域设置的听录要求,请参阅以下部分。

en-US

英语音频的人为标记的听录必须以纯文本形式提供,仅使用 ASCII 字符。 避免使用拉丁语-1 或 Unicode 标点字符。 从文字处理应用程序中复制文本或从网页中擦除数据时,常常会无意中添加这些字符。 如果存在这些字符,请务必将其更新为相应的 ASCII 替代字符。

以下是一些示例:

要避免的字符 替换 备注
“Hello world” “Hello world” 左引号和右引号替换为相应的 ASCII 字符。
John’s day John's day 撇号替换为相应的 ASCII 字符。
It was good—no, it was great! it was good--no, it was great! 长划线替换为两个连字符。

美国英语的文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将缩写写成字词。
  • 将非标准数字字符串写成字词(例如会计术语)。
  • 应按照发音听录非字母字符或混合字母数字字符。
  • 不应编辑可以作为字词发音的缩写(例如,“radar”、“laser”、“RAM”或“NATO”)。
  • 将发音的缩写写成单独的字母,每个字母用单个空格分开。
  • 如果使用音频,请将数字听录为与音频匹配的字词(例如“101”可以读作“one oh one”或“one hundred and one”)。
  • 请避免将字符、单词或词组重复三次以上,例如“yeah yeah yeah yeah”。 语音服务可能会出现此类重复的行。

下面是应该对听录执行的规范化的一些示例:

原始文本 规范化后的文本(人工)
Dr.Bruce Banner Doctor Bruce Banner
James Bond, 007 James Bond, double oh seven
Ke$ha Kesha
How long is the 2x4 How long is the two by four
The meeting goes from 1-3pm The meeting goes from one to three pm
My blood type is O+ My blood type is O positive
Water is H20 Water is H 2 O
Play OU812 by Van Halen Play O U 8 1 2 by Van Halen
UTF-8 with BOM U T F 8 with BOM
It costs $3.14 It costs three fourteen

以下规范化规则自动应用到听录:

  • 使用小写字母。
  • 删除除字词中撇号外的所有标点。
  • 将数字扩展为字词/口语形式,例如美元金额。

下面是自动对听录执行的规范化的一些示例:

原始文本 规范化后的文本(自动)
"Holy cow!" said Batman. holy cow said batman
"What?" said Batman's sidekick, Robin. what said batman's sidekick robin
Go get -em! go get em
I'm double-jointed I'm double jointed
104 Elm Street one oh four Elm street
Tune to 102.7 tune to one oh two point seven
Pi is about 3.14 pi is about three point one four

de-DE

德语音频的人为标记的听录内容必须采用带字节顺序标记的 UTF-8 编码。

德语文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将小数点写为“,”,而不是“.”。
  • 将时间分隔符写为“:”,而不是“.”(例如:12:00 Uhr)。
  • 不会替换缩写,如“ca.”。 我们建议使用完整的口语形式。
  • 删除四个主要的数学运算符(+、-、* 和 /)。 我们建议将其替换为文字形式:“plus”、“minus”、“mal”、“geteilt”。
  • 删除比较运算符(=、< 和 >)。 我们建议其替换为“gleich”、“kleiner als”和“grösser als”。
  • 将分数(例如 3/4)写成文字形式(例如,写成“drei viertel”而不是 3/4)。
  • 将“€”符号替换为文字形式“Euro”。

下面是应该对听录执行的规范化的一些示例:

原始文本 用户规范化后的文本 系统规范化后的文本
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 plus 3 minus 4 zwei plus drei minus vier

以下规范化规则自动应用到听录:

  • 对所有文本使用小写字母。
  • 删除所有标点,包括多种引号(可以保留 "test"、'test'、"test„ 以及 «test»)。
  • 删除包含下述任一特殊字符的行:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬。
  • 将数字扩展为口语形式,包括美元或欧元金额。
  • 仅接受 a、o、u 的元音变音符。 其他则替换为“th”或被废弃。

下面是自动对听录执行的规范化的一些示例:

原始文本 规范化后的文本
Frankfurter Ring frankfurter ring
¡Eine Frage! eine frage
Wir, haben wir haben

ja-JP

在日语 (ja-JP) 中,每个句子的最大长度为 90 个字符。 句子较长的行将被废弃。 若要添加更长的文本,请在中间插入一个句点。

zh-cn

中国大陆普通话音频的人为标记的听录必须使用字节顺序标记进行 UTF-8 编码。 避免使用半角标点字符。 在文字处理程序中准备数据或从网页中擦除数据时,可能会无意中包括这些字符。 如果存在这些字符,请务必将其更新为相应的全角替代字符。

以下是一些示例:

要避免的字符 替换 说明
"你好" "你好" 左引号和右引号替换为相应的字符。
需要什么帮助? 需要什么帮助? 问号替换为相应的字符。

中国大陆普通话的文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将缩写写成字词。
  • 用口语形式写数字字符串。

下面是应该对听录执行的规范化的一些示例:

原始文本 规范化后的文本
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

以下规范化规则自动应用到听录:

  • 删除所有标点。
  • 将数字扩展为口语形式。
  • 将全角字母扩展为半角字母。
  • 对所有英语单词使用大写字母。

下面是自动听录规范化的一些示例:

原始文本 规范化后的文本
3.1415 三 点 一 四 一 五
¥ 3.5 三 元 五 角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

后续步骤