如何创建人为标记的听录

人为标记的听录内容是对音频文件的逐字听录。 使用人为标记的听录内容来评估模型的准确性和提高识别准确性,尤其是针对字词被删除或错误替换的情况。 本指南可帮助你创建高质量的听录。

建议使用具有代表性的听录数据样本来评估模型准确性。 数据应涵盖能代表用户对应用程序所说内容的各种说话者和话语。 对于测试数据,每个单独音频文件的最大持续时间为 2 小时。

需要大的听录数据样本来提高识别准确性。 建议提供 1 到 100 小时的音频数据。 语音服务使用长达 100 小时的音频进行训练(对于不收取训练费用的较旧模型,最长为 20 小时)。 每个单独音频文件不应超过 40 秒(对于 Whisper 自定义,最长为 30 秒)。

本指南分为“美国英语”、“中国大陆普通话”和“德语”三部分。

所有 WAV 文件的听录都包含在单个纯文本文件(.txt 或 .tsv)中。 听录文件的每一行都包含一个音频文件的名称,后接相应的听录。 文件名和听录以制表符 (\t) 分隔。

例如:

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

听录内容经过文本规范化,以便系统进行处理。 但是,在上传数据集之前,必须先进行一些重要的规范化处理。

除英语和中文普通话以外,其他语言的人为标记的听录内容都必须采用带字节顺序标记的 UTF-8 编码。 有关其他区域设置的听录要求,请参阅以下部分。

美国英语

英语音频的人为标记的听录必须以纯文本形式提供,仅使用 ASCII 字符。 避免使用拉丁语-1 或 Unicode 标点字符。 从文字处理应用程序中复制文本或从网页中擦除数据时,常常会无意中添加这些字符。 如果存在这些字符,请务必将其更新为相应的 ASCII 替代字符。

以下是一些示例:

要避免的字符 替换 备注
“Hello world” “Hello world” 左引号和右引号替换为相应的 ASCII 字符。
约翰的一天 约翰的一天 撇号替换为相应的 ASCII 字符。
这不错—不,这太棒了! 这是不错的,不,这是太好了! 长划线替换为两个连字符。

美国英语的文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将缩写写成字词。
  • 将非标准数字字符串写成字词(例如会计术语)。
  • 应按照发音听录非字母字符或混合字母数字字符。
  • 不应编辑可以作为字词发音的缩写(例如,“radar”、“laser”、“RAM”或“NATO”)。
  • 将发音的缩写写成单独的字母,每个字母用单个空格分开。
  • 如果使用音频,请将数字听录为与音频匹配的字词(例如“101”可以读作“one oh one”或“one hundred and one”)。
  • 请避免将字符、单词或词组重复三次以上,例如“yeah yeah yeah yeah”。 语音服务可能会出现此类重复的行。

下面是应该对听录执行的规范化的一些示例:

原始文本 规范化后的文本(人工)
Dr.Bruce Banner 布鲁斯·班纳博士
詹姆斯·邦德,007 詹姆斯·邦德,零零七
Ke$ha Kesha
2x4 的长度是多少? 二乘四木方有多长?
会议从下午 1 点到 3 点开始 会议从下午一到三点
我的血液类型为 O+ 我的血液类型为 O 阳性
水为 H20 水为 H 2 O
播放范·海伦的OU812 播放 O U 8 1 2 由范·海伦
带有 BOM 的 UTF-8 使用 BOM 的 UTF-8
费用为 3.14 美元 成本为 3.14

以下规范化规则自动应用到听录:

  • 使用小写字母。
  • 删除除字词中撇号外的所有标点。
  • 将数字扩展为字词/口语形式,例如美元金额。

下面是自动对听录执行的规范化的一些示例:

原始文本 规范化后的文本(自动)
“天啊!”蝙蝠侠说。 蝙蝠侠说:“天啊!”
蝙蝠侠的小助手罗宾说道:“什么?” 蝙蝠侠的搭档罗宾说了什么?
去获取 -em! 加油,去抓住他们!
我有双关节特征 我有双关节症
104 Elm 街 104埃尔姆街
调频到 102.7 调到一零二点七
Pi 约为 3.14 pi 大约是三点一四

德语

德语音频的人为标记的听录内容必须采用带字节顺序标记的 UTF-8 编码。

德语文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将小数点写为“,”,而不是“.”。
  • 将时间分隔符写为“:”,而不是“.”(例如:12:00 Uhr)。
  • 不会替换缩写,如“ca.”。 我们建议使用完整的口语形式。
  • 删除四个主要的数学运算符(+、-、* 和 /)。 我们建议将其替换为文字形式:“plus”、“minus”、“mal”、“geteilt”。
  • 删除比较运算符(=、< 和 >)。 我们建议其替换为“gleich”、“kleiner als”和“grösser als”。
  • 将分数(例如 3/4)写成文字形式(例如,写成“drei viertel”而不是 3/4)。
  • 将“€”符号替换为文字形式“Euro”。

下面是应该对听录执行的规范化的一些示例:

原始文本 用户规范化后的文本 系统规范化后的文本
Es ist 12.23 Uhr Es ist 12:23 Uhr es ist zwölf uhr drei und zwanzig uhr
{12.45} {12,45} zwölf komma vier fünf
2 + 3 - 4 2 加 3 减 4 zwei plus drei minus vier

以下规范化规则自动应用到听录:

  • 对所有文本使用小写字母。
  • 删除所有标点,包括多种引号(可以保留 "test"、'test'、"test„ 以及 «test»)。
  • 删除包含下述任一特殊字符的行:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬。
  • 将数字扩展为口语形式,包括美元或欧元金额。
  • 仅接受 a、o、u 的元音变音符。 其他则替换为“th”或被废弃。

下面是自动对听录执行的规范化的一些示例:

原始文本 规范化后的文本
法兰克福环 法兰克福环
?Eine Frage! 一个问题
Wir、haben 我们有

日语

在日语 (ja-JP) 中,每个句子的最大长度为 90 个字符。 句子较长的行将被废弃。 若要添加更长的文本,请在中间插入一个句点。

普通话

中文(zh-cn)音频的人工标注的转录必须使用带字节顺序标记的 UTF-8 编码。 避免使用半角标点字符。 在文字处理程序中准备数据或从网页中擦除数据时,可能会无意中包括这些字符。 如果存在这些字符,请务必将其更新为相应的全角替代字符。

以下是一些示例:

要避免的字符 替换 备注
"你好" "你好" 左引号和右引号替换为相应的字符。
需要什么帮助? 需要什么帮助? 问号替换为相应的字符。

中国大陆普通话的文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:

  • 将缩写写成字词。
  • 用口语形式写数字字符串。

下面是应该对听录执行的规范化的一些示例:

原始文本 规范化后的文本
我今年 21 我今年二十一
3 号楼 504 三号 楼 五 零 四

以下规范化规则自动应用到听录:

  • 删除所有标点。
  • 将数字扩展为口语形式。
  • 将全角字母扩展为半角字母。
  • 对所有英语单词使用大写字母。

下面是自动听录规范化的一些示例:

原始文本 规范化后的文本
3.1415 三 点 一 四 一 五
¥ 3.5 三元五角
w f y z W F Y Z
1992 年 8 月 8 日 一 九 九 二 年 八 月 八 日
你吃饭了吗? 你 吃饭 了 吗
下午 5:00 的航班 下午 五点 的 航班
我今年 21 岁 我 今年 二十 一 岁

后续步骤