如何创建人为标记的听录

人为标记的听录内容是对音频文件的逐字听录。使用人为标记的听录内容来评估模型的准确性和提高识别准确性，尤其是针对字词被删除或错误替换的情况。本指南可帮助你创建高质量的听录。

建议使用具有代表性的听录数据样本来评估模型准确性。数据应涵盖能代表用户对应用程序所说内容的各种说话者和话语。对于测试数据，每个单独音频文件的最大持续时间为 2 小时。

需要大的听录数据样本来提高识别准确性。建议提供 1 到 100 小时的音频数据。语音服务使用长达 100 小时的音频进行训练（对于不收取训练费用的较旧模型，最长为 20 小时）。每个单独音频文件不应超过 40 秒（对于 Whisper 自定义，最长为 30 秒）。

本指南分为“美国英语”、“中国大陆普通话”和“德语”三部分。

所有 WAV 文件的听录都包含在单个纯文本文件（.txt 或 .tsv）中。听录文件的每一行都包含一个音频文件的名称，后接相应的听录。文件名和听录以制表符 (\t) 分隔。

例如：

speech01.wav	speech recognition is awesome
speech02.wav	the quick brown fox jumped all over the place
speech03.wav	the lazy dog was not amused

听录内容经过文本规范化，以便系统进行处理。但是，在上传数据集之前，必须先进行一些重要的规范化处理。

除英语和中文普通话以外，其他语言的人为标记的听录内容都必须采用带字节顺序标记的 UTF-8 编码。有关其他区域设置的听录要求，请参阅以下部分。

美国英语

英语音频的人为标记的听录必须以纯文本形式提供，仅使用 ASCII 字符。避免使用拉丁语-1 或 Unicode 标点字符。从文字处理应用程序中复制文本或从网页中擦除数据时，常常会无意中添加这些字符。如果存在这些字符，请务必将其更新为相应的 ASCII 替代字符。

以下是一些示例：

要避免的字符	替换	备注
“Hello world”	“Hello world”	左引号和右引号替换为相应的 ASCII 字符。
约翰的一天	约翰的一天	撇号替换为相应的 ASCII 字符。
这不错—不，这太棒了！	这是不错的，不，这是太好了！	长划线替换为两个连字符。

美国英语的文本规范化

文本规范化是指将字词转换为在训练模型时使用的一致格式。某些规范化规则会自动应用到文本，但我们建议你在准备人为标记的听录数据时遵循以下准则：

将缩写写成字词。
将非标准数字字符串写成字词（例如会计术语）。
应按照发音听录非字母字符或混合字母数字字符。
不应编辑可以作为字词发音的缩写（例如，“radar”、“laser”、“RAM”或“NATO”）。
将发音的缩写写成单独的字母，每个字母用单个空格分开。
如果使用音频，请将数字听录为与音频匹配的字词（例如“101”可以读作“one oh one”或“one hundred and one”）。
请避免将字符、单词或词组重复三次以上，例如“yeah yeah yeah yeah”。语音服务可能会出现此类重复的行。

下面是应该对听录执行的规范化的一些示例：

原始文本	规范化后的文本（人工）
Dr.Bruce Banner	布鲁斯·班纳博士
詹姆斯·邦德，007	詹姆斯·邦德，零零七
Ke$ha	Kesha
2x4 的长度是多少？	二乘四木方有多长？
会议从下午 1 点到 3 点开始	会议从下午一到三点
我的血液类型为 O+	我的血液类型为 O 阳性
水为 H20	水为 H 2 O
播放范·海伦的OU812	播放 O U 8 1 2 由范·海伦
带有 BOM 的 UTF-8	使用 BOM 的 UTF-8
费用为 3.14 美元	成本为 3.14

以下规范化规则自动应用到听录：

使用小写字母。
删除除字词中撇号外的所有标点。
将数字扩展为字词/口语形式，例如美元金额。

下面是自动对听录执行的规范化的一些示例：

原始文本	规范化后的文本（自动）
“天啊！”蝙蝠侠说。	蝙蝠侠说：“天啊！”
蝙蝠侠的小助手罗宾说道：“什么？”	蝙蝠侠的搭档罗宾说了什么？
去获取 -em！	加油，去抓住他们！
我有双关节特征	我有双关节症
104 Elm 街	104埃尔姆街
调频到 102.7	调到一零二点七
Pi 约为 3.14	pi 大约是三点一四

德语

德语音频的人为标记的听录内容必须采用带字节顺序标记的 UTF-8 编码。

德语文本规范化

将小数点写为“,”，而不是“.”。
将时间分隔符写为“:”，而不是“.”（例如：12:00 Uhr）。
不会替换缩写，如“ca.”。我们建议使用完整的口语形式。
删除四个主要的数学运算符（+、-、* 和 /）。我们建议将其替换为文字形式：“plus”、“minus”、“mal”、“geteilt”。
删除比较运算符（=、< 和 >）。我们建议其替换为“gleich”、“kleiner als”和“grösser als”。
将分数（例如 3/4）写成文字形式（例如，写成“drei viertel”而不是 3/4）。
将“€”符号替换为文字形式“Euro”。

下面是应该对听录执行的规范化的一些示例：

原始文本	用户规范化后的文本	系统规范化后的文本
Es ist 12.23 Uhr	Es ist 12：23 Uhr	es ist zwölf uhr drei und zwanzig uhr
{12.45}	{12,45}	zwölf komma vier fünf
2 + 3 - 4	2 加 3 减 4	zwei plus drei minus vier

以下规范化规则自动应用到听录：

对所有文本使用小写字母。
删除所有标点，包括多种引号（可以保留 "test"、'test'、"test„ 以及 «test»）。
删除包含下述任一特殊字符的行：¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ Ø¬¬。
将数字扩展为口语形式，包括美元或欧元金额。
仅接受 a、o、u 的元音变音符。其他则替换为“th”或被废弃。

下面是自动对听录执行的规范化的一些示例：

原始文本	规范化后的文本
法兰克福环	法兰克福环
？Eine Frage！	一个问题
Wir、haben	我们有

日语

在日语 (ja-JP) 中，每个句子的最大长度为 90 个字符。句子较长的行将被废弃。若要添加更长的文本，请在中间插入一个句点。

普通话

中文（zh-cn）音频的人工标注的转录必须使用带字节顺序标记的 UTF-8 编码。避免使用半角标点字符。在文字处理程序中准备数据或从网页中擦除数据时，可能会无意中包括这些字符。如果存在这些字符，请务必将其更新为相应的全角替代字符。

以下是一些示例：

要避免的字符	替换	备注
"你好"	"你好"	左引号和右引号替换为相应的字符。
需要什么帮助?	需要什么帮助？	问号替换为相应的字符。

中国大陆普通话的文本规范化

将缩写写成字词。
用口语形式写数字字符串。

下面是应该对听录执行的规范化的一些示例：

原始文本	规范化后的文本
我今年 21	我今年二十一
3 号楼 504	三号楼五零四

以下规范化规则自动应用到听录：

删除所有标点。
将数字扩展为口语形式。
将全角字母扩展为半角字母。
对所有英语单词使用大写字母。

下面是自动听录规范化的一些示例：

原始文本	规范化后的文本
3.1415	三点一四一五
¥ 3.5	三元五角
w f y z	W F Y Z
1992 年 8 月 8 日	一九九二年八月八日
你吃饭了吗?	你吃饭了吗
下午 5:00 的航班	下午五点的航班
我今年 21 岁	我今年二十一岁

后续步骤

Last updated on 2026-06-09

如何创建人为标记的听录

美国英语

美国英语的文本规范化

德语

德语文本规范化

日语

普通话

中国大陆普通话的文本规范化

后续步骤

Recursos adicionales