使用本文了解 CLU 功能当前支持的语言。
多语言选项
小窍门
建议对 LLM 支持的功能(如快速部署和对话级别理解)使用英语,但项目将继续适用于所有语言。
通过对话语言理解,可以用一种语言训练模型,并用于从另一种语言的话语中预测意图和实体。 此功能非常强大,因为它可以帮助你节省时间和精力。 你可以在一个项目中处理多语言数据集,而不是为每种语言构建单独的项目。 数据集不必完全使用相同的语言,但你应在创建时或稍后在项目设置中为项目启用多语言选项。 如果在评估过程中发现模型在某些语言中表现不佳,请考虑将更多这些语言的数据添加到训练集中。
可以完全使用英语语句训练项目,并使用法语、德语、普通话、日语、韩语等语言进行查询。 通过对话语言理解,你可以轻松使用多语言技术训练模型,将项目扩展为多种语言。
每当发现特定语言的表现不如其他语言时,就可以在项目中添加该语言的语句。 在 Language Studio 的标记语句页中,可以选择要添加的语句的语言。 向模型引入该语言的示例时,它会引入该语言的更多语法,并学习更好地进行预测。
不需要为每种语言添加相同数量的语句。 应该用一种语言生成大部分项目,并且只添加你观察到表现不佳的语言的一些语句。 如果创建一个以英语为主要语言的项目,并开始使用法语、德语和西班牙语进行测试,你可能会发现德语的表现不如另外两种语言。 在这种情况下,请考虑使用德语添加 5% 的原始英语示例,训练新模型,然后再次使用德语进行测试。 对于德语查询,应会看到更好的结果。 添加的语句越多,结果可能越好。
以另一种语言添加数据时,不应期望数据对其他语言产生负面影响。
以多种语言列出和预生成的组件
启用多种语言的项目将允许你为每个列表键指定每种语言的同义词。 根据查询项目时使用的语言,你只会获得具有该语言同义词的列表组件的匹配项。 查询项目时,可以在请求正文中指定语言:
"query": "{query}"
"language": "{language code}"
如果未提供语言,它将回退到项目的默认语言。
预生成组件与此类似,你应预期会获得以特定语言提供的预生成组件的预测。 请求的语言再次确定正在尝试预测的组件。
对话语言理解支持的语言
对话语言理解支持以下语言的话语:
| 语言 | 语言代码 | 
|---|---|
| 阿非利卡语 | af | 
| 阿姆哈拉语 | am | 
| 阿拉伯语 | ar | 
| 阿萨姆语 | as | 
| 阿塞拜疆语 | az | 
| 白俄罗斯语 | be | 
| 保加利亚语 | bg | 
| 孟加拉语 | bn | 
| 布列塔尼语 | br | 
| 波斯尼亚语 | bs | 
| 加泰隆语 | ca | 
| 捷克语 | cs | 
| 威尔士语 | cy | 
| 丹麦语 | da | 
| 德语 | de | 
| 希腊语 | el | 
| 英语(美式) | en-us | 
| 英语(英国) | en-gb | 
| 世界语 | eo | 
| 西班牙语 | es | 
| 爱沙尼亚语 | et | 
| 巴斯克语 | eu | 
| 波斯语 | fa | 
| 芬兰语 | fi | 
| 法语 | fr | 
| 西弗里斯兰语 | fy | 
| 爱尔兰语 | ga | 
| 苏格兰盖尔语 | gd | 
| 加利西亚语 | gl | 
| 古吉拉特语 | gu | 
| 豪撒语 | ha | 
| 希伯来语 | he | 
| 印地语 | hi | 
| 克罗地亚语 | hr | 
| 匈牙利语 | hu | 
| 亚美尼亚语 | hy | 
| 印度尼西亚语 | id | 
| 意大利语 | it | 
| 日语 | ja | 
| 爪哇语 | jv | 
| 格鲁吉亚语 | ka | 
| 哈萨克语 | kk | 
| 高棉语 | km | 
| 卡纳拉语 | kn | 
| 朝鲜语 | ko | 
| 库尔德语(Kurmanji) | ku | 
| 吉尔吉斯语 | ky | 
| 拉丁语 | la | 
| 老挝语 | lo | 
| 立陶宛语 | lt | 
| 拉脱维亚语 | lv | 
| 马达加斯加语 | mg | 
| 马其顿语 | mk | 
| 马拉雅拉姆语 | ml | 
| 蒙古语 | mn | 
| 马拉地语 | mr | 
| 马来语 | ms | 
| 缅甸语 | my | 
| 尼泊尔语 | ne | 
| 荷兰语 | nl | 
| 挪威语(博克马尔语) | nb | 
| 奥迪亚语 | or | 
| 旁遮普语 | pa | 
| 波兰语 | pl | 
| 普什图语 | ps | 
| 葡萄牙语(巴西) | pt-br | 
| 葡萄牙语(葡萄牙) | pt-pt | 
| 罗马尼亚语 | ro | 
| 俄语 | ru | 
| 梵语 | sa | 
| 信德语 | sd | 
| 僧伽罗语 | si | 
| 斯洛伐克语 | sk | 
| 斯洛文尼亚语 | sl | 
| 索马里语 | so | 
| 阿尔巴尼亚语 | sq | 
| 塞尔维亚语 | sr | 
| 巽他语 | su | 
| 瑞典语 | sv | 
| 斯瓦希里语 | sw | 
| 泰米尔语 | ta | 
| 泰卢固语 | te | 
| 泰语 | th | 
| 菲律宾语 | tl | 
| 土耳其语 | tr | 
| 维吾尔语 | ug | 
| 乌克兰语 | uk | 
| 乌尔都语 | ur | 
| 乌兹别克 | uz | 
| 越南语 | vi | 
| 科萨语 | xh | 
| 意第绪语 | yi | 
| 中文(简体) | zh-hans | 
| 中文(传统) | zh-hant | 
| 祖鲁语 | zu |