Important
语言理解智能服务(LUIS)将于 2026 年 3 月 31 日完全停用。 LUIS 资源创建不可用。 从 2025 年 10 月 31 日开始,LUIS 门户将不再可用。 建议将 LUIS 应用程序迁移到对话语言理解,以便从持续的产品支持和多语言功能中受益。
LUIS 在服务中具有多种功能。 并非所有功能都会同等地以各种语言提供。 请确保你所定位的语言文化支持你感兴趣的功能。 LUIS 应用特定于区域性,一旦设置即无法更改。
多语言 LUIS 应用
如果需要多语言 LUIS 客户端应用程序(例如聊天机器人),可通过几种方法实现。 如果 LUIS 支持所有语言,则需面向每种语言开发一个 LUIS 应用。 每个 LUIS 应用都具有唯一的应用 ID 和终结点日志。 If you need to provide language understanding for a language LUIS does not support, you can use the Translator service to translate the utterance into a supported language, submit the utterance to the LUIS endpoint, and receive the resulting scores.
Note
语言理解功能的较新版本现已作为 Azure AI 语言的一部分提供。 有关详细信息,请参阅 Azure AI 语言文档。 有关语言服务中支持多种语言的语言理解功能,请参阅对话语言理解。
Languages supported
LUIS 理解以下语言:
语言 | Locale | Prebuilt domain | Prebuilt entity | 短语列表建议 | ** Sentiment analysis and key phrase extraction |
---|---|---|---|---|---|
阿拉伯语(预览版 - 新式标准阿拉伯语) | ar-AR |
- | - | - | - |
* Chinese | zh-cn |
✔ | ✔ | ✔ | - |
Dutch | nl-NL |
✔ | - | - | ✔ |
英语(美国) | en-US |
✔ | ✔ | ✔ | ✔ |
English (UK) | en-GB |
✔ | ✔ | ✔ | ✔ |
French (Canada) | fr-CA |
- | - | - | ✔ |
French (France) | fr-FR |
✔ | ✔ | ✔ | ✔ |
German | de-DE |
✔ | ✔ | ✔ | ✔ |
Gujarati (preview) | gu-IN |
- | - | - | - |
Hindi (preview) | hi-IN |
- | ✔ | - | - |
Italian | it-IT |
✔ | ✔ | ✔ | ✔ |
* Japanese | ja-JP |
✔ | ✔ | ✔ | 仅关键短语 |
Korean | ko-KR |
✔ | - | - | 仅关键短语 |
Marathi (preview) | mr-IN |
- | - | - | - |
Portuguese (Brazil) | pt-BR |
✔ | ✔ | ✔ | 并非所有亚区域性 |
Spanish (Mexico) | es-MX |
- | ✔ | ✔ | ✔ |
Spanish (Spain) | es-ES |
✔ | ✔ | ✔ | ✔ |
Tamil (preview) | ta-IN |
- | - | - | - |
Telugu (preview) | te-IN |
- | - | - | - |
Turkish | tr-TR |
✔ | ✔ | - | Sentiment only |
Language support varies for prebuilt entities and prebuilt domains.
*中文支持说明
- 在
zh-cn
区域性中,LUIS 要求简体中文字符集,而不是繁体字符集。 - 意向、实体、特征和正则表达式的名称可能采用中文或罗马字符。
- 请参阅预生成域参考,了解
zh-cn
区域性支持的预生成域。
*日语支持说明
- 由于 LUIS 不提供句法分析,并且不能理解敬语和非正式日语之间的差异,因此需要将不同的正式程度作为培训示例整合到应用程序中。
- でございます 与 です 不同。
- です 与 だ 不同。
**语言服务支持说明
语言服务包含 keyPhrase 预生成的实体和情绪分析。 仅葡萄牙语支持亚区域性:pt-PT
和 pt-BR
。 主区域性级别支持所有其他区域性。
语音 API 支持的语言
See Speech Supported languages for Speech dictation mode languages.
应用程序中的罕见字词或外来字词
在 en-us
区域性中,LUIS 可学习区分大多数英文字词,包括俚语。 在 zh-cn
区域性中,LUIS 可学习区分大多数中文字符。 If you use a rare word in en-us
or character in zh-cn
, and you see that LUIS seems unable to distinguish that word or character, you can add that word or character to a phrase-list feature. 例如,应将超出应用程序区域性的字词(即外来字词)添加到短语列表功能。
Hybrid languages
混合语言混含两个区域性的字词,如英语和中文。 由于单个应用仅基于单个区域性,因此 LUIS 不支持此类语言。
Tokenization
To perform machine learning, LUIS breaks an utterance into tokens based on culture.
语言 | 每个空格或特殊字符 | character level | compound words |
---|---|---|---|
Arabic | ✔ | ||
Chinese | ✔ | ||
Dutch | ✔ | ✔ | |
English (en-us) | ✔ | ||
English (en-GB) | ✔ | ||
French (fr-FR) | ✔ | ||
French (fr-CA) | ✔ | ||
German | ✔ | ✔ | |
Gujarati | ✔ | ||
Hindi | ✔ | ||
Italian | ✔ | ||
Japanese | ✔ | ||
Korean | ✔ | ||
Marathi | ✔ | ||
Portuguese (Brazil) | ✔ | ||
Spanish (es-ES) | ✔ | ||
Spanish (es-MX) | ✔ | ||
Tamil | ✔ | ||
Telugu | ✔ | ||
Turkish | ✔ |
自定义 tokenizer 版本
以下区域性具有自定义 tokenizer 版本:
Culture | Version | Purpose |
---|---|---|
Germande-de |
1.0.0 | 通过使用基于机器学习的 tokenizer 将单词拆分,尝试将复合单词分解为它们的单个组件,从而对单词进行标记。 如果用户输入 Ich fahre einen krankenwagen 作为话语,它将转换为 Ich fahre einen kranken wagen 。 允许将 kranken 和 wagen 分别标记为不同的实体。 |
Germande-de |
1.0.2 | 通过基于空格拆分单词来标记单词。 如果用户输入 Ich fahre einen krankenwagen 作为言语,则它仍然是单个标记。 因此 krankenwagen 标记为单个实体。 |
Dutchnl-nl |
1.0.0 | 通过使用基于机器学习的 tokenizer 将单词拆分,尝试将复合单词分解为它们的单个组件,从而对单词进行标记。 如果用户输入 Ik ga naar de kleuterschool 作为话语,它将转换为 Ik ga naar de kleuter school 。 允许将 kleuter 和 school 分别标记为不同的实体。 |
Dutchnl-nl |
1.0.1 | 通过基于空格拆分单词来标记单词。 如果用户输入 Ik ga naar de kleuterschool 作为言语,则它仍然是单个标记。 因此 kleuterschool 标记为单个实体。 |
在 tokenizer 版本之间迁移
在应用级别进行词汇切分。 不支持版本级别的词汇切分。
将文件导入为新应用,而不是版本。 此操作意味着新应用具有不同的应用 ID,但使用文件中指定的 tokenizer 版本。