语言检测认知技能
语言检测 技能检测输入文本的语言,并报告在请求中提交的每个文档的单一语言代码。 语言代码配有表示分析长度的得分。 此技能使用 Azure AI 语言中提供的机器学习模型。
当需要提供文本的语言作为其他技能(例如,情绪分析技能或文本拆分技能)的输入时,此功能尤其有用。
有关语言检测,请参阅支持的语言。 如果内容是使用不受支持的语言表述的,则响应为 (Unknown)
。
注意
此技能绑定到 Azure AI 服务,并且对于每天每个索引器超过 20 个文档的事务,需要使用可计费资源。 执行内置技能将按现有的 Azure AI 服务标准预付费套餐价格收费。
@odata.type
Microsoft.Skills.Text.LanguageDetectionSkill
数据限制
记录的最大大小应为 50,000 个字符,通过 String.Length
进行测量。 如果在将数据发送到语言检测技能之前需要拆分数据,可以使用文本拆分技能。
技能参数
参数区分大小写。
输入 | 说明 |
---|---|
defaultCountryHint |
(可选)如果 ISO 3166-1 alpha-2 双字母国家/地区代码不能区分语言,则可以作为语言检测模型的提示使用。 具体而言,defaultCountryHint 参数与未明确指定 countryHint 输入的文档一起使用。 |
modelVersion |
(可选)指定调用语言检测时要使用的模型版本。 如果未指定,将默认为最新可用版本。 建议不要指定此值,除非必要。 |
技能输入
参数区分大小写。
输入 | 说明 |
---|---|
text |
要分析的文本。 |
countryHint |
如果 ISO 3166-1 alpha-2 双字母国家/地区代码不能区分语言,则可以作为语言检测模型的提示使用。 |
技能输出
输出名称 | 说明 |
---|---|
languageCode |
标识语言的 ISO 6391 语言代码。 例如,“en”。 |
languageName |
语言的名称。 例如,“英语”。 |
score |
一个介于 0 和 1 之间的值。 正确标识语言的可能性。 如果句子中有混合语言,得分可能会低于 1。 |
示例定义
{
"@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
"inputs": [
{
"name": "text",
"source": "/document/text"
},
{
"name": "countryHint",
"source": "/document/countryHint"
}
],
"outputs": [
{
"name": "languageCode",
"targetName": "myLanguageCode"
},
{
"name": "languageName",
"targetName": "myLanguageName"
},
{
"name": "score",
"targetName": "myLanguageScore"
}
]
}
示例输入
{
"values": [
{
"recordId": "1",
"data":
{
"text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
}
},
{
"recordId": "2",
"data":
{
"text": "Estamos muy felices de estar con ustedes."
}
},
{
"recordId": "3",
"data":
{
"text": "impossible",
"countryHint": "fr"
}
}
]
示例输出
{
"values": [
{
"recordId": "1",
"data":
{
"languageCode": "en",
"languageName": "English",
"score": 1,
}
},
{
"recordId": "2",
"data":
{
"languageCode": "es",
"languageName": "Spanish",
"score": 1,
}
},
{
"recordId": "3",
"data":
{
"languageCode": "fr",
"languageName": "French",
"score": 1,
}
}
]
}