Compartir a través de

语言检测认知技能

语言检测 技能检测输入文本的语言,并报告在请求中提交的每个文档的单一语言代码。 语言代码配有表示分析长度的得分。 此技能使用 Azure AI 语言中提供的机器学习模型。

当需要提供文本的语言作为其他技能(例如,情绪分析技能文本拆分技能)的输入时,此功能尤其有用。

有关语言检测,请参阅支持的语言。 如果内容是使用不受支持的语言表述的,则响应为 (Unknown)

注意

此技能绑定到 Azure AI 服务,并且对于每天每个索引器超过 20 个文档的事务,需要使用可计费资源。 执行内置技能将按现有的 Azure AI 服务标准预付费套餐价格收费。

@odata.type

Microsoft.Skills.Text.LanguageDetectionSkill

数据限制

记录的最大大小应为 50,000 个字符,通过 String.Length 进行测量。 如果在将数据发送到语言检测技能之前需要拆分数据,可以使用文本拆分技能

技能参数

参数区分大小写。

输入 说明
defaultCountryHint (可选)如果 ISO 3166-1 alpha-2 双字母国家/地区代码不能区分语言,则可以作为语言检测模型的提示使用。 具体而言,defaultCountryHint 参数与未明确指定 countryHint 输入的文档一起使用。
modelVersion (可选)指定调用语言检测时要使用的模型版本。 如果未指定,将默认为最新可用版本。 建议不要指定此值,除非必要。

技能输入

参数区分大小写。

输入 说明
text 要分析的文本。
countryHint 如果 ISO 3166-1 alpha-2 双字母国家/地区代码不能区分语言,则可以作为语言检测模型的提示使用。

技能输出

输出名称 说明
languageCode 标识语言的 ISO 6391 语言代码。 例如,“en”。
languageName 语言的名称。 例如,“英语”。
score 一个介于 0 和 1 之间的值。 正确标识语言的可能性。 如果句子中有混合语言,得分可能会低于 1。

示例定义

 {
    "@odata.type": "#Microsoft.Skills.Text.LanguageDetectionSkill",
    "inputs": [
      {
        "name": "text",
        "source": "/document/text"
      },
      {
        "name": "countryHint",
        "source": "/document/countryHint"
      }
    ],
    "outputs": [
      {
        "name": "languageCode",
        "targetName": "myLanguageCode"
      },
      {
        "name": "languageName",
        "targetName": "myLanguageName"
      },
      {
        "name": "score",
        "targetName": "myLanguageScore"
      }

    ]
  }

示例输入

{
    "values": [
      {
        "recordId": "1",
        "data":
           {
             "text": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. "
           }
      },
      {
        "recordId": "2",
        "data":
           {
             "text": "Estamos muy felices de estar con ustedes."
           }
      },
      {
        "recordId": "3",
        "data":
           {
             "text": "impossible",
             "countryHint": "fr"
           }
      }
    ]

示例输出

{
    "values": [
      {
        "recordId": "1",
        "data":
            {
              "languageCode": "en",
              "languageName": "English",
              "score": 1,
            }
      },
      {
        "recordId": "2",
        "data":
            {
              "languageCode": "es",
              "languageName": "Spanish",
              "score": 1,
            }
      },
      {
        "recordId": "3",
        "data":
            {
              "languageCode": "fr",
              "languageName": "French",
              "score": 1,
            }
      }
    ]
}

另请参阅