关键短语提取认知技能
关键短语提取技能可以计算非结构化的文本,并针对每个记录返回关键短语列表。 此技能使用 Azure AI 语言提供的关键短语机器学习模型。
如果你需要快速确定记录中的谈话要点,此功能十分有用。 例如,给定输入文本“The food was delicious and there were wonderful staff”,服务会返回“food”和“wonderful staff”。
注意
此技能绑定到 Azure AI 服务,并且对于每天每个索引器超过 20 个文档的事务,需要使用可计费资源。 执行内置技能将按现有的 Azure AI 服务标准预付费套餐价格收费。
@odata.type
Microsoft.Skills.Text.KeyPhraseExtractionSkill
数据限制
记录的最大大小应为 50,000 个字符,通过 String.Length
进行测量。 如果在将数据发送到关键短语提取器之前需要拆分数据,请使用文本拆分技能。 如果你使用文本拆分技能,请将页面长度设置为 5000 以获得最佳性能。
技能参数
参数区分大小写。
输入 | 说明 |
---|---|
defaultLanguageCode |
(可选)要应用到未显式指定语言的文档的语言代码。 如果未指定默认语言代码,会将英语 (en) 用作默认语言代码。 请参阅支持的语言的完整列表。 |
maxKeyPhraseCount |
(可选)要生成的关键短语的最大数量。 |
modelVersion |
(可选)指定在调用关键短语 API 时要使用的模型版本。 如果未指定,将默认为最新可用版本。 建议不要指定此值,除非必要。 |
技能输入
输入 | 说明 |
---|---|
text |
要分析的文本。 |
languageCode |
表示记录的语言的字符串。 如果未指定此参数,将使用默认语言代码分析记录。 请参阅支持的语言的完整列表。 |
技能输出
输出 | 说明 |
---|---|
keyPhrases |
从输入文本中提取的关键短语的列表。 关键短语按重要性顺序返回。 |
示例定义
考虑具有以下字段的 SQL 记录:
{
"content": "Glaciers are huge rivers of ice that ooze their way over land, powered by gravity and their own sheer weight. They accumulate ice from snowfall and lose it through melting. As global temperatures have risen, many of the world's glaciers have already started to shrink and retreat. Continued warming could see many iconic landscapes - from the Canadian Rockies to the Mount Everest region of the Himalayas - lose almost all their glaciers by the end of the century.",
"language": "en"
}
然后,技能定义可能会如下所示:
{
"@odata.type": "#Microsoft.Skills.Text.KeyPhraseExtractionSkill",
"inputs": [
{
"name": "text",
"source": "/document/content"
},
{
"name": "languageCode",
"source": "/document/language"
}
],
"outputs": [
{
"name": "keyPhrases",
"targetName": "myKeyPhrases"
}
]
}
示例输出
对于前面的示例,技能输出将写入到扩充树中名为“document/myKeyPhrases”的新节点,因为这是我们指定的 targetName
。 如果未指定 targetName
,则为“document/keyPhrases”。
document/myKeyPhrases
[
"world's glaciers",
"huge rivers of ice",
"Canadian Rockies",
"iconic landscapes",
"Mount Everest region",
"Continued warming"
]
可以使用“document/myKeyPhrases”作为其他技能的输入,或者将其作为输出字段映射的源。
警告
如果提供了不支持的语言代码,会生成警告且不提取关键短语。 如果文本为空,则生成警告。 如果文本大于 50,000 个字符,只会分析前 50,000 个字符,并会发出警告。