文本拆分认知技能

文本拆分技能将文本分解为文本区块。 你可以指定是要将文件分解为句子还是特定长度的页面。 当其他技能下游有最大文本长度要求时,此技能尤其有用。

注意

此技能不会绑定到 Azure AI 服务。 它不可计费,并且没有 Azure AI 服务密钥要求。

@odata.type

Microsoft.Skills.Text.SplitSkill

技能参数

参数区分大小写。

参数名称 说明
textSplitMode pagessentences
maximumPageLength 仅当将 textSplitMode 设置为 pages 时才适用。 它指 String.Length 测量的最大页面长度(以字符为单位)。 最小值为 300,最大值为 100000,默认值为 5000。 此算法会尽可能在句子边界断开文本,所以每个区块大小可能略小于 maximumPageLength
defaultLanguageCode (可选)以下语言代码之一:am, bs, cs, da, de, en, es, et, fr, he, hi, hr, hu, fi, id, is, it, ja, ko, lv, no, nl, pl, pt-PT, pt-BR, ru, sk, sl, sr, sv, tr, ur, zh-Hans 默认为英语 (en)。 注意事项:
  • 提供语言代码有助于避免将非空格的语言(例如,中文、日语和韩语)的单词一分为二。
  • 如果你不知道语言(例如,需要将输入的文本拆分为 LanguageDetectionSkill),则默认的英语 (en) 应该已足够。

技能输入

参数名称 说明
text 要拆分为子字符串的文本。
languageCode (可选)文档的语言代码。 如果你不知道语言(例如,需要将输入的文本拆分为 LanguageDetectionSkill),则可以放心地删除此输入。 如果该语言不在上述 defaultLanguageCode 参数的支持列表中,则会发出警告并且不会拆分文本。

技能输出

参数名称 说明
textItems 提取的子字符串数组。

示例定义

{
    "@odata.type": "#Microsoft.Skills.Text.SplitSkill",
    "textSplitMode" : "pages", 
    "maximumPageLength": 1000,
    "defaultLanguageCode": "en",
    "inputs": [
        {
            "name": "text",
            "source": "/document/content"
        },
        {
            "name": "languageCode",
            "source": "/document/language"
        }
    ],
    "outputs": [
        {
            "name": "textItems",
            "targetName": "mypages"
        }
    ]
}

示例输入

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "text": "This is the loan application for Joe Romero, a Azure employee who was born in Chile and who then moved to Australia...",
                "languageCode": "en"
            }
        },
        {
            "recordId": "2",
            "data": {
                "text": "This is the second document, which will be broken into several pages...",
                "languageCode": "en"
            }
        }
    ]
}

示例输出

{
    "values": [
        {
            "recordId": "1",
            "data": {
                "textItems": [
                    "This is the loan…",
                    "On the second page we…"
                ]
            }
        },
        {
            "recordId": "2",
            "data": {
                "textItems": [
                    "This is the second document...",
                    "On the second page of the second doc…"
                ]
            }
        }
    ]
}

错误案例

如果某语言不受支持,则会生成警告。

另请参阅