如何使用文本摘要(预览)

重要

提取式摘要是一项预览功能,其“按原样”并“包括所有缺陷”提供。 因此,不应在任何生产用途中实现或部署提取式摘要(预览版)。 客户独自负责对提取式摘要的任何使用。

通常,自动文本摘要有两种方法:提取式和抽象型。 此 API 提供提取式摘要。

提取式摘要是一项功能,它通过提取共同表示原始内容中最重要或相关信息的句子,生成一个摘要。

此功能旨在缩短用户认为太长而无法阅读的内容。 提取式摘要将文章、论文或文档压缩为关键句子。

API 使用的 AI 模型由该服务提供,只需发送内容即可进行分析。

功能

提示

若要开始使用此功能,可以按照快速入门文章开始操作。

提取式摘要 API 使用自然语言处理技术在非结构化文本文档中查找关键句子。 这些句子共同传达文档的主要理念。

提取式摘要返回排名分数作为系统响应的一部分,并返回提取的句子及其在原始文档中的位置。 排名分数是指确定句子相对于文档主要理念的相关程度的指标。 该模型为每个句子提供 0 到 1(含 0 和 1)之间的分数,并按请求返回分数最高的句子。 例如,如果请求一个包含三个句子的摘要,则该服务将返回分数最高的三个句子。

语言的 Azure 认知服务中还有另一项功能可提取关键信息,即关键短语提取。 当在关键短语提取和提取式摘要之间做出决策时,请考虑以下事项:

  • 关键短语提取返回短语,而提取式摘要返回句子
  • 提取式摘要返回句子以及排名分数,并且。 将按请求返回排名最高的句子
  • 抽取式摘要还返回以下位置信息:
    • 偏移:每个提取的句子的开始位置,以及
    • 长度:每个提取的句子的长度。

确定如何处理数据(可选)

指定文本摘要模型

默认情况下,文本摘要将对文本使用最新的可用 AI 模型。 你还可以将 API 请求配置为使用特定模型版本

输入语言

在提交要由关键短语提取进行处理的文档时,可以指定在编写这些文档时采用哪种受支持的语言。如果不指定语言,关键短语提取将默认为英语。 API 可能会在响应中返回偏移量,以支持不同的多语言和表情符号编码

提交数据

你将文档作为文本字符串提交到 API。 在收到请求时执行分析。 因为 API 是异步的,所以在发送 API 请求和接收结果之间可能存在延迟。

使用此功能时,API 结果在引入请求时的 24 小时内可用,并在响应中指示。 在此时间段后,结果将被清除,并且不再可用于检索。

你可以使用 sentenceCount 参数指定将返回的句子数,默认值为 3。 范围为 1 到 20。

你还可以使用 sortby 参数指定提取的句子的返回顺序(OffsetRank),默认值为 Offset

参数值 说明
级别 根据句子与输入文档的相关性(由服务决定)对句子进行排序。
Offset 保持句子在输入文档中出现的原始顺序。

获取文本摘要结果

从语言检测获得结果时,可以将结果流式传输到应用程序或将输出保存到本地系统上的文件中。

下面是可以提交汇总的内容的示例,该示例是使用 Microsoft 博客文章集成式 AI 的整体表示形式提取的。 本文只是一个示例,API 可以接受更长的输入文本。 有关详细信息,请参阅数据限制部分。

“在 Microsoft,我们一直在寻求超越现有技术的 AI,采取更全面、以人为中心的方法来学习和理解。” 作为 Azure AI 认知服务的首席技术官,我一直在与一群了不起的科学家和工程师合作,将这一探索变为现实。 “在我的角色中,我以独特的视角看待人类认知的三个属性之间的关系:语言文本 (X)、音频或视觉传感器信号(Y) 和多语言 (Z)。” 在所有这三个属性的交点,都有一些神奇之处,如图 1 所示,我们称之为 XYZ 代码,它是一种联合表示,可以创造出更强大的 AI,它能说、听、看和更好地理解人类。 我们相信 XYZ 代码将使我们能够实现我们的长期愿景:跨领域迁移学习、跨越模式和语言。 目标是拥有可以联合学习表示以支持广泛的下游 AI 任务的预训练模型,就像人们现在所做的。 在过去的五年里,我们在会话语音识别、机器翻译、会话问答、机器阅读理解和图像字幕方面的基准测试中达到了人类的表现。 这五项突破为我们提供了强烈的信号,让我们朝着更雄心勃勃的愿望实现人工智能能力的飞跃,实现更接近人类学习和理解方式的多感官和多语言学习。 只要以下游 AI 任务中的外部知识源为基础,我相信联合 XYZ 代码是这一愿望的重要组成部分。”

在接收到请求后,通过为 API 后端创建作业来执行提取式摘要 API。 如果作业创建成功,将返回 API 的输出。 输出将可在 24 小时内用于检索。 在此之后,将清除输出。 由于多语言和表情符号支持,响应可能包含文本偏移。 有关详细信息,请参阅如何处理偏移

使用上面的示例,API 可能会返回以下汇总句子:

“在 Microsoft,我们一直在寻求超越现有技术的 AI,采取更全面、以人为中心的方法来学习和理解。”

“在我的角色中,我以独特的视角看待人类认知的三个属性之间的关系:语言文本 (X)、音频或视觉传感器信号(Y) 和多语言 (Z)。”

“在所有这三个属性的交点,都有一些神奇之处,如图 1 所示,我们称之为 XYZ 代码,它是一种联合表示,可以创造出更强大的 AI,它能说、听、看和更好地理解人类。”

服务和数据限制

有关每分钟和每秒可以发送的请求大小和数量信息,请参阅服务限制一文。

请参阅