文档和对话摘要是什么?

重要

对话摘要仅适用于:

  • REST API
  • Python
  • C#

摘要是 Azure AI 语言提供的功能之一,它是云中机器学习和 AI 算法的集合,可用于开发涉及书面语言的智能应用程序。 通过本文详细了解此功能,以及如何在应用程序中使用它。

尽管服务标记为文档和会话摘要,但文档摘要仅接受纯文本块,并且会话摘要将接受各种语音项目,以便模型了解详细信息。 如果要处理对话,但只关心文本,则可以针对该方案使用文档摘要。

本文档包含以下文章类型:

  • 快速入门介绍了入门说明,指导您完成向服务发出请求。
  • 操作指南包含以更具体的方式或自定义方式使用服务的说明。

文档摘要使用自然语言处理技术为文档生成摘要。 支持自动摘要的 API 方法有三种:抽取式摘要、抽象式摘要和以查询为中心的摘要。

抽取式摘要提取共同表示原始内容中最重要或相关信息的句子。 抽象式摘要生成具有简洁、连贯的句子或单词的摘要,而不是从原始文档中逐字提取句子。 这些功能旨在缩短可能会被认为太长而无法阅读的内容。

本机文档支持

原生文档是指用于创建原始文档的文件格式,例如 Microsoft Word (docx) 或可移植文档文件 (pdf)。 本机文档支持消除了在使用 Azure AI 语言资源功能之前进行文本预处理的需要。 目前,本机文档支持适用于 AbstractiveSummarizationExtractiveSummarization 功能。

目前,文档摘要支持以下本机文档格式:

文件类型 文件扩展名 说明
文本 .txt 无格式的文本文档。
Adobe PDF .pdf 可移植文档文件格式的文档。
Microsoft Word .docx Microsoft Word 文档文件。

关键功能

以下是此 API 提供的文档摘要方面:

  • 抽取式摘要:通过提取文档中的核心句子来生成摘要。

    • 多个提取的句子:这些句子结合传达文档的主要理念。 它们是从输入文档内容中提取的原始句子。
    • 排名分数:排名分数指示句子与文档主要主题的相关程度。 文档摘要会对提取的句子进行排名,你可以确定这些句子是按其出现的顺序还是按其排名来返回。
    • 多个返回的句子:确定要返回的最大句子数。 例如,如果请求一个包含三个句子的摘要,则抽取式摘要会返回分数最高的三个句子。
    • 位置信息:提取的句子的开始位置和长度。
  • 抽象式摘要:生成的摘要所使用的单词与文档中的单词不同,但抓住了要点。

    • 摘要文本:抽象摘要返回文档中每个上下文输入范围的摘要。 可以对长文档进行分段,以便返回多组摘要文本及其上下文输入范围。
    • 上下文输入范围:输入文档中用于生成摘要文本的范围。
  • 以查询为中心的摘要:基于查询生成摘要

例如,请考虑以下文本段落:

“在 Microsoft,我们寻求超越现有技术的 AI,采取更全面、以人为中心的方法来学习和理解。” 作为 Azure AI 服务的首席技术官,我一直在与一群了不起的科学家和工程师合作,将这一探索变为现实。 “在我的角色中,我以独特的视角看待人类认知的三个属性之间的关系:语言文本 (X)、音频或视觉传感器信号(Y) 和多语言 (Z)。” 在所有这三个属性的交点,都有一些神奇之处,如图 1 所示,我们称之为 XYZ 代码,它是一种联合表示,可以创造出更强大的 AI,它能说、听、看和更好地理解人类。 我们相信 XYZ 代码将使我们能够实现长期愿景:跨领域迁移学习、跨越模式和语言。 目标是拥有可以联合学习表示以支持广泛的下游 AI 任务的预训练模型,就像人们现在所做的。 在过去的五年里,我们在会话语音识别、机器翻译、会话问答、机器阅读理解和图像字幕方面的基准测试中达到了人类的表现。 这五项突破为我们提供了强烈的信号,让我们朝着更雄心勃勃的愿望实现人工智能能力的飞跃,实现更接近人类学习和理解方式的多感官和多语言学习。 只要以下游 AI 任务中的外部知识源为基础,我相信联合 XYZ 代码是这一愿望的重要组成部分。”

收到请求后,通过为 API 后端创建作业来处理文档摘要 API 请求。 如果作业创建成功,将返回 API 的输出。 输出将可在 24 小时内用于检索。 在此之后,将清除输出。 由于多语言和表情符号支持,响应可能包含文本偏移。 有关详细信息,请参阅如何处理偏移

如果我们使用上面的示例,则 API 可能会返回以下汇总句子:

抽取式摘要

  • “在 Microsoft,我们寻求超越现有技术的 AI,采取更全面、以人为中心的方法来学习和理解。”
  • “我们相信 XYZ 代码将使我们能够实现长期愿景:跨领域迁移学习、跨越模式和语言。”
  • 目标是拥有可以联合学习表示以支持广泛的下游 AI 任务的预训练模型,就像人们现在所做的。

抽象式摘要

  • “Microsoft 正在采取更全面的、以人为本的方法来学习和理解。 我们相信 XYZ 代码将使我们能够实现长期愿景:跨领域迁移学习、跨越模式和语言。 在过去的五年里,我们在对话语音识别的基准测试中达到了人类的表现。”

摘要入门

若要使用摘要,需在应用程序中进行提交,以便进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行额外的自定义。 可以通过两种方式使用摘要:

开发选项 说明
Language Studio Language Studio 是一个基于 Web 的平台,让你可以在没有 Azure 帐户的情况下尝试使用文本示例进行实体链接,并在注册时使用自己的数据。 有关详细信息,请参阅 Language Studio 网站Language Studio 快速入门
REST API 或客户端库 (Azure SDK) 使用 REST API 或以各种语言提供的客户端库将文档摘要集成到应用程序中。 有关详细信息,请参阅摘要快速入门

输入要求和服务限制

  • 摘要采用文本进行分析。 有关详细信息,请参阅操作指南中的数据和服务限制
  • 摘要适用于各种书面语言。 有关详细信息,请参阅语言支持

参考文档和代码示例

在应用程序中使用文档摘要时,请参阅针对适用于语言的 Azure AI 服务的以下参考文档和示例:

开发选项/语言 参考文档 示例
C# C# 文档 C# 示例
Java Java 文档 Java 示例
Javascript JavaScript 文档 JavaScript 示例
Python Python 文档 Python 示例