自定义问题解答的格式指南

查看这些格式设置准则,以获取内容的最佳结果。

格式设置注意事项

导入文件或 URL 后,自定义问答会转换内容并将其存储为 markdown 格式。 转换过程会在文本中添加新行,例如 \n\n。 了解 Markdown 格式有助于理解转换后的内容和管理项目内容。

如果直接在项目中添加或编辑内容,请使用 Markdown 格式创建富文本内容,或者更改答案中已有的 Markdown 格式内容。 自定义问题解答支持许多 Markdown 格式,为内容提供了丰富的文本功能。 但客户端应用程序(如聊天机器人)支持的 Markdown 格式集可能有所不同。 测试客户端应用程序的答案显示非常重要。

基本文档格式设置

自定义问题解答根据类似以下的视觉线索来确定文件中的节、子节和关系:

  • 字号
  • 字体样式
  • 编号
  • 颜色

注释

目前不支持从上传的文档中提取图像。

产品手册

手册通常是产品附带的指导材料。 它可以帮助用户设置、使用、维护产品和排除产品故障。 当自定义问题解答处理手册时,它会将标题和副标题提取为问题,并将后续内容提取为答案。 请参阅此处的示例。

下面是包含索引页和分层内容的手动示例

适用于项目的产品手册示例

注释

提取最适用于具有目录和/或索引页的手册,以及具有分层标题的清晰结构。

小册子、指南、论文和其他文件

许多其他类型的文档也可进行处理,以便生成问答对,前提是它们有清晰的结构和布局。 这些文件包括:小册子、指南、报告、白皮书、科学论文、政策、书籍等。请参阅 此处的示例。

下面是一个半结构化文档的示例,没有索引:

Azure Blob 存储半结构化文档

非结构化文档支持

自定义问答现在支持非结构化文档。 没有以分层方式组织其内容的文档缺少集结构,或者其内容自由流动可被视为非结构化文档。

下面是非结构化 PDF 文档的示例:

适用于项目的非结构化文档示例

注释

未在非结构化源的“编辑源”选项卡中提取 QnA 对。

重要

对非结构化文件/内容的支持仅在自定义问题解答中提供。

结构化自定义问题解答文档

DOC 文件中结构化问答的格式采用每行交替问题和答案的形式。 它是每行一个问题,后跟以下行中的答案,如下所示:

Question1

Answer1

Question2

Answer2

下面是结构化自定义问答单词文档的示例:

某个项目的结构化自定义问题解答文档示例

结构化 TXTTSVXLS 文件

还可以将结构化 .txt、 .tsv 或 .xls 文件形式的自定义问题解答上传到自定义问题解答,以创建或扩充项目。 这些文件可以是纯文本,也可以具有 RTF 或 HTML 中的内容。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。

问题 答案 元数据(一个键:一个值)
问题 1 答案 1 Key1:Value1 | Key2:Value2
问题 2 答案 2 Key:Value

将忽略源文件中的其他任何列。

通过导入提供的结构化数据格式

导入项目将替换现有项目的内容。 导入需要包含数据源信息的结构化 .tsv 文件。 此信息有助于对问题答案对进行分组,并将其属性归为特定的数据源。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。 导入格式需要与导出的知识库格式相似。

问题 答案 来源 元数据(一个键:一个值) QnaId
问题 1 答案 1 Url1 Key1:Value1 | Key2:Value2 QnaId 1
问题 2 答案 2 编辑 Key:Value QnaId 2

多回合文档格式设置

  • 使用标题和子标题来表示层次结构。 例如,可以使用 h1 来表示父问答,使用 h2 来表示应用作提示的问答。 使用较小的标题大小来表示后续层次结构。 不要使用样式、颜色或其他一些机制来暗示文档中的结构,自定义问答不会提取多轮次提示。
  • 标题的第一个字符必须采用大写形式。
  • 不要用问号 ?结束标题。

示例文档
Surface Pro (docx)
Contoso Benefits (docx)
Contoso 权益 (pdf)

常见问题解答 URL

自定义问题解答可以支持三种不同形式的常见问题解答网页:

  • 纯文本常见问题解答页
  • 带链接的常见问题解答页
  • 主页的 Topics 常见问题解答页面

纯文本常见问题解答页

此类型是最常见的常见问题解答页类型,其中答案会紧随同一页中的问题。

在这种类型的常见问题解答页中,问题聚合在一起,并链接到同一页的不同部分或不同页中的答案。

下面是一个常见问题解答页面的示例,其中包含同一页上各节的链接:

适用于项目的部分链接常见问题解答页示例

这种类型的常见问题解答有一个 Topics 页面,其中每个主题都链接到不同页面上的一组相应的问题和答案。 问题解答会抓取所有链接的页以提取相应的问题与答案。

下面是一 Topics 个页面示例,其中包含指向不同页面中常见问题解答部分的链接。

适用于项目的深层链接常见问题解答页示例

支持 URL

自定义问答适用于半结构化支持网页。 这些网页包括介绍如何执行任务、如何解决问题或遵循的最佳做法的文章。 当内容具有带有标题的清晰结构时,提取效果最佳。

注释

提取支持文章是一项新功能,并且处于早期阶段。 它最适合结构良好的简单页面,并且不包含复杂的页眉/页脚。