自定义问题解答的格式指南

查看这些格式设置准则,以获取内容的最佳结果。

格式设置注意事项

导入文件或 URL 后,自定义问题解答会将转换并以 markdown 格式存储内容。 转换过程会在文本中添加新行,例如 \n\n。 了解 Markdown 格式有助于理解转换后的内容和管理项目内容。

如果直接在项目中添加或编辑内容,请使用 Markdown 格式创建富文本内容,或者更改答案中已有的 Markdown 格式内容。 自定义问题解答支持许多 Markdown 格式,为内容提供了丰富的文本功能。 但客户端应用程序(如聊天机器人)支持的 Markdown 格式集可能有所不同。 应测试客户端应用程序的答案显示,这很重要。

基本文档格式设置

自定义问题解答根据类似以下的视觉线索来确定文件中的节、子节和关系:

  • 字体大小
  • 字体样式
  • 编号
  • 颜色

备注

目前不支持从上传的文档中提取图像。

产品手册

手册通常是产品附带的指导材料。 它可以帮助用户设置、使用、维护产品和排除产品故障。 当自定义问题解答处理手册时,它会将标题和副标题提取为问题,并将后续内容提取为答案。 请参阅此处的示例。

下面是一个手册示例,其中包含索引页和分层内容。

适用于项目的产品手册示例

备注

提取最适用于具有目录和/或索引页的手册,以及具有分层标题的清晰结构。

小册子、指南、论文和其他文件

许多其他类型的文档也可进行处理,以便生成问答对,前提是它们有清晰的结构和布局。 其中包括:小册子、指南、报告、白皮书、科学论文、策略、书籍等。请参见此处的示例。

下面是一个半结构化文档的示例,没有索引:

Azure Blob 存储半结构化文档

非结构化文档支持

自定义问答现在支持非结构化文档。 未以明确定义的分层方式组织其内容、缺少固定结构或其内容会自由流动的文档可被视为非结构化文档。

下面是非结构化 PDF 文档的示例:

适用于项目的非结构化文档示例

备注

未在非结构化源的“编辑源”选项卡中提取 QnA 对。

重要

对非结构化文件/内容的支持仅在自定义问题解答中提供。

结构化自定义问题解答文档

DOC 文件中结构化问答的格式采用每行都有交替的问题和回答的形式,一个问题占据一行,后面的一行是其回答,如下所示:

Question1

Answer1

Question2

Answer2

下面是结构化自定义问题解答 Word 文档的示例:

某个项目的结构化自定义问题解答文档示例

结构化 TXTTSVXLS 文件

还可以将结构化 .txt、 .tsv 或 .xls 文件形式的自定义问题解答上传到自定义问题解答,以创建或扩充项目。 它们的内容可以是纯文本,也可以是 RTF 或 HTML 格式。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。

问题 Answer 元数据(1 个键:1 个值)
问题 1 答案 1 Key1:Value1 | Key2:Value2
问题 2 答案 2 Key:Value

将忽略源文件中的任何其他列。

通过导入提供的结构化数据格式

导入项目将替换现有项目的内容。 导入需要包含数据源信息的结构化 .tsv 文件。 这些信息可帮助将问答对分组,并将它们归因于特定数据源。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。 导入格式需要与导出的知识库格式相似。

问题 Answer 元数据(1 个键:1 个值) QnaId
问题 1 答案 1 Url1 Key1:Value1 | Key2:Value2 QnaId 1
问题 2 答案 2 编辑 Key:Value QnaId 2

多回合文档格式设置

  • 使用标题和子标题来表示层次结构。 例如,可以使用 h1 来表示父问答,使用 h2 来表示应用作提示的问答。 使用较小的标题大小来表示后续层次结构。 不要使用样式、颜色或一些其他机制来表示文档中的结构,自定义问题解答不会提取多轮次提示。
  • 标题的第一个字符必须采用大写形式。
  • 不要以问号 ? 结束标题。

示例文档
Surface Pro (docx)
Contoso Benefits (docx)
Contoso Benefits (pdf)

常见问题解答 URL

自定义问题解答可以支持三种不同形式的常见问题解答网页:

  • 纯文本常见问题解答页
  • 带链接的常见问题解答页
  • 带主题主页的常见问题解答页

纯文本常见问题解答页

这是最常见的常见问题解答页类型,其中答案会紧跟在同一页中的问题后面。

在这种类型的常见问题解答页中,问题聚合在一起,并链接到同一页的不同部分或不同页中的答案。

下面的示例是一个常见问题解答页,其中的链接位于同一页上的不同部分:

适用于项目的部分链接常见问题解答页示例

此类型的常见问题解答有一个主题页面,其中每个主题都链接到不同页面上相应的一组问题和答案。 问题解答会抓取所有链接的页以提取相应的问题与答案。

下面是主题页面的示例,其中包含指向不同页面中常见问题解答部分的链接。

适用于项目的深层链接常见问题解答页示例

支持 URL

自定义问题解答可以处理半结构化支持网页,例如,介绍如何执行给定任务、如何诊断和解决给定问题以及适用于给定流程的最佳做法的 Web 文章。 提取最适用于结构清晰且具有分层标题的文档。

备注

提取支持文章是一项新功能,并且处于早期阶段。 它最适用于结构良好且未包含复杂页眉/页脚的简单页面。

导入和导出项目

只能通过从 Language Studio 的“设置”页导入文件来使用已导出项目中的 TSV 和 XLS 文件。 在项目创建期间无法将其用作数据源,也无法在“设置”页上通过“+ 添加文件”或“+ 添加 URL”功能将其作为数据源来使用。

通过这些 TSV 和 XLS 文件导入项目时,会将问答对添加到编辑源,而不是添加到从导出的项目提取问答的源中。