查看这些格式设置准则,以获取内容的最佳结果。
导入文件或 URL 后,自定义问题解答会将转换并以 markdown 格式存储内容。 转换过程会在文本中添加新行,例如 \n\n
。 了解 Markdown 格式有助于理解转换后的内容和管理项目内容。
如果直接在项目中添加或编辑内容,请使用 Markdown 格式创建富文本内容,或者更改答案中已有的 Markdown 格式内容。 自定义问题解答支持许多 Markdown 格式,为内容提供了丰富的文本功能。 但客户端应用程序(如聊天机器人)支持的 Markdown 格式集可能有所不同。 应测试客户端应用程序的答案显示,这很重要。
自定义问题解答根据类似以下的视觉线索来确定文件中的节、子节和关系:
- 字体大小
- 字体样式
- 编号
- 颜色
备注
目前不支持从上传的文档中提取图像。
手册通常是产品附带的指导材料。 它可以帮助用户设置、使用、维护产品和排除产品故障。 当自定义问题解答处理手册时,它会将标题和副标题提取为问题,并将后续内容提取为答案。 请参阅此处的示例。
下面是一个手册示例,其中包含索引页和分层内容。
备注
提取最适用于具有目录和/或索引页的手册,以及具有分层标题的清晰结构。
许多其他类型的文档也可进行处理,以便生成问答对,前提是它们有清晰的结构和布局。 其中包括:小册子、指南、报告、白皮书、科学论文、策略、书籍等。请参见此处的示例。
下面是一个半结构化文档的示例,没有索引:
自定义问答现在支持非结构化文档。 未以明确定义的分层方式组织其内容、缺少固定结构或其内容会自由流动的文档可被视为非结构化文档。
下面是非结构化 PDF 文档的示例:
备注
未在非结构化源的“编辑源”选项卡中提取 QnA 对。
重要
对非结构化文件/内容的支持仅在自定义问题解答中提供。
DOC 文件中结构化问答的格式采用每行都有交替的问题和回答的形式,一个问题占据一行,后面的一行是其回答,如下所示:
Question1
Answer1
Question2
Answer2
下面是结构化自定义问题解答 Word 文档的示例:
还可以将结构化 .txt、 .tsv 或 .xls 文件形式的自定义问题解答上传到自定义问题解答,以创建或扩充项目。 它们的内容可以是纯文本,也可以是 RTF 或 HTML 格式。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。
问题 | Answer | 元数据(1 个键:1 个值) |
---|---|---|
问题 1 | 答案 1 | Key1:Value1 | Key2:Value2 |
问题 2 | 答案 2 | Key:Value |
将忽略源文件中的任何其他列。
导入项目将替换现有项目的内容。 导入需要包含数据源信息的结构化 .tsv 文件。 这些信息可帮助将问答对分组,并将它们归因于特定数据源。 问答对具有一个可选的元数据字段,可用于将问答对归为不同类别。 导入格式需要与导出的知识库格式相似。
问题 | Answer | 源 | 元数据(1 个键:1 个值) | QnaId |
---|---|---|---|---|
问题 1 | 答案 1 | Url1 | Key1:Value1 | Key2:Value2 |
QnaId 1 |
问题 2 | 答案 2 | 编辑 | Key:Value |
QnaId 2 |
- 使用标题和子标题来表示层次结构。 例如,可以使用 h1 来表示父问答,使用 h2 来表示应用作提示的问答。 使用较小的标题大小来表示后续层次结构。 不要使用样式、颜色或一些其他机制来表示文档中的结构,自定义问题解答不会提取多轮次提示。
- 标题的第一个字符必须采用大写形式。
- 不要以问号
?
结束标题。
示例文档:
Surface Pro (docx)
Contoso Benefits (docx)
Contoso Benefits (pdf)
自定义问题解答可以支持三种不同形式的常见问题解答网页:
- 纯文本常见问题解答页
- 带链接的常见问题解答页
- 带主题主页的常见问题解答页
这是最常见的常见问题解答页类型,其中答案会紧跟在同一页中的问题后面。
在这种类型的常见问题解答页中,问题聚合在一起,并链接到同一页的不同部分或不同页中的答案。
下面的示例是一个常见问题解答页,其中的链接位于同一页上的不同部分:
此类型的常见问题解答有一个主题页面,其中每个主题都链接到不同页面上相应的一组问题和答案。 问题解答会抓取所有链接的页以提取相应的问题与答案。
下面是主题页面的示例,其中包含指向不同页面中常见问题解答部分的链接。
自定义问题解答可以处理半结构化支持网页,例如,介绍如何执行给定任务、如何诊断和解决给定问题以及适用于给定流程的最佳做法的 Web 文章。 提取最适用于结构清晰且具有分层标题的文档。
备注
提取支持文章是一项新功能,并且处于早期阶段。 它最适用于结构良好且未包含复杂页眉/页脚的简单页面。
只能通过从 Language Studio 的“设置”页导入文件来使用已导出项目中的 TSV 和 XLS 文件。 在项目创建期间无法将其用作数据源,也无法在“设置”页上通过“+ 添加文件”或“+ 添加 URL”功能将其作为数据源来使用。
通过这些 TSV 和 XLS 文件导入项目时,会将问答对添加到编辑源,而不是添加到从导出的项目提取问答的源中。