在 Azure AI 搜索中，为 RAG（检索增强生成）和矢量搜索对大型文档进行分块。

将大型文档分区为较小的区块有助于保持聊天完成和嵌入模型的最大令牌输入限制。

聊天完成模型具有相同的输入令牌限制，因此分块也有助于检索扩充生成（RAG）或代理检索。将内容分区成区块有助于满足输入令牌要求，并防止由于截断而导致数据丢失。

Azure AI 搜索具有用于分块内容的内置解决方案，以及用于向量分块内容（如果使用矢量搜索）。内置方法依赖于支持文本拆分和嵌入生成的内置索引器和技能集。如果无法使用集成矢量化，本文介绍了一些用于分块内容的替代方法。

小窍门

如果您正在对内容进行分块以便自主检索，那么多个知识源可以生成一个完整的索引流程，该流程不仅可以分块，还可以选择性地向量化您的内容。索引器、数据源定义和技能集是根据知识源定义中的信息为你创建的。此功能的知识源包括 Azure blob。

常用分块技术

仅当源文档太大超过模型的最大输入限制时，才需要进行分块处理，但如果内容以单个向量表示效果不佳，分块处理也是有益的。请考虑包含许多不同子主题的 Wiki 页面。整个页面可能足够小，以满足模型输入要求，但如果以更精细的粒度分块，可能会得到更好的结果。

下面是一些常见的分块技术，如果使用索引器和技能，则与内置功能相关联。

方法	用法	内置功能
固定大小的区块	定义一个大小固定的标准，足够用于创建语义有意义的段落（例如，200个单词或600个字符），并且允许内容有一定程度的重叠（例如，10-15个%），这样可以输出适合嵌入向量生成器使用的良好区块。	文本拆分技能，按页面拆分（由字符长度定义）
基于内容特征的可变大小的区块	根据句子结束的标点符号、行结束标记或使用自然语言处理（NLP）库中用于检测文档结构的功能，对数据进行分区。嵌入式标记（如 HTML 或 Markdown）具有标题语法，可用于按节对数据进行分块。	文档布局技能。
语义区块	将内容分解为有意义的单元，以跨句子和段落保留上下文和语义关系。此方法生成的区块可以更好地维护语义一致性，并且可以跨越页面边界。	Azure内容理解功能（以 markdown 输出进行语义分块）
自定义组合	使用固定和可变大小的分块的组合，或扩展方法。例如，在处理大型文档时，可以使用可变大小的区块，但也可以将文档标题附加到文档中间的区块中，以防止上下文丢失。	没有
文档分析	索引器可以将较大的源文档分析为较小的搜索文档以编制索引。严格地说，这种方法不是分块的，但有时可以实现相同的目标。	索引 Markdown blob 和文件、一对多索引或索引 JSON Blob 和文件

内容重叠注意事项

根据固定大小对数据进行分块时，在区块之间重叠少量文本有助于保持连续性和上下文。我们建议从 512 个令牌（大约 2,000 个字符）的区块大小开始，初始重叠为 25%，相当于 128 个标记。这种重叠可确保区块之间更流畅的转换，而不会重复过多。

最佳重叠可能会因内容类型和用例而异。例如，高度结构化的数据可能需要较少的重叠，而对话或叙述性文本可能受益于更多内容。

数据分块的因素

涉及到数据分块时，请考虑以下因素：

文档的形状和密度。如果需要完整的文本或段落，则那些保留句子结构的较大区块和可变区块可以产生更好的结果。
用户查询：较大区块和重叠策略有助于保留针对特定信息的查询的上下文和语义丰富性。
大型语言模型 (LLM) 有针对区块大小的性能准则。查找最适合你使用的所有模型的区块大小。例如，如果将模型用于摘要和嵌入项，请选择适用于两者的最佳区块大小。

分块如何适应工作流

如果你有大型文档，请将分块步骤插入索引和查询工作流，以分解大型文本。使用集成矢量化时，使用文本拆分技能的默认分块策略很常见。还可以使用自定义技能应用自定义分块策略。有关使用自定义技能的语义分块示例，请参阅以下代码参考。提供分块的一些外部库包括：

大部分库都提供针对固定大小、可变大小或其组合的常见分块技术。你还可以指定重叠，在每个区块中复制少量内容以保留上下文。

分块示例

以下示例演示了如何将分块策略应用于NASA《地球之夜》电子书 PDF 文件：

文本拆分技能
LangChain
自定义技能

文本拆分技能示例

集成的文本拆分技能的数据块功能现已正式发布。

本部分介绍通过技能驱动的方法和文本拆分技能参数实现的内置数据分块功能。

此示例的示例笔记本可在 azure-search-vector-samples 存储库中找到。设置 textSplitMode 以将内容分解为较小的区块：

pages（默认）。区块由多个句子组成。
sentences。区块由单个句子组成。构成一个“句子”的内容因语言而异。在英语中，标准句子适用的结束标点符号为 . 或 !。语言由 defaultLanguageCode 参数控制。

该 pages 参数会添加额外的参数：

maximumPageLength 在每个区块中定义最大字符数 ¹ 或标记 ² 。文本拆分器可避免拆分句子，因此实际字符计数取决于内容。
pageOverlapLength 定义下一页开头包含上一页末尾的字符数。如果已设置，则必须小于最大页面长度的一半。
maximumPagesToTake 定义要从文档获取的页数/区块数。默认值为 0，这意味着从文档获取所有页面或区块。

¹ 个字符不符合令牌的定义。 LLM 测量的令牌数可能与文本拆分技能使用固定大小的字符大小不同。

² 令牌分块在 2025-11-01-preview 中可用，并包括指定令牌生成器和规定分块期间不应拆分的任何令牌的额外参数。

下表显示了参数的选择如何影响《地球之夜》电子书中总区块计数：

`textSplitMode`	`maximumPageLength`	`pageOverlapLength`	区块总数
`pages`	1000	0	172
`pages`	1000	200	216
`pages`	2000	0	85
`pages`	2000	500	113
`pages`	五千	0	34
`pages`	五千	500	三十八
`sentences`	空值	空值	13361

通过使用textSplitMode，大多数区块的总字符计数接近pages。区块字符计数因句子边界在区块内的位置而有所不同。区块令牌长度取决于区块内容差异。

参数的最佳选择取决于区块的使用方式。对于大多数应用程序，建议在使用字符数时以以下默认参数开头：

`textSplitMode`	`maximumPageLength`	`pageOverlapLength`
`pages`	2000	500

LangChain 数据分块示例

LangChain 提供文档加载器和文本拆分器。此示例演示如何加载 PDF、获取令牌计数和设置文本拆分器。获取令牌计数有助于就区块大小做出明智的决策。

此示例的示例笔记本可在 azure-search-vector-samples 存储库中找到。

from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("./data/earth_at_night_508.pdf")
pages = loader.load()

print(len(pages))

输出指示 PDF 中有 200 个文档或页面。

若要获取这些页面的估计令牌计数，请使用 TikToken。

import tiktoken

tokenizer = tiktoken.get_encoding('cl100k_base')
def tiktoken_len(text):
    tokens = tokenizer.encode(
    text,
    disallowed_special=()
)
    return len(tokens)
tiktoken.encoding_for_model('gpt-4.1-mini')

# create the length function
token_counts = []
for page in pages:
    token_counts.append(tiktoken_len(page.page_content))
min_token_count = min(token_counts)
avg_token_count = int(sum(token_counts) / len(token_counts))
max_token_count = max(token_counts)

# print token counts
print(f"Min: {min_token_count}")
print(f"Avg: {avg_token_count}")
print(f"Max: {max_token_count}")

输出指示没有页具有零个标记，每个页面的平均令牌长度为 189 个令牌，任何页面的最大令牌计数为 1583。

了解平均令牌大小和最大令牌大小可让你深入了解如何设置区块大小。尽管可以使用 2,000 个字符与 500 个字符重叠的标准建议，但鉴于示例文档的具体令牌计数，在这种情况下选择较低的字符数更合理。其实，设置过大的重叠值可能导致根本没有重叠出现。

from langchain.text_splitter import RecursiveCharacterTextSplitter
# split documents into text and embeddings

text_splitter = RecursiveCharacterTextSplitter(
   chunk_size=1000,
   chunk_overlap=200,
   length_function=len,
   is_separator_regex=False
)

chunks = text_splitter.split_documents(pages)

print(chunks[20])
print(chunks[21])

连续两个区块的输出显示第一个区块中的文本重叠到第二个区块上。为提高可读性，输出内容略经编辑。

'x Earth at NightForeword\nNASA's Earth at Night explores the brilliance of our planet when it is in darkness. \n It is a compilation of stories depicting the interactions between science and \nwonder, and I am pleased to share this visually stunning and captivating exploration of \nour home planet.\nFrom space, our Earth looks tranquil. The blue ethereal vastness of the oceans \nharmoniously shares the space with verdant green land—an undercurrent of gentle-ness and solitude. But spending time gazing at the images presented in this book, our home planet at night instantly reveals a different reality. Beautiful, filled with glow-ing communities, natural wonders, and striking illumination, our world is bustling with activity and life.**\nDarkness is not void of illumination. It is the contrast, the area between light and'** metadata={'source': './data/earth_at_night_508.pdf', 'page': 9}

'**Darkness is not void of illumination. It is the contrast, the area between light and **\ndark, that is often the most illustrative. Darkness reminds me of where I came from and where I am now—from a small town in the mountains, to the unique vantage point of the Nation's capital. Darkness is where dreamers and learners of all ages peer into the universe and think of questions about themselves and their space in the cosmos. Light is where they work, where they gather, and take time together.\nNASA's spacefaring satellites have compiled an unprecedented record of our \nEarth, and its luminescence in darkness, to captivate and spark curiosity. These missions see the contrast between dark and light through the lenses of scientific instruments. Our home planet is full of complex and dynamic cycles and processes. These soaring observers show us new ways to discern the nuances of light created by natural and human-made sources, such as auroras, wildfires, cities, phytoplankton, and volcanoes.' metadata={'source': './data/earth_at_night_508.pdf', 'page': 9}

Last updated on 2026-06-22