文档智能读取模型

2025-10-16

此内容适用于：v4.0 (GA) | 以前的版本：v3.1 (GA)v3.0 (GA)

注意

若要从外部图像（如标签、街道标志和海报）中提取文本，请使用 Azure AI 图像分析 v4.0 读取功能，通过性能增强的同步 API 优化常规（而不是文档）图像。此功能可更轻松地在实时用户体验方案中嵌入 OCR。

文档智能读取光学字符识别 (OCR) 模型采用高于 Azure AI 视觉读取的分辨率运行，并从 PDF 文档和扫描的图像中提取打印文本和手写文本。它还支持从 Microsoft Word、Excel、PowerPoint 和 HTML 文档中提取文本。它可检测段落、文本行、单词、位置和语言。除自定义模型外，该读取模型也是其他文档智能预生成模型（例如布局、常规文档、发票、收据、身份 (ID) 证件、医疗保险卡、W2）的基础 OCR 引擎。

什么是光学字符识别？

适用于文档的光学字符识别 (OCR) 针对采用多种文件格式和全球语言的大型文本密集型文档进行了优化。它包括许多功能，例如更高分辨率的文档图像扫描（更好地处理小型且密集的文本）；段落检测；以及可填充的表单管理。 OCR 功能还包括一些高级方案，例如单个字符框、准确提取发票和收据中常见的关键字段以及其他预生成方案。

开发选项 (v4)

文档智能 v4.0：2024-11-30 (GA) 支持以下工具、应用程序和库：

功能	资源	模型 ID
读取 OCR 模型	• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

输入要求 (v4)

支持以下文件格式。

型号	PDF	图片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）、HTML
读取	✔	✔	✔
版式	✔	✔	✔
常规文档	✔	✔
预生成	✔	✔
自定义提取	✔	✔
自定义分类	✔	✔	✔

照片和扫描：为获得最佳结果，请为每个文档提供一张清晰的照片或高质量的扫描。
PDF 和 TIFF：对于 PDF 和 TIFF，最多可以处理 2,000 页。（使用免费层订阅时，只处理前两个页面。
文件大小：用于分析文档的文件大小是付费层（S0）层的 500 MB，免费层为 4 MB（F0）层。
图像尺寸：尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
密码锁：如果 PDF 是密码锁定的，则必须在提交之前删除该锁。
文本高度：要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。此尺寸对应于 8 点大约文本，即每英寸 150 点。
自定义模型训练：自定义模板模型的最大训练页数为 500，自定义神经模型为 50,000。
自定义提取模型训练：对于模板模型，训练数据的总大小为 50 MB，神经网络模型为 1 GB。
自定义分类模型训练：训练数据的总大小为 1 GB，最大为 10,000 页。对于 2024-11-30（GA），训练数据的总大小为 2 GB，最大为 10,000 页。
Office 文件类型（DOCX、XLSX、PPTX）：最大字符串长度限制为 800 万个字符。

读取模型入门 (v4)

尝试使用文档智能工作室从表单和文档中提取文本。需要准备好以下资产：

Azure 订阅 - 可以创建一个试用订阅。
Azure 门户中的文档智能实例。可以使用免费定价层 (F0) 来试用该服务。在部署资源后，选择“转到资源”以获取密钥和终结点。

注意

目前，文档智能工作室不支持 Microsoft Word、Excel、PowerPoint 和 HTML 文件格式。

使用文档智能工作室处理的示例文档

文档智能工作室中的读取处理的屏幕截图。

在文档智能工作室主页上，选择“读取”。
可以分析示例文档或上传自己的文件。
选择“运行分析”按钮，并根据需要配置“分析选项”：

试用文档智能工作室。

支持的语言和区域设置 (v4)

如需支持的语言的完整列表，请参阅语言支持 - 文档分析模型页。

数据提取 (v4)

注意

v4.0 支持 Microsoft Word 和 HTML 文件。目前不支持以下功能：

不会为每个页面对象返回角度、宽度/高度和单位。
对于检测到的每个对象，没有边界多边形或边界区域。
不会返回任何页面范围 (pages) 作为参数。
无 lines 对象。

可搜索 PDF

借助可搜索的 PDF 功能，可以将模拟 PDF（如扫描图像 PDF 文件）转换为包含嵌入文本的 PDF。嵌入文本通过在图像文件顶部覆盖检测到的文本实体，在 PDF 提取的内容中启用深度文本搜索。

重要

目前，只有读取 OCR 模型 prebuilt-read 支持可搜索的 PDF 功能。使用此功能时，将 modelId 指定为 prebuilt-read。在此预览版中，其他模型类型会返回错误。
可搜索 PDF 包含在 2024-11-30 GA prebuilt-read 模型中，生成可搜索 PDF 输出不收取额外费用。

使用可搜索 PDF

若要使用可搜索 PDF，请使用 POST 操作发出 Analyze 请求，并将输出格式指定为 pdf：


     POST {endpoint}/documentintelligence/documentModels/prebuilt-read:analyze?_overload=analyzeDocument&api-version=2024-11-30&output=pdf
     {...}
     202

轮询 Analyze 操作的完成状态。操作完成后，发出 GET 请求以检索 Analyze 操作结果的 PDF 格式。

成功完成后，可以检索 PDF 并将其下载为 application/pdf。此操作允许直接下载 PDF 的嵌入文本形式，而不是 Base64 编码的 JSON。


     // Monitor the operation until completion.
     GET /documentModels/prebuilt-read/analyzeResults/{resultId}
     200
     {...}

     // Upon successful completion, retrieve the PDF as application/pdf.
     GET {endpoint}/documentintelligence/documentModels/prebuilt-read/analyzeResults/{resultId}/pdf?api-version=2024-11-30
URI Parameters
Name    In    Required    Type    Description
endpoint    path    True    
string

uri    
The Document Intelligence service endpoint.

modelId    path    True    
string

Unique document model name.

Regex pattern: ^[a-zA-Z0-9][a-zA-Z0-9._~-]{1,63}$

resultId    path    True    
string

uuid    
Analyze operation result ID.

api-version    query    True    
string

The API version to use for this operation.

Responses
Name    Type    Description
200 OK    
file

The request has succeeded.

Media Types: "application/pdf", "application/json"

Other Status Codes    
DocumentIntelligenceErrorResponse

An unexpected error response.

Media Types: "application/pdf", "application/json"

Security
Ocp-Apim-Subscription-Key
Type: apiKey
In: header

OAuth2Auth
Type: oauth2
Flow: accessCode
Authorization URL: https://login.partner.microsoftonline.cn/common/oauth2/authorize
Token URL: https://login.partner.microsoftonline.cn/common/oauth2/token

Scopes
Name    Description
https://cognitiveservices.azure.cn/.default    
Examples
Get Analyze Document Result PDF
Sample request
HTTP
HTTP

Copy
GET https://myendpoint.cognitiveservices.azure.cn/documentintelligence/documentModels/prebuilt-invoice/analyzeResults/3b31320d-8bab-4f88-b19c-2322a7f11034/pdf?api-version=2024-11-30
Sample response
Status code:
200
JSON

Copy
"{pdfBinary}"
Definitions
Name    Description
DocumentIntelligenceError    
The error object.

DocumentIntelligenceErrorResponse    
Error response object.

DocumentIntelligenceInnerError    
An object containing more specific information about the error.

DocumentIntelligenceError
The error object.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

details    
DocumentIntelligenceError[]

An array of details about specific errors that led to this reported error.

innererror    
DocumentIntelligenceInnerError

An object containing more specific information than the current object about the error.

message    
string

A human-readable representation of the error.

target    
string

The target of the error.

DocumentIntelligenceErrorResponse
Error response object.

Name    Type    Description
error    
DocumentIntelligenceError

Error info.

DocumentIntelligenceInnerError
An object containing more specific information about the error.

Name    Type    Description
code    
string

One of a server-defined set of error codes.

innererror    
DocumentIntelligenceInnerError

Inner error.

message    
string

A human-readable representation of the error.

In this article
URI Parameters
Responses
Security
Examples

     200 OK
     Content-Type: application/pdf

页面数参数

页面集合是文档内页面的列表。每个页面在文档中按顺序表示，并包括方向角度，表示页面是否旋转以及宽度和高度（以像素为单位）。模型输出中的页面单位计算如下：

文件格式	计算页单位	全部页
图片（JPEG/JPG、PNG、BMP、HEIF）	每个图像 = 1 个页面单位	图像总数
PDF	PDF 中的每个页面 = 1 个页面单位	PDF 中的总页数
TIFF	TIFF 中的每个图像 = 1 个页面单位	TIFF 中的图像总数
Word （DOCX）	最多 3,000 个字符 = 1 个页面单位，不支持嵌入或链接的图像	每页最多 3,000 个字符的总页数
Excel （XLSX）	每个工作表 = 1 个页面单位，不支持嵌入或链接的图像	工作表总数
PowerPoint （PPTX）	每张幻灯片 = 1 个页面单位，不支持嵌入或链接的图像	幻灯片总数
HTML	最多 3,000 个字符 = 1 个页面单位，不支持嵌入或链接的图像	每页最多 3,000 个字符的总页数

代码示例
输出

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

查看 GitHub 上的示例。

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

使用页面进行文本提取

对于较大的多页 PDF 文档，请使用 pages 查询参数指示用于文本提取的特定页码或页面范围。

段落提取

文档智能中的读取 OCR 模型将 paragraphs 集合中所有识别出的文本块提取为 analyzeResults 下的顶级对象。此集合中的每个条目都表示一个文本块，并包含提取的文本 (content) 和边界 polygon 坐标。 span 信息指向包含文档全文的顶级 content 属性中的文本片段。

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

文本、行和字词提取

读取 OCR 模型将打印和手写样式的文本提取为 lines 和 words。模型输出所提取单词的边界 polygon 坐标和 confidence。 styles 集合包含任何手写的行样式（如果检测到的话）以及指向关联文本的跨度。此功能适用于受支持的手写语言。

对于 Microsoft Word、Excel、PowerPoint 和 HTML，文档智能读取模型 v3.1 及更高版本按原样提取所有嵌入文本。文本被提取为字词和段落。不支持嵌入图像。

代码示例
输出

    # Analyze lines.
    if page.lines:
        for line_idx, line in enumerate(page.lines):
            words = get_words(page, line)
            print(
                f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{line.polygon}'"
            )

            # Analyze words.
            for word in words:
                print(f"......Word '{word.content}' has a confidence of {word.confidence}")

查看 GitHub 上的示例。

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

手写样式提取

响应将分类说明每个文本行是否为手写体，同时包括置信度评分。有关详细信息，请参阅手写语言支持。以下示例显示了一个示例 JSON 片段。

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

如果启用了字体/样式加载项功能，则还会获得作为 styles 对象的一部分的字体/样式结果。

后续步骤 v4.0

完成文档智能快速入门：

探索 REST API：

文档智能 API v4.0

在 GitHub 上查找更多示例：

读取模型。

此内容适用于：v3.1 (GA) | 最新版本：v4.0 (GA) | 以前的版本：v3.0

此内容适用于：v3.0 (GA) | 最新版本：v4.0 (GA)v3.1

注意

什么是适用于文档的 OCR？

开发选项

文档智能 v3.1 支持以下工具、应用程序和库：

功能	资源	模型 ID
读取 OCR 模型	• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

文档智能 v3.0 支持以下工具、应用程序和库：

功能	资源	模型 ID
读取 OCR 模型	• 文档智能工作室 • REST API • C# SDK • Python SDK • Java SDK • JavaScript SDK	prebuilt-read

输入要求

支持以下文件格式。

型号	PDF	图片： JPEG/JPG、PNG、BMP、TIFF、HEIF	Office： Word（DOCX）、Excel（XLSX）、PowerPoint（PPTX）、HTML
读取	✔	✔	✔
版式	✔	✔	✔
常规文档	✔	✔
预生成	✔	✔
自定义提取	✔	✔
自定义分类	✔	✔	✔

照片和扫描：为获得最佳结果，请为每个文档提供一张清晰的照片或高质量的扫描。
PDF 和 TIFF：对于 PDF 和 TIFF，最多可以处理 2,000 页。（使用免费层订阅时，只处理前两个页面。
文件大小：用于分析文档的文件大小是付费层（S0）层的 500 MB，免费层为 4 MB（F0）层。
图像尺寸：尺寸必须介于 50 像素 x 50 像素和 10,000 像素 x 10,000 像素之间。
密码锁：如果 PDF 是密码锁定的，则必须在提交之前删除该锁。
文本高度：要提取的文本的最小高度是 1024 x 768 像素图像的 12 像素。此尺寸对应于 8 点大约文本，即每英寸 150 点。
自定义模型训练：自定义模板模型的最大训练页数为 500，自定义神经模型为 50,000。
自定义提取模型训练：对于模板模型，训练数据的总大小为 50 MB，神经网络模型为 1 GB。
自定义分类模型训练：训练数据的总大小为 1 GB，最大为 10,000 页。对于 2024-11-30（GA），训练数据的总大小为 2 GB，最大为 10,000 页。
Office 文件类型（DOCX、XLSX、PPTX）：最大字符串长度限制为 800 万个字符。

读取模型入门

尝试使用文档智能工作室从表单和文档中提取文本。需要准备好以下资产：

Azure 订阅 - 可以创建试用订阅
Azure 门户中的文档智能实例。可以使用免费定价层 (F0) 来试用该服务。在部署资源后，选择“转到资源”以获取密钥和终结点。

该屏幕截图显示了 Azure 门户中密钥和终结点的位置。

注意

目前，文档智能工作室不支持 Microsoft Word、Excel、PowerPoint 和 HTML 文件格式。

使用文档智能工作室处理的示例文档

文档智能工作室中的读取处理的屏幕截图。

在文档智能工作室主页上，选择“读取”。
可以分析示例文档或上传自己的文件。
选择“运行分析”按钮，并根据需要配置“分析选项”：

试用文档智能工作室。

支持的语言和区域设置

如需支持的语言的完整列表，请参阅语言支持 - 文档分析模型页。

数据提取

注意

v4.0 支持 Microsoft Word 和 HTML 文件。目前不支持以下功能：

不会为每个页面对象返回角度、宽度/高度和单位。
对于检测到的每个对象，没有边界多边形或边界区域。
不会返回任何页面范围 (pages) 作为参数。
无 lines 对象。

可搜索 PDF

重要

目前，只有读取 OCR 模型 prebuilt-read 支持可搜索的 PDF 功能。使用此功能时，将 modelId 指定为 prebuilt-read。其他模型类型会返回错误。
可搜索 PDF 包含在 2024-11-30prebuilt-read 模型中，生成可搜索 PDF 输出不收取额外费用。
- 可搜索 PDF 目前仅支持 PDF 文件作为输入。

使用可搜索 PDF

若要使用可搜索 PDF，请使用 POST 操作发出 Analyze 请求，并将输出格式指定为 pdf：


    POST /documentModels/prebuilt-read:analyze?output=pdf
    {...}
    202

轮询 Analyze 操作的完成状态。操作完成后，发出 GET 请求以检索 Analyze 操作结果的 PDF 格式。

成功完成后，可以检索 PDF 并将其下载为 application/pdf。此操作允许直接下载 PDF 的嵌入文本形式，而不是 Base64 编码的 JSON。


    // Monitor the operation until completion.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}
    200
    {...}

    // Upon successful completion, retrieve the PDF as application/pdf.
    GET /documentModels/prebuilt-read/analyzeResults/{resultId}/pdf
    200 OK
    Content-Type: application/pdf

页

文件格式	计算页单位	全部页
图片（JPEG/JPG、PNG、BMP、HEIF）	每个图像 = 1 个页面单位	图像总数
PDF	PDF 中的每个页面 = 1 个页面单位	PDF 中的总页数
TIFF	TIFF 中的每个图像 = 1 个页面单位	TIFF 中的图像总数
Word （DOCX）	最多 3,000 个字符 = 1 个页面单位，不支持嵌入或链接的图像	每页最多 3,000 个字符的总页数
Excel （XLSX）	每个工作表 = 1 个页面单位，不支持嵌入或链接的图像	工作表总数
PowerPoint （PPTX）	每张幻灯片 = 1 个页面单位，不支持嵌入或链接的图像	幻灯片总数
HTML	最多 3,000 个字符 = 1 个页面单位，不支持嵌入或链接的图像	每页最多 3,000 个字符的总页数

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

代码示例
输出

    # Analyze pages.
    for page in result.pages:
        print(f"----Analyzing document from page #{page.page_number}----")
        print(
            f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
        )

查看 GitHub 上的示例。

    "pages": [
        {
            "pageNumber": 1,
            "angle": 0,
            "width": 915,
            "height": 1190,
            "unit": "pixel",
            "words": [],
            "lines": [],
            "spans": []
        }
    ]

选择页面以进行文本提取

对于较大的多页 PDF 文档，请使用 pages 查询参数指示用于文本提取的特定页码或页面范围。

段落

    "paragraphs": [
        {
            "spans": [],
            "boundingRegions": [],
            "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
        }
    ]

文本、行、字词

对于 Microsoft Word、Excel、PowerPoint 和 HTML，文档智能读取模型 v3.1 及更高版本按原样提取所有嵌入文本。文本被提取为字词和段落。不支持嵌入图像。


    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

代码示例
输出

    # Analyze lines.
    for line_idx, line in enumerate(page.lines):
        words = line.get_words()
        print(
            f"...Line # {line_idx} has {len(words)} words and text '{line.content}' within bounding polygon '{format_polygon(line.polygon)}'"
        )

        # Analyze words.
        for word in words:
            print(
                f"......Word '{word.content}' has a confidence of {word.confidence}"
            )

查看 GitHub 上的示例。

    "words": [
        {
            "content": "While",
            "polygon": [],
            "confidence": 0.997,
            "span": {}
        },
    ],
    "lines": [
        {
            "content": "While healthcare is still in the early stages of its Al journey, we",
            "polygon": [],
            "spans": [],
        }
    ]

文本行的手写风格

响应将分类说明每个文本行是否为手写体，同时包括置信度评分。有关详细信息，请参阅手写语言支持。以下示例显示了一个示例 JSON 片段。

    "styles": [
    {
        "confidence": 0.95,
        "spans": [
        {
            "offset": 509,
            "length": 24
        }
        "isHandwritten": true
        ]
    }

如果启用了字体/样式加载项功能，则还会获得作为 styles 对象的一部分的字体/样式结果。

后续步骤

完成文档智能快速入门：

探索 REST API：

文档智能 API v4.0

在 GitHub 上查找更多示例：

读取模型。

通过

文档智能读取模型

什么是光学字符识别？

开发选项 (v4)

输入要求 (v4)

读取模型入门 (v4)

支持的语言和区域设置 (v4)

数据提取 (v4)

可搜索 PDF

使用可搜索 PDF

页面数参数

使用页面进行文本提取

段落提取

文本、行和字词提取

手写样式提取

后续步骤 v4.0

什么是适用于文档的 OCR？

开发选项

输入要求

读取模型入门

支持的语言和区域设置

数据提取

可搜索 PDF

使用可搜索 PDF

页

选择页面以进行文本提取

段落

文本、行、字词

文本行的手写风格

后续步骤

其他资源