OCR - 光学字符识别

警告

不建议使用此服务，包括 Azure 视觉旧版 OCR API v3.2 和 RecognizeText API v2.1。

光学字符识别 (OCR) 也称为文本识别或文本提取。通过基于机器学习的 OCR 技术，可以从图像（如海报、街道标志和产品标签）以及文章、报表、表单和发票等文档中提取印刷或手写文本。文本通常提取为单词、文本行和段落或文本块，从而获取扫描文本的电子版。此功能可消除或显著减少手动数据输入的需求。

OCR 引擎

Microsoft的读取 OCR 引擎使用支持全球语言的多个高级机器学习模型。它提取印刷文本和手写文本，包括混合语言和写作样式。可以使用 “读取 ”作为云服务或本地容器进行灵活部署。它还可用作单个非文档的仅限图像的同步 API，其性能增强功能可简化实现 OCR 辅助用户体验。

智能文档处理（IDP）使用 OCR 作为其基础技术，通过基于文档智能的高级机器学习 AI 服务提取结构、关系、键值、实体和其他以文档为中心的见解。文档智能包含文档优化版本的“读取”作为其 OCR 引擎，同时委托给其他模型以获取更详细的见解。如果要从扫描的文档和数字文档中提取文本，请使用文档智能读取 OCR。

OCR 支持的语言

目前在 Azure 视觉中提供的两个读取版本都支持多种语言的印刷体和手写文本。印刷文本的 OCR 支持英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、朝鲜语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔文、阿拉伯语和 Devanagari 脚本的国际语言。手写文本的 OCR 支持英语、简体中文、法语、德语、意大利语、日语、朝鲜语、葡萄牙语和西班牙语。

请参阅 OCR 支持的语言完整列表。

OCR 常用功能

读取 OCR 模型在 Azure 视觉和文档智能中提供了常见的基线功能，同时针对相应的方案进行优化。以下列表汇总了常用功能：

提取受支持语言的印刷和手写文本
具有位置和置信度分数的页面、文本行和字词
支持混合语言、混合模式（打印和手写）
本地部署可用的 Distroless Docker 容器

使用 OCR 云 API

大多数客户更喜欢云 API，因为它们易于集成并提供快速工作效率。 Azure 和 Azure 视觉服务可处理规模、性能、数据安全性和合规性需求，同时专注于满足客户的需求。

输入要求

读取 API 将图像和文档作为输入。图像和文档必须满足以下要求：

支持的文件格式为 JPEG、PNG、BMP、PDF 和 TIFF。
对于 PDF 和 TIFF 文件，最多处理 2,000 页（仅免费层的前两页）。
图像的文件大小必须小于 500 MB（免费层的 4 MB），尺寸至少为 50 x 50 像素，最多为 10,000 x 10,000 像素。 PDF 文件没有大小限制。
要提取的文本的最小高度是 1024 x 768 图像的 12 像素，该图像对应于大约 8 磅字体文本（分辨率为 150 DPI）。

注释

无需裁剪文本行的图像。将整个图像发送到读取 API，并识别所有文本。

OCR 数据隐私和安全

与所有 Azure AI 服务一样，使用 Azure 视觉服务的开发人员应了解Microsoft客户数据策略。请参阅 Microsoft 信任中心上的“Azure AI 服务”页面来了解详细信息。

后续步骤

对于包含 PDF、Office 和 HTML 文档以及文档图像的 OCR，请先阅读文档智能。
有关以前的 GA 版本，请参阅 Azure Vision 3.2 GA SDK 或 REST API 快速入门。

Last updated on 2026-06-08