OCR - 光学字符识别

光学字符识别 (OCR) 也称为文本识别或文本提取。 借助基于机器学习的 OCR 技术,可以从海报、路标和产品标签等图像,以及文章、报表、表单和发票等文档中提取印刷或手写文本。 文本通常提取为单词、文本行和段落或文本块,从而获取扫描文本的电子版。 该功能可消除或显著减少手动输入数据的需求。

智能文档处理 (IDP) 使用 OCR 作为其基础技术,通过基于机器学习的高级 AI 服务(如文档智能)额外提取结构、关系、键值、实体和其他以文档为中心的见解。 文档智能包含文档优化版本的“读取”作为其 OCR 引擎,同时委托给其他模型以获取更详细的见解。 如果你想要从扫描的文档和数字文档中提取文本,请使用文档智能读取 OCR

OCR 引擎

Microsoft 的 Read OCR 引擎由多种支持全球语言的基于机器学习的高级模型组成。 它能够提取印刷和手写文本,包括混合语言和书写风格的文本。 “读取”作为云服务和本地容器提供,以实现部署灵活性。 在最新预览版中,它还作为同步 API 提供,适用于单一非文档仅图像方案,并提供增强的性能来更轻松地实现 OCR 辅助用户体验。

OCR 支持的语言

目前在 Azure AI 视觉中提供的两个“读取”版本都支持多种语言的印刷和手写文本。 印刷文本的 OCR 包括对英语、法语、德语、意大利语、葡萄牙语、西班牙语、中文、日语、韩语、俄语、阿拉伯语、印地语和其他使用拉丁语、西里尔语、阿拉伯语和梵文脚本的国际语言的支持。 手写文本 OCR 包括对英语、简体中文、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语的支持。

请参阅 OCR 支持的语言完整列表。

OCR 常用功能

读取 OCR 模型可在具有通用基线功能的 Azure AI 视觉和文档智能中使用,同时针对相关的方案进行优化。 以下列表汇总了常用功能:

  • 提取受支持语言的印刷和手写文本
  • 具有位置和置信度分数的页面、文本行和字词
  • 支持混合语言、混合模式(打印和手写)
  • 本地部署可用的 Distroless Docker 容器

使用 OCR 云 API

大多数客户都青睐云 API,因为它们易于集成,而且其现成可用的性质能够提高工作效率。 Azure 和 Azure AI 视觉服务将处理缩放、性能、数据安全与合规需求,你只需将工作重心放在满足客户需求上。

OCR 数据隐私和安全

与所有 Azure AI 服务一样,使用 Azure AI 视觉服务的开发人员应该了解 Microsoft 针对客户数据的政策。 请参阅 Microsoft 信任中心上的“Azure AI 服务”页面来了解详细信息。

后续步骤