文档智能附加功能

此内容适用于:选中标记v3.1 (GA)

注意

名片模型外,所有模型都提供加载项功能。

文档智能支持更复杂的模块化分析功能。 使用加载项功能扩展结果,以包含从文档中提取的更多功能。 某些加载项功能会产生额外费用。 根据文档提取方案,可以启用和禁用这些可选功能。 若要启用某个功能,请将关联的功能名称添加到 features 查询字符串属性。 可以通过提供逗号分隔的功能列表,在请求中启用多个附加功能。 以下附加功能适用于 2023-07-31 (GA) 及更高版本。

加载项功能 附加功能/免费 2024-02-29-preview 2023-07-31(正式发布) 2022-08-31(正式发布) v2.1 (GA)
字体属性提取 附加功能 不适用 不适用
公式提取 附加功能 不适用 不适用
高分辨率提取 附加功能 不适用 不适用
条形码提取 免费 不适用 不适用
语言检测 免费 不适用 不适用
键值对 免费 不适用 不适用 不适用
查询字段 附加功能* 不适用 不适用 不适用

附加功能* - 查询字段的定价与其他附加功能不同。 有关详细信息,请参阅定价

高分辨率提取

从大型文档(如工程图纸)中识别小文本是一项挑战。 文本通常与其他图形元素混合在一起,并且具有不同的字体、大小和方向。 此外,文本可以分解为单独的部分或与其他符号连接。 文档智能现在支持使用 ocr.highResolution 功能从这些类型的文档中提取内容。 通过启用此附加功能,可以提高从 A1/A2/A3 文档中提取内容的质量。

REST API

{your-resource-endpoint}.cognitiveservices.azure.cn/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution

公式提取

ocr.formula 功能将 formulas 集合中所有已识别的公式(如数学公式)提取为 content 下的顶级对象。 在 content 内,检测到的公式表示为 :formula:。 此集合中的每个条目表示一个公式,该公式类型为 inlinedisplay,其 LaTeX 表示形式 value 及其 polygon 坐标。 最初,公式显示在每页的末尾。

注意

confidence 分数是硬编码的。

"content": ":formula:",
  "pages": [
    {
      "pageNumber": 1,
      "formulas": [
        {
          "kind": "inline",
          "value": "\\frac { \\partial a } { \\partial b }",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        },
        {
          "kind": "display",
          "value": "y = a \\times b + a \\times c",
          "polygon": [...],
          "span": {...},
          "confidence": 0.99
        }
      ]
    }
  ]

REST API

{your-resource-endpoint}.cognitiveservices.azure.cn/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas

字体属性提取

ocr.font 功能将 styles 集合中提取的文本的所有字体属性提取为 content 下的顶级对象。 每个样式对象都会指定一个字体属性、适用的文本范围及其相应的置信度分数。 现有样式属性扩展了更多字体属性,例如文本字体的 similarFontFamily、斜体和正常等样式的 fontStyle、粗体或正常样式的 fontWeight、文本颜色的 color 和文本边界框颜色的 backgroundColor

"content": "Foo bar",
"styles": [
    {
      "similarFontFamily": "Arial, sans-serif",
      "spans": [ { "offset": 0, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "similarFontFamily": "Times New Roman, serif",
      "spans": [ { "offset": 4, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "fontStyle": "italic",
      "spans": [ { "offset": 1, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "fontWeight": "bold",
      "spans": [ { "offset": 2, "length": 3 } ],
      "confidence": 0.98
    },
    {
      "color": "#FF0000",
      "spans": [ { "offset": 4, "length": 2 } ],
      "confidence": 0.98
    },
    {
      "backgroundColor": "#00FF00",
      "spans": [ { "offset": 5, "length": 2 } ],
      "confidence": 0.98
    }
  ]

REST API

  {your-resource-endpoint}.cognitiveservices.azure.cn/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont

条形码属性提取

ocr.barcode 功能将 barcodes 集合中所有已识别的条形码提取为 content 下的顶级对象。 在 content 内,检测到的条形码表示为 :barcode:。 此集合中的每个条目都表示一个条形码,包括条形码类型(表示为 kind)和嵌入的条形码内容(表示为 value)及其 polygon 坐标。 最初,条形码显示在每页的末尾。 confidence 硬编码为 1。

支持的条形码类型

条形码类型 示例
QR Code QR 码的屏幕截图。
Code 39 代码 39 的屏幕截图。
Code 93 代码 93 的屏幕截图。
Code 128 代码 128 的屏幕截图。
UPC (UPC-A & UPC-E) UPC 的屏幕截图。
PDF417 PDF417 的屏幕截图。
EAN-8 欧洲商品编号条形码 ean-8 的屏幕截图。
EAN-13 欧洲商品编号条形码 ean-13 的屏幕截图。
Codabar 代码栏的屏幕截图。
Databar 数据栏的屏幕截图。
展开的 Databar 展开的数据栏的屏幕截图。
ITF 交错式 25 码 (ITF) 的屏幕截图。
Data Matrix 数据矩阵的屏幕截图。

REST API

{your-resource-endpoint}.cognitiveservices.azure.cn/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes

语言检测

languages 功能添加到 analyzeResult 请求可以预测每个文本行所检测到的主要语言,以及 analyzeResultlanguages 集合中的 confidence

"languages": [
    {
        "spans": [
            {
                "offset": 0,
                "length": 131
            }
        ],
        "locale": "en",
        "confidence": 0.7
    },
]

REST API

{your-resource-endpoint}.cognitiveservices.azure.cn/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages

后续步骤

了解详细信息:读取模型布局模型

SDK 示例:python