Compartir a través de

Azure 视觉中的新增功能

了解 Azure 视觉中的新增功能。 查看此页以实时跟进新功能、增强功能、修补程序和文档更新。

2022 年 9 月

Azure Vision 3.0/3.1 文本识别功能预览版的停止服务通知

Azure Vision 3.0 和 3.1 读取 API 的预览版计划于 2023 年 1 月 31 日停用。 建议客户参考操作指南快速入门,以开始使用正式发布版 (GA) 的读取 API。 最新的 GA 版本具有以下优势:

  • 2022 年最新普遍可用的 OCR 模型
  • OCR 语言覆盖范围显著增大,包括支持手写文本
  • 改进了 OCR 质量

2022 年 6 月

Azure Vision 3.2-preview 即将停用

API 3.2 预览版已计划于 2022 年 12 月停用。 建议客户改用 API 一般可用版本 (GA)。 从 3.2 预览版迁移时请注意以下更改:

  1. 分析图像读取 API 调用现在采用可选的 model-version 参数,该参数可用于指定要使用的 AI 模型。 默认情况下,它们使用最新模型。
  2. 分析图像读取 API 调用还会在成功的 API 响应中返回 model-version 字段。 此字段报告使用了哪个模型。
  3. 图像分析 API 现在使用不同的错误报告格式。 请参阅 API 参考文档详细了解如何调整任何错误处理代码。

2022 年 5 月

OCR(读取)API 模型已正式发布 (GA)

Azure 视觉的 OCR (读取) API 最新模型,支持 164 种语言 现已正式发布为云服务和容器。

  • OCR 支持的打印文本扩展到 164 种新语言(包括俄语、阿拉伯语、印地语以及使用西里尔文字母、阿拉伯字母和梵文字母的其他语言)。
  • OCR 支持的手写文本扩展到 9 种语言,即英语、简体中文、法语、德语、意大利语、日语、韩语、葡萄牙语和西班牙语。
  • 增强了对单个字符、手写日期、数量、名称、通常在收据和发票中找到的其他实体的支持。
  • 改进了对数字 PDF 文档的处理。
  • 输入文件大小限制提高 10 倍至 500 MB。
  • 性能和延迟方面的改进。

请参阅 OCR 操作指南,了解如何使用 GA 模型。

2022 年 2 月

OCR(读取)API 公共预览版支持 164 种语言

Azure 视觉的 OCR (读取) API 在最新预览版中将 支持的语言 扩展到 164 种:

  • OCR 支持的打印文本扩展到 42 种新语言(包括阿拉伯语、印度语以及使用阿拉伯字母和梵文字母的其他语言)。
  • 除了英语、简体中文、法语、德语、意大利语、葡萄牙语和西班牙语外,OCR 支持的手写文本还扩展到日语和韩语。
  • 增强功能包括更好支持提取手写日期、数量、名称和单个字符框。
  • 常规性能和 AI 质量改进

请参阅 OCR 操作指南,了解如何使用新的预览功能。

2021 年 9 月

OCR(读取)API 公共预览版支持 122 种语言

Azure 视觉的 OCR(读取)API 在最新预览版中将 支持的语言 增加至 122 种:

  • OCR 支持扩展到 49 种新语言,包括俄语、保加利亚语、其他西里尔文字以及更多拉丁文字的印刷文字。
  • OCR 支持手写文本识别,适用于包括英语、简体中文、法语、德语、意大利语、葡萄牙语和西班牙语在内的6种新增语言。
  • 增强功能,用于处理标识文档中的数字 PDF 和计算机可读区域 (MRZ) 文本。
  • 常规性能和 AI 质量改进

请参阅 OCR 操作指南,了解如何使用新的预览功能。

2021 年 8 月

图像标记语言扩展

图像标记器的最新版本 (v3.2) 现支持 50 种语言的标记。 有关详细信息,请参阅语言支持页。

2021 年 7 月

用于 Detection_03 的新头部姿态和特征点优化

  • Detection_03 模型现已更新,可支持面部特征点。
  • Detection_03 中的特征点功能更加精确,尤其是在对视线跟踪至关重要的眼球特征点方面。

2021 年 5 月

空间分析容器更新

已发布提供新功能集的空间分析容器新版本。 借助此 Docker 容器,可分析实时流视频,了解人们与他们在物理环境中的移动之间的空间关系。

  • 现可配置空间分析操作来检测人面朝的方向。

    • 可通过配置 personcrossingline 参数,为 personcrossingpolygonenable_orientation 操作启用方向分类器。 默认情况下,此选项设置为 off。
  • 空间分析操作现在还提供可检测人步行/奔跑速度的配置

    • 可以通过打开 personcrossingline 分类器(默认情况下为关闭状态)来检测 personcrossingpolygonenable_speed 操作的速度。 输出结果反映在 speedavgSpeedminSpeed 输出中。

2021 年 4 月

Azure Vision v3.2 正式版

Azure 视觉 API v3.2 现已全面可用,并包括以下更新内容:

  • 改善了图像标记模型:根据图像中显示的对象、操作和内容分析视觉对象内容并生成相关标记。 此模型通过标记图像 API 提供。 有关详细信息,请参阅图像分析操作指南概述
  • 更新的内容审查模型:检测是否存在成人内容并提供标志来筛选包含成人、猥亵和血腥视觉内容的图像。 可通过分析 API 获取此模型。 有关详细信息,请参阅图像分析操作指南概述
  • 用于 73 种语言的 OCR(读取),这些语言包括简体中文和繁体中文、日语、韩语和拉丁语言。

2021 年 3 月

Azure Vision 3.2 公共预览版更新

Azure 视觉 API v3.2 公共预览版已更新。 预览版包含所有 Azure 视觉功能以及更新的读取和分析 API。

2021 年 2 月

读取 API v3.2 公共预览版(带有对 73 种语言的 OCR 支持)

Azure 视觉读取 API v3.2 公共预览版(作为云服务和 Docker 容器提供)包括以下更新:

  • 用于 73 种语言的 OCR,这些语言包括简体中文和繁体中文、日语、韩语和拉丁语言。
  • 文本行输出的自然读取顺序(仅限拉丁语言)
  • 文本行的手写样式分类以及置信度分数(仅限拉丁语言)。
  • 对于多页文档,仅提取所选页面的文本。

若要了解详细信息,请参阅读取 API 操作指南

2021 年 1 月

空间分析容器更新

已发布提供新功能集的空间分析容器新版本。 借助此 Docker 容器,可分析实时流视频,了解人们与他们在物理环境中的移动之间的空间关系。

  • 现可配置空间分析操作来检测某人是否正戴着口罩等保护性面罩。
    • 可通过配置 personcount 参数,为 personcrossinglinepersoncrossingpolygonENABLE_FACE_MASK_CLASSIFIER 操作启用口罩分类器。
    • 系统将以元数据的形式返回 face_maskface_noMask 属性,其中有在视频流中检测到的每个人的置信度分数
  • personcrossingpolygon 操作已得到扩展,可计算一个人在某个区域中的停留时间。 可将该操作的区域配置中的 type 参数设置为 zonedwelltime,类型为 personZoneDwellTimeEvent 的新事件将包括 durationMs 字段,该字段填充了该人员在该区域中停留的毫秒数。
  • 重大变更:已将 personZoneEvent 事件重命名为 personZoneEnterExitEvent。 此事件由 personcrossingpolygon 操作触发。当某人进入或离开该区域时,该操作提供与所穿过区域编号侧相关的方向信息。
  • 可在所有操作中将视频 URL 作为“专用参数/已模糊处理”提供。 模糊处理现在是可选操作,仅当 KEYIV 作为环境变量提供时才有效。
  • 默认情况下,对所有操作启用了校准。 设置 do_calibration: false 可禁用它。
  • 已通过 enable_recalibration 参数增加对自动重新校准的支持(默认禁用),请参阅空间分析操作了解有关详细信息
  • 照相机校准参数设置为 DETECTOR_NODE_CONFIG。 有关详细信息,请参阅空间分析操作

2020 年 10 月

Azure 视觉 API v3.1 正式版

Azure 视觉 API 已在公共预览版中升级到 v3.1。

2020 年 9 月

空间分析容器预览版

空间分析容器现提供预览版。 使用 Azure 视觉的空间分析功能,可以分析实时流式处理视频,以了解人员与其在物理环境中移动之间的空间关系。 空间分析是一种可以在本地使用的 Docker 容器。

读取 API v3.1 公共预览版新增了日语的 OCR 功能

Azure 视觉读取 API v3.1 公共预览版添加了这些功能:

  • 用于日语的 OCR

  • 对于每个文本行,指示呈现效果是手写体还是打印样式,并随附置信度评分(仅限拉丁语言)。

  • 对于多页文档,仅提取所选页面或页面范围的文本。

  • 此预览版本的读取 API 支持英语、荷兰语、法语、德语、意大利语、日语、葡萄牙语、简体中文和西班牙语。

若要了解详细信息,请参阅读取 API 操作指南

2020 年 7 月

阅读 API v3.1 公共预览版,支持简体中文的 OCR

Azure 视觉读取 API v3.1 公共预览版添加了对简体中文的支持。

  • 此预览版本的读取 API 支持英语、荷兰语、法语、德语、意大利语、葡萄牙语、简体中文和西班牙语。

若要了解详细信息,请参阅读取 API 操作指南

2020 年 5 月

Azure 视觉 API v3.0 进入一般可用性,并更新了 Read API。

  • 支持英语、荷兰语、法语、德语、意大利语、葡萄牙语和西班牙语
  • 准确度改进
  • 每个已提取单词的置信度分数
  • 新输出格式

若要了解详细信息,请参阅 OCR 概述

2020 年 3 月

  • 现在,将对此服务的所有 HTTP 请求强制执行 TLS 1.2。 有关详细信息,请参阅 Azure AI 服务安全性

2020 年 1 月

读取 API 3.0 公共预览版

现在,可以使用 Read API 3.0 版从图像中提取印刷体文本或手写文本。 与早期版本相比,3.0 版提供了:

  • 准确度改进
  • 新输出格式
  • 每个已提取单词的置信度分数
  • 使用语言参数同时支持西班牙语和英语

按照提取文本快速入门指南,开始使用 3.0 API。