此内容适用于: v3.1 (GA) v3.0 (GA) v2.1 (GA)
Azure AI 文档智能是一项基于云的服务,它使用机器学习模型从文档中提取键值对、文本和表。 返回的结果是结构化的 JSON 输出。 文档智能的用例包括自动数据处理、增强的数据驱动策略和丰富的文档搜索功能。
概述
Azure AI 文档智能和 Azure AI 表单识别器是否是同一服务?
是。
Azure AI 文档智能和 Azure AI 表单识别器是相同的服务。 自 2023 年 7 月,该服务已从 Azure AI 表单识别器重命名为 Azure AI 文档智能。 该服务提供的功能和功能与重命名前的功能相同。
定价更改:定价没有更改。 在 Azure 的计费、成本分析、价目表和价格 API 中继续延用“认知服务”和“应用 AI 服务”的名称。
重大更改:API 或客户端库 (SDK) 没有重大更改。 REST API 和 SDK 版本 2024-02-29-preview、2023-10-31-preview 及更高版本更名为
document intelligence
。
文档智能是否与其他 Microsoft 服务相集成?
AI 功能
是否可以结合使用文档智能与生成式 AI 来处理文档?
是。
文档智能现在包括自定义生成,它是一种使用生成 AI 和大型语言模型 (LLM) 从文档中提取字段的新型提取模型。 过去,你使用了 RAG(检索扩充生成)模式来提取字段。 新模型通过单个 API 调用提供高质量的结果。 还可以使用文档生成式 AI 解决方案与文档聊天 (RAG)、从这些文档生成引人入胜的内容,并访问数据上的 Azure OpenAI 服务模型。
- 通过结合 Azure AI 文档智能和 Azure OpenAI,可以构建企业应用程序,以使用自然语言与文档无缝交互。 可以轻松找到答案,获得有价值的见解,并从现有文档中生成新的、引人入胜的内容。
文档智能是否能帮助文档内的语义分块进行检索扩充生成?
是。
文档智能可以提供构建基块来启用语义分块。 语义分块是检索扩充生成 (RAG) 的关键步骤,可确保上下文密集区块和相关性改进。
文档智能提供布局模型,用于将文档可视化分解为行、段落、节、页眉和页脚。
然后,可以选择以 Markdown 格式检索结果,以进一步对节或段落边界上的文档进行分块。
文档智能工作室
是否需要特定权限才能访问 Document Intelligence Studio?
是。
需要至少带有读取者角色的有效 Azure 帐户和订阅才能访问文档智能工作室。
对于文档分析和预生成模型,适用于用户方案的角色要求如下:
基本
- 认知服务用户:需要为文档智能或Azure 认知服务多服务资源提供此角色才能使用文档智能工作室。
高级
- 参与者:需要此角色来创建资源组或文档智能资源。
对于自定义模型项目,适用于用户方案的角色要求如下:
基本
高级
存储帐户参与者:需要此角色来访问存储帐户,以设置跨域资源共享 (CORS) 设置。 如果重复使用同一存储帐户,这将是一次性的工作。
参与者:需要此角色来创建资源组和资源。 即使拥有“参与者”或“存储帐户参与者”角色,如果本地(基于密钥的)身份验证已禁用,也无权使用文档智能资源或存储帐户。 你仍然需要基本角色(“认知服务用户”和“存储数据 Blob 参与者”)才能使用文档智能工作室上的功能。
有关详细信息,请参阅 Microsoft Entra 内置角色以及文档智能工作室快速入门中有关 Azure 角色分配的部分。
是否可以在 Document Intelligence Studio 中处理超过两页的文档?
是(对于付费资源)。
否(对于免费资源)。
对于免费层 (F0) 资源,无论使用的是 Document Intelligence Studio、REST API 还是客户端库,都只分析前两页。
若要分析文档中的所有页面,请更改为付费 (S0) 资源。 在 Document Intelligence Studio 中,依次选择“设置”(齿轮)按钮和“资源”选项卡,然后勾选要用于分析文档的价格段。
是否可以在 Document Intelligence Studio 中更改目录或订阅?
是。
若要更改文档智能工作室中的目录,请选择“设置”(齿轮)按钮。 在“目录”下,从列表中选择目录,然后选择“切换目录”。 切换目录后再次登录。
若要更改订阅或资源,请转到“设置”下的“资源”选项卡。
是否可以将 Document Intelligence Studio 与配置了防火墙或虚拟网络的资源配合使用?
是。
如果已为文档智能资源配置防火墙或虚拟网络,则需要将专用 IP 地址 20.3.165.95 添加到文档智能资源的防火墙允许列表中。 如果禁用公用网络访问,则自定义项目中的某些功能(例如自动标记、项目管理和人在回路)将不起作用。
在文档智能工作室中通过“从 URL 提取”功能上传文件时,是否可以使用来自我的 Blob 存储的 URL?
是。
如果 Azure Blob 存储 URL 包含 SAS 令牌并且可以从公用网络访问。 对于已禁用密钥访问或位于防火墙/VNet 后面的存储帐户,无法使用“提取”功能。
可以重用或自定义文档智能工作室的标签体验,并将其构建到我自己的应用程序中吗?
是。
文档智能工作室的标签体验在 Toolkit 存储库中是开源的。
文档智能主权云区域是否有单独的 URL 终结点?
是。
针对主权云区域,Document Intelligence Studio 具有单独的 URL 端点:
Azure 美国政府云 (Azure Fairfax) 的 URL:美国政府 Document Intelligence Studio。
由世纪互联运营的 Microsoft Azure(Azure 中国)的 URL:中国区 Document Intelligence Studio。
应用开发
是否可以使用最新的开发选项使用 Azure AI 文档智能开发应用程序?
是。
文档智能在以下平台中提供最新的开发选项:
[REST API](https://learn.microsoft.com/rest/api/aiservices/document-models/analyze-document?view=rest-aiservices-2023-07-31 &preserve-view=true&tabs=HTTP)
是否可以将应用程序迁移到最新版本的文档智能?
是。
下表提供了有关迁移到文档智能最新版本的详细说明的链接:
语言/API | 迁移指南 |
---|---|
REST API | v3 |
C#/.NET | 4.0.0 |
Java | 4.0.0 |
Javascript | 4.0.0 |
Python | 3.2.0 |
是否可以指定要在文档中分析的页面范围?
是。
使用 pages
参数(REST API 的 v2.1、v3.0 及更高版本支持),为多页 PDF 和 TIFF 文档指定页面。 接受的输入包括以下范围:
- 单个页面。 例如,如果指定
1, 2
,将处理第 1 页和第 2 页。 - 有限范围。 例如,如果指定
2-5
,将处理第 2 页至第 5 页。 - 开放式范围。 例如,如果指定
5-
,将处理从第 5 页起的所有页面。 如果指定-10
,将处理第 1 页至第 10 页。
可以将这些参数混合在一起,范围可以重叠。 例如,如果指定 -5, 1, 3, 5-10
,将处理第 1 页至第 10 页。
如果服务可以处理至少一页文档,则该服务将接受此请求。 例如,在五页文档中使用 5-100
是处理第 5 页的有效输入。
如果未提供页面范围,则会处理整个文档。
是否建议对项目使用 Document Intelligence Studio 而不是 FOTT 示例标记工具?
是。
对于大多数情况,建议使用文档智能工作室,因为它可让你更快地配置文档智能资源和存储服务。
对于以下情况,请仅考虑使用 FOTT(表单 OCR 测试工具):
数据必须位于一台计算机中。 使用 FOTT 示例标记工具和文档文档智能容器。
你的项目高度依赖于文档智能 v2.1,并且你想要继续使用 v2.1 API。
是否有缓解限制的最佳实践?
是。
文档智能使用自动缩放来按需提供所需的计算资源,同时降低客户成本。 为了缓解在自动缩放期间受到的限制,我们建议采用以下方法:
在应用程序中实现重试逻辑
如果你发现
POST
请求数受到限制,请考虑在请求之间添加延迟。逐步增大工作负载。 避免急剧性的变化。
创建支持请求,以增加每秒事务数 (TPS) 限制。
详细了解文档智能服务配额和限制。
自定义模式
是否可以提高自定义模型的预估准确度分数?
是。
文档视觉结构的差异会影响模型的准确性。 以下是一些提示:
在训练数据集中包含文档的所有变体。 差异包括不同的格式,例如,数字格式与扫描的 PDF 格式。
将视觉上不同的文档类型分隔开,并训练不同的模型。
确保没有多余的标签。
对于签名和区域标记,请不要包含周围的文本。
有关详细信息,请参阅准确度与置信度评分。
是否可以重新训练自定义模型?
否。
文档智能没有显式的重新训练操作。 每个训练操作会生成一个新模型。
如果你发现自己的模型需要重新训练,可以将更多样本添加到训练数据集,并训练一个新模型。
还可以创建一个新模型,以便使用原始模型进行组合,如下所示:
为新模板创建一个数据集。
标记并训练新模型。
验证新模型在处理特定文档类型时是否表现良好。
将新模型连同现有模型一起组合到单个终结点中。 然后,文档智能可为要分析的每个文档确定最佳模型。
有关详细信息,请参阅组合模型。
是否可以将训练好的模型从一个环境(如测试版)移动到另一个环境(如生产版)?
是。
可以使用复制 API 将自定义模型从一个文档智能帐户复制到任何受支持的地理区域中的其他帐户。 有关详细说明,请参阅灾难恢复。
复制操作仅限于在训练模型的特定云环境中复制模型。 例如,不支持将模型从公有云复制到 Azure 政府云。
训练自定义模型时是否会向我收费?
是。
所有自定义生成模型和自定义模板模型都可免费进行训练。 但是,需要对训练文档运行布局模型来为所有模型创建训练数据集。 客户会负责此成本。
存储帐户
用于存储帐户身份验证的共享访问签名 (SAS) 令牌是否有到期时间?
是。
创建共享访问签名 (SAS) 时,默认持续时间为 48 小时。 48 小时后,需要创建新令牌。
对于要将存储帐户用于文档智能的时间,请考虑设置较长的持续时间。
如果存储帐户受虚拟网络或防火墙保护,文档智能是否可以访问我存储帐户中的数据?
不,不能直接访问。
如果存储帐户受虚拟网络或防火墙保护,则文档智能无法访问存储帐户。
但是,专用 Azure 存储帐户访问和身份验证支持 Azure 资源托管标识。 使用托管标识时,文档智能服务可使用分配的凭据来访问你的存储帐户。
如果你打算使用 FOTT 分析专用存储帐户数据,则必须将该工具部署在虚拟网络或防火墙后面。
了解如何为文档智能资源创建和使用托管标识。
容器
是否可以将本地存储用于文档智能示例标记工具 (FOTT) 容器?
是。
FOTT 有一个使用本地存储的版本。 需要在 Windows 计算机上安装此版本。 可从此位置进行安装。
如果标签文件位于子目录中,请在项目页上将“标签文件夹 URI”指定为 /shared 或 /shared/sub-dir。 所有其他文档智能示例标记工具的行为与托管服务相同。
是否有纵向扩展的最佳做法?
是。
对于异步调用,可以使用共享存储运行多个容器。 处理 POST
分析调用的容器会将输出存到存储中。 然后,任何其他容器都可以从存储中提取结果并为 GET
调用提供服务。 因此,请求 ID 不会绑定到容器。
对于同步调用,可以运行多个容器,但只有一个容器为请求提供服务。 由于它是阻止调用,因此池中的任何容器都可以为请求提供服务并发送响应。 在这里,一次只有一个容器绑定到某个请求,无需轮询。
是否可以使用共享存储设置容器?
是。
容器在启动时使用 Mounts: Shared
属性指定共享存储以存储处理文件。 若要了解此属性的用法,请参阅容器文档。
安全性和隐私
文档智能是否会存储我的数据?
是的,可以暂时访问。
对于所有功能,文档智能都会将数据和结果暂时存储在请求所在区域的 Azure 存储中。 数据将在提交分析请求后的 24 小时内删除。
对于经过训练的自定义模型,分析和标记后的临时输出会存储在存储训练数据的同一 Azure 存储位置中。 已训练的自定义模型存储在同一区域的 Azure 存储中,并在逻辑上与其 Azure 订阅和 API 凭据相隔离。
更多帮助和支持
是否有其他资源可用于提供 Azure AI 文档智能问题的解决方案?
是。
Microsoft Q&A 是 Microsoft 专设的技术问答版块。 你可以筛选特定于文档智能的查询。
如果在标记文档时服务无法识别特定文本或识别错误,我是否可以提供直接反馈?
是。
我们会不断更新和改进文档智能模型。 可以向文档智能团队发送电子邮件。 如果可能,请共享一个示例文档并突出显示其中的问题。