从 PDF 中提取数据

适用于:Azure 数据工厂 Azure Synapse Analytics

本文介绍一个解决方案模板,该模板可用于通过 Azure 数据工厂和 Azure AI 文档智能从 PDF 源中提取数据。

关于此解决方案模板

该模板使用两个 Azure AI 文档智能调用来分析 PDF URL 源中的数据。 然后,它将输出转换为数据流中的可读表,并将数据输出到存储接收器。

该模板包含两个活动:

  • 用于调用 Azure AI 文档智能的预构建读取模型 API 的 Web 活动
  • 数据流:用于转换从 PDF 提取的数据

此模板定义了 5 个参数:

  • CognitiveServicesURL 是 Azure AI 文档智能 URL (https://{endpoint}/formrecognizer/v2.1/layout/analyze)。 将 {endpoint} 替换为你通过 Azure AI 文档智能订阅获取的终结点。 需将默认值替换为你自己的 URL。
  • CognitiveServicesKey 是 Azure AI 文档智能订阅密钥。 需将默认值替换为你自己的订阅密钥。
  • PDF_SourceURL 是 PDF 源的 URL。 需将默认值替换为你自己的 URL。
  • OutputContainer 是你希望将文件置于目标存储中时所采用的容器路径的名称。 需要将默认值替换为你自己的容器。
  • OutputFolder 是你希望将文件置于目标存储中时所采用的文件夹路径的名称。 需将默认值替换为自己的文件夹路径。

先决条件

  • Azure AI 文档智能资源终结点 URL 和密钥(在此处创建新资源)

如何使用此解决方案模板

  1. 转到模板“从 PDF 中提取数据”。 新建与 Azure AI 文档智能资源的连接,或选择现有连接。

    有关如何在模板设置中创建新连接或从下拉菜单中选择现有连接,以连接到 Azure AI 文档智能连接的屏幕截图。

    连接到 Azure AI 文档智能时,确保添加“链接服务参数”。 需要将此 url 参数用作动态基本 URL。 还需要在 Auth 标头下添加新的 Auth 标头。 名称应为 Ocp-Apim-Subscription-Key,值应该是在 Azure 资源中找到的密钥值。

    引用要添加的链接服务参数和身份验证标头的链接服务基本 URL 的屏幕截图。

  2. 创建到目标存储的新连接,或选择现有连接。 所选的目标是存储所提取的 PDF 数据的位置。

    有关如何在模板设置中创建新连接或从下拉菜单中选择现有连接,以连接到接收器的屏幕截图。

  3. 选择“使用此模板” 。

    屏幕截图:通过单击屏幕底部的“使用此模板”按钮来完成模板设置。

  4. 你应该会看到以下管道。

    管道视图的屏幕截图,其中显示链接到数据流活动的 Web 活动。

  5. 导航到“数据流”活动,找到“设置”。 在这里,需要为链接服务的 url 参数添加动态内容。 单击“添加动态内容”后,管道表达式生成器将打开。 选择“认知服务 - POST 活动输出”。 然后,键入或复制粘贴“.output.ADFWebActivityResponseHeaders['Operation-Location']”。应该会在表达式生成器中看到以下表达式。

    数据流活动设置的管道视图的屏幕截图。

    显示数据流动态内容的管道表达式生成器的屏幕截图。

  6. 单击“确定”,返回到管道。

  7. 接下来,选择“调试”。

    屏幕截图:使用屏幕顶部横幅上的“调试”按钮来调试管道。

  8. 输入参数值,查看结果,然后进行发布。

在右侧面板上输入管道调试参数的位置的屏幕截图。

显示触发管道时返回的结果的屏幕截图。