从 PDF 中提取数据

适用于: Azure Data Factory Azure Synapse Analytics

本文介绍一个解决方案模板,可用于使用 Foundry Tools 中的Azure Data Factory和Azure文档智能从 PDF 源中提取数据。

关于此解决方案模板

此模板使用两个文档智能调用分析 PDF URL 源中的数据。 然后,它将输出转换为数据流中的可读表,并将数据输出到存储接收器。

该模板包含两个活动:

  • 用于调用文档智能的预生成读取模型 API 的 Web 活动
  • 数据流:用于转换从 PDF 提取的数据

此模板定义了 5 个参数:

  • CognitiveServicesURL 是文档智能 URL(“https://{endpoint}/formrecognizer/v2.1/layout/analyze”)。 将 {endpoint} 替换为通过文档智能订阅获取的终结点。 需将默认值替换为你自己的 URL。
  • CognitiveServicesKey 是文档智能订阅密钥。 需将默认值替换为你自己的订阅密钥。
  • PDF_SourceURL 是 PDF 源的 URL。 需将默认值替换为你自己的 URL。
  • OutputContainer 是你希望将文件置于目标存储中时所采用的容器路径的名称。 需要将默认值替换为你自己的容器。
  • OutputFolder 是你希望将文件置于目标存储中时所采用的文件夹路径的名称。 需将默认值替换为自己的文件夹路径。

先决条件

  • 文档智能资源终结点 URL 和密钥(创建新的资源 here

如何使用此解决方案模板

  1. 转到模板“从 PDF 中提取数据”。 创建与您的文档智能资源的新连接,或选择一个现有连接。

    展示如何在模板设置中创建新连接或从下拉菜单中选择现有连接以连接到文档智能连接的屏幕截图。

    在与文档智能的连接中,请确保添加 链接服务参数。 需要将此 url 参数用作动态基本 URL。 还需要在 Auth 标头下添加新的 Auth 标头。 名称应为 Ocp-Apim-Subscription-Key,该值应为从Azure资源中找到的键值。

    引用要添加的链接服务参数和身份验证标头的链接服务基本 URL 的屏幕截图。

  2. 创建到目标存储的新连接,或选择现有连接。 所选的目标是存储所提取的 PDF 数据的位置。

    有关如何在模板设置中创建新连接或从下拉菜单中选择现有连接,以连接到接收器的屏幕截图。

  3. 选择“使用此模板” 。

    屏幕截图:通过单击屏幕底部的“使用此模板”按钮来完成模板设置。

  4. 你应该会看到以下管道。

    管道视图的屏幕截图,显示了链接到数据流活动的 Web 活动。

  5. 导航到“数据流”活动,找到“设置”。 在这里,需要为链接服务的 url 参数添加动态内容。 单击“添加动态内容”后,管道表达式生成器将打开。 选择认知服务 - POST 活动输出。 然后,键入或复制粘贴“.output.ADFWebActivityResponseHeaders['Operation-Location']”。应该会在表达式生成器中看到以下表达式。

    数据流活动设置的管道视图的屏幕截图。

    显示数据流动态内容的管道表达式生成器的屏幕截图。

  6. 单击“确定”,返回到管道。

  7. 接下来,选择“调试”。

    屏幕截图:使用屏幕顶部横幅上的“调试”按钮来调试管道。

  8. 输入参数值,查看结果,然后进行发布。

在右侧面板上输入管道调试参数的位置的屏幕截图。

显示触发管道时返回的结果的屏幕截图。