适用于:Azure 数据工厂
Azure Synapse Analytics
本文介绍一个解决方案模板,该模板可用于通过 Azure 数据工厂和 Azure AI 文档智能从 PDF 源中提取数据。
该模板使用两个 Azure AI 文档智能调用来分析 PDF URL 源中的数据。 然后,它将输出转换为数据流中的可读表,并将数据输出到存储接收器。
该模板包含两个活动:
- 用于调用 Azure AI 文档智能的预构建读取模型 API 的 Web 活动
- 数据流:用于转换从 PDF 提取的数据
此模板定义了 5 个参数:
- CognitiveServicesURL 是 Azure AI 文档智能 URL (https://{endpoint}/formrecognizer/v2.1/layout/analyze)。 将 {endpoint} 替换为你通过 Azure AI 文档智能订阅获取的终结点。 需将默认值替换为你自己的 URL。
- CognitiveServicesKey 是 Azure AI 文档智能订阅密钥。 需将默认值替换为你自己的订阅密钥。
- PDF_SourceURL 是 PDF 源的 URL。 需将默认值替换为你自己的 URL。
- OutputContainer 是你希望将文件置于目标存储中时所采用的容器路径的名称。 需要将默认值替换为你自己的容器。
- OutputFolder 是你希望将文件置于目标存储中时所采用的文件夹路径的名称。 需将默认值替换为自己的文件夹路径。
- Azure AI 文档智能资源终结点 URL 和密钥(在此处创建新资源)
转到模板“从 PDF 中提取数据”。 新建与 Azure AI 文档智能资源的连接,或选择现有连接。
连接到 Azure AI 文档智能时,确保添加“链接服务参数”。 需要将此 url 参数用作动态基本 URL。 还需要在 Auth 标头下添加新的 Auth 标头。 名称应为 Ocp-Apim-Subscription-Key,值应该是在 Azure 资源中找到的密钥值。
创建到目标存储的新连接,或选择现有连接。 所选的目标是存储所提取的 PDF 数据的位置。
选择“使用此模板” 。
你应该会看到以下管道。
导航到“数据流”活动,找到“设置”。 在这里,需要为链接服务的 url 参数添加动态内容。 单击“添加动态内容”后,管道表达式生成器将打开。 选择“认知服务 - POST 活动输出”。 然后,键入或复制粘贴“.output.ADFWebActivityResponseHeaders['Operation-Location']”。应该会在表达式生成器中看到以下表达式。
单击“确定”,返回到管道。
接下来,选择“调试”。
输入参数值,查看结果,然后进行发布。