基于文档的个人身份信息 (PII) 概述

基于文档的 PII是 Azure AI 语言 个人身份信息(PII)检测中的预览功能。 它可帮助你直接在原始文档文件中检测和修订敏感数据,包括 Microsoft Word 和 PDF 文件,而无需生成自己的文本提取和重建流程。

此功能使用异步 API 工作流并返回保留文档结构和格式的编辑输出。 文档保真度对于合规性评审、共享、分析和下游 AI 工作流非常重要时,可以使用它。

重要

基于文档的个人身份信息(PII)目前为预览版,在正式发布之前可能会更改。

概览

基于文档的 PII 提供以下功能:

  • 原生文件改正功能适用于.pdf.docx.txt文件。
  • 输出文档中的保留布局,包括字体、间距和颜色。
  • 用于提取、检测和修订的单个异步 API 工作流。
  • 企业就绪输出:经过编辑的文档和结构化 JSON 结果。

视频演示

在此视频中,我们将介绍 PII 检测服务,并演示如何直接从本机文档检测和编辑敏感数据,同时保留文件结构和格式。 我们还介绍了常见用例、支持的格式以及如何在 Azure AI 语言 中开始使用基于文档的 PII:

此视频提供了隐藏式字幕。

为何使用基于文档的 PII?

许多自定义管道需要多个步骤来提取文本、运行检测和重新构造文档输出。 基于文档的 PII 通过针对文档处理系统设计的单个异步 API 模式和输出项目简化了此流。

当你需要时,基于文档的 PII 特别有用:

  • 请对 .pdf.docx.txt 文件中的 PII 进行编辑。
  • 保留下游业务流程的文档布局。
  • 生成用于审核和集成的结构化 JSON 输出。

基于文档的 PII 使用与文本 PII 相同的预定义 PII 类别,包括地址、电话号码和信用卡号等实体。

它返回的内容

作业成功后,你会收到:

  • 目标存储容器中经过修订的文档。
  • 包含检测到的实体、类别、置信度评分和处理元数据的 JSON 结果文件。

工作原理

基于文档的 PII 使用异步工作流:

  1. 使用源和目标存储位置提交作业。
  2. 使用操作位置来轮询作业状态。
  3. 从目标存储位置检索输出工件。

显示用于基于文档的 PII 检测的异步工作流的图表。

有关实现详细信息和请求示例,请参阅 原始文档中的检测和去除个人身份信息

它与其他 PII 功能类型有何不同

所有 PII 功能类型都使用预定义实体类别,但它们针对不同的输入类型进行了优化:

  • 基于文档的个人身份信息 (PII) 已针对原生文件编辑工作流和文件输出的保真度进行了优化。
  • 文本 PII 针对基于字符串的直接输入和应用集成进行优化。
  • 对话 PII 针对基于轮次和话语记录的聊天输入进行了优化。

常见用例

基于文档的 PII 专为企业和受监管行业工作流设计,团队需要在存储、分析、外部共享或下游 AI 处理之前对文件进行匿名处理。

典型示例包括:

  • 法庭记录和法律文档。
  • 政府表单和内部记录。
  • 财务文档。
  • 内部企业文档工作流。

支持的格式和限制

基于文档的 PII 直接接受本机文件格式,而无需文本预处理。 下表列出了支持的格式:

文件类型 文件扩展名 Description
文本 .txt 未格式化的文本文档。
Adobe PDF .pdf 可移植文档文件格式的文档。
Microsoft Word .docx Microsoft Word 文档文件。

以下输入约束适用:

Attribute Limit
每个请求的文档总数 <= 20
每个请求的内容总大小 <= 10 MB

不支持以下内容类型:

类型 限制
完整扫描的 PDF 不支持。
带有嵌入文本的图像 不支持带有嵌入文本的数字图像。
扫描文档中的表格 不支持。

有关当前语言覆盖率和服务限制的详细信息,请参阅 语言支持配额 和限制。

Pricing

基于文档的 PII 编辑使用 Azure AI 语言 定价。 有关最新的定价详情,请参阅Azure AI 语言 定价

后续步骤

使用以下参考资料继续进行实施: