基于文档的 PII是 Azure AI 语言 个人身份信息(PII)检测中的预览功能。 它可帮助你直接在原始文档文件中检测和修订敏感数据,包括 Microsoft Word 和 PDF 文件,而无需生成自己的文本提取和重建流程。
此功能使用异步 API 工作流并返回保留文档结构和格式的编辑输出。 文档保真度对于合规性评审、共享、分析和下游 AI 工作流非常重要时,可以使用它。
重要
基于文档的个人身份信息(PII)目前为预览版,在正式发布之前可能会更改。
概览
基于文档的 PII 提供以下功能:
- 原生文件改正功能适用于
.pdf、.docx和.txt文件。 - 输出文档中的保留布局,包括字体、间距和颜色。
- 用于提取、检测和修订的单个异步 API 工作流。
- 企业就绪输出:经过编辑的文档和结构化 JSON 结果。
视频演示
在此视频中,我们将介绍 PII 检测服务,并演示如何直接从本机文档检测和编辑敏感数据,同时保留文件结构和格式。 我们还介绍了常见用例、支持的格式以及如何在 Azure AI 语言 中开始使用基于文档的 PII:
此视频提供了隐藏式字幕。
为何使用基于文档的 PII?
许多自定义管道需要多个步骤来提取文本、运行检测和重新构造文档输出。 基于文档的 PII 通过针对文档处理系统设计的单个异步 API 模式和输出项目简化了此流。
当你需要时,基于文档的 PII 特别有用:
- 请对
.pdf、.docx和.txt文件中的 PII 进行编辑。 - 保留下游业务流程的文档布局。
- 生成用于审核和集成的结构化 JSON 输出。
基于文档的 PII 使用与文本 PII 相同的预定义 PII 类别,包括地址、电话号码和信用卡号等实体。
它返回的内容
作业成功后,你会收到:
- 目标存储容器中经过修订的文档。
- 包含检测到的实体、类别、置信度评分和处理元数据的 JSON 结果文件。
工作原理
基于文档的 PII 使用异步工作流:
- 使用源和目标存储位置提交作业。
- 使用操作位置来轮询作业状态。
- 从目标存储位置检索输出工件。
有关实现详细信息和请求示例,请参阅 原始文档中的检测和去除个人身份信息。
它与其他 PII 功能类型有何不同
所有 PII 功能类型都使用预定义实体类别,但它们针对不同的输入类型进行了优化:
- 基于文档的个人身份信息 (PII) 已针对原生文件编辑工作流和文件输出的保真度进行了优化。
- 文本 PII 针对基于字符串的直接输入和应用集成进行优化。
- 对话 PII 针对基于轮次和话语记录的聊天输入进行了优化。
常见用例
基于文档的 PII 专为企业和受监管行业工作流设计,团队需要在存储、分析、外部共享或下游 AI 处理之前对文件进行匿名处理。
典型示例包括:
- 法庭记录和法律文档。
- 政府表单和内部记录。
- 财务文档。
- 内部企业文档工作流。
支持的格式和限制
基于文档的 PII 直接接受本机文件格式,而无需文本预处理。 下表列出了支持的格式:
| 文件类型 | 文件扩展名 | Description |
|---|---|---|
| 文本 | .txt |
未格式化的文本文档。 |
| Adobe PDF | .pdf |
可移植文档文件格式的文档。 |
| Microsoft Word | .docx |
Microsoft Word 文档文件。 |
以下输入约束适用:
| Attribute | Limit |
|---|---|
| 每个请求的文档总数 | <= 20 |
| 每个请求的内容总大小 | <= 10 MB |
不支持以下内容类型:
| 类型 | 限制 |
|---|---|
| 完整扫描的 PDF | 不支持。 |
| 带有嵌入文本的图像 | 不支持带有嵌入文本的数字图像。 |
| 扫描文档中的表格 | 不支持。 |
有关当前语言覆盖率和服务限制的详细信息,请参阅 语言支持 和 配额 和限制。
Pricing
基于文档的 PII 编辑使用 Azure AI 语言 定价。 有关最新的定价详情,请参阅Azure AI 语言 定价。
后续步骤
使用以下参考资料继续进行实施: