个人身份信息(PII)检测是Azure语言的核心功能,可帮助你在文本、对话和原生文档中识别、分类和编辑敏感数据。 将输入文本提交到服务,并接收包含实体类别、置信度分数和基于 API 配置的修订结果的结构化输出。 可以使用此功能实现隐私控制、减少敏感数据暴露,并支持应用程序和数据处理工作流中的合规性要求。
按功能类型排序的 PII 文档
PII 功能按功能类型分组。 每个特征类型都映射到特定的输入格式和处理模型。
选择与数据形状和运行时要求匹配的功能类型。
文本个人可识别信息 (PII)
文本 PII 处理基于字符串的有效负载,并返回同步检测和修订结果。 当系统处理消息、提示、日志和其他文本字段的请求时间处理时,请使用此功能。
使用以下文档实现和优化文本 PII 工作负载:
对话中的个人身份信息 (PII)
对话 PII 处理多轮次交换和面向记录的负载,其中轮次边界和对话上下文会影响检测和掩码行为。 对分析聊天和脚本结构的异步工作负荷使用此功能。
使用以下文档来实施基于对话的 PII 作业处理:
基于文档的个人身份信息 (PII)
基于文档的 PII 处理原生文件并返回保留文档结构的编辑输出,同时生成机器可读元数据。 将此功能用于处理.pdf.docx和.txt输入的异步、基于存储的管道。
使用以下文档在原生文件管道中实现基于文档的个人身份信息(PII):
选择正确的 PII 功能
在开始实现之前,请使用下表选择正确的体验:
| 功能类型 | 输入 | 最适用于 | 关键优势 |
|---|---|---|---|
| 文本 PII | 原始文本字符串 | 应用、提示、日志、票证 | 广泛的语言覆盖和灵活的修订选项 |
| 对话 PII | 轮次化的聊天或文字记录数据 | 联系中心、会议、语音听录 | 对话上下文和文字记录感知输出 |
| 基于文档的 PII | 原始文件 (.pdf、 .docx、 .txt) |
合规性工作流和文档共享 | 被编辑处理以保持文档完整性和附加 JSON 元数据的文件 |
开始
若要使用 PII 检测,需在应用程序中提交文本以供进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行自定义。 可通过两种方式使用 PII 检测:
| 开发选项 | 说明 |
|---|---|
| Language Studio | Language Studio 是一个基于网络的平台,允许您在注册时使用文本示例与自己的数据进行个人身份信息检测。 有关详细信息,请参阅 Language Studio 网站或 Language Studio 快速入门。 |
| REST API 或客户端库(Azure SDK) | 使用 REST API 或以各种语言提供的客户端库将 PII 检测集成到应用程序中。 |
典型工作流
若要使用此功能,需要提交数据进行分析并处理应用程序中的 API 输出。 分析按原样执行,不会对数据所用的模型进行额外的自定义。
创建一个Azure语言资源,该资源授予你访问语言提供的功能的权限。 它会生成一个密码(称为密钥)和一个终结点 URL,你将使用它们来对 API 请求进行身份验证。
使用 REST API 或适用于 C#、Java、JavaScript 和Python的客户端库创建请求。 还可以使用批处理请求发送异步调用,以将多个功能的 API 请求合并到一个调用中。
发送包含你的文本数据的请求。 密钥和终结点将用于进行身份验证。
在本地流式处理或存储响应。
功能类型有何不同?
所有功能类型都使用预定义实体类别并返回置信度评分检测。 它们主要因输入格式和处理模型而异:
- 文本 PII 针对基于字符串的同步输入进行优化。
- 对话 PII 针对回合制对话记录和聊天结构进行了优化。
- 基于文档的 PII 是异步的,针对处理原生文件进行了优化,同时保留文档结构。
注释
基于文档的 PII 专注于原始文件编辑工作流。 某些纯文本选项在每个文档 API 版本中都不可用。
GA 和预览版指南
若要避免集成问题,请使用与部署目标匹配的 API 版本和功能:
- 在生产环境中使用正式发布(GA)的 API 版本。
- 仅当需要仅预览功能时,才使用预览 API 版本。
- 避免合并来自不同 API 版本的请求有效负载示例。
每个特定于功能的操作指南文章都标识了仅限预览的部分(如果适用)。
输入要求和服务限制
使用以下引用来验证语言覆盖率、服务限制和模型版本行为:
参考文档和代码示例
在应用程序中使用此功能时,请参阅以下有关 Azure 语言的参考文档和示例:
| 开发选项/语言 | 参考文档 | 示例 |
|---|---|---|
| REST API | REST API 文档 | |
| C# | C# 文档 | C# 示例 |
| Java | Java 文档 | Java 示例 |
| JavaScript | JavaScript 文档 | JavaScript 示例 |
| Python | Python 文档 | Python 示例 |
常见用例
如果需要在存储、分析、共享或下游 AI 处理之前应用隐私控制,PII 检测非常有用。
典型示例包括:
- 根据检测到的 PII 类别应用敏感度标签。
- 在广泛分发的文档中对个人信息进行去除。
- 在简历筛选工作流中屏蔽个人标识符,以减少偏见风险。
- 将敏感值替换为机器学习训练数据集中的占位符。
- 在呼叫中心听录工作流中编辑姓名和联系人详细信息。
- 为分析和数据科学准备数据集,而无需公开客户数据。
后续步骤
使用以下参考资料继续进行实施: