什么是 Azure 语言中的 PII 检测?

个人身份信息(PII)检测是Azure语言的核心功能,可帮助你在文本、对话和原生文档中识别、分类和编辑敏感数据。 将输入文本提交到服务,并接收包含实体类别、置信度分数和基于 API 配置的修订结果的结构化输出。 可以使用此功能实现隐私控制、减少敏感数据暴露,并支持应用程序和数据处理工作流中的合规性要求。

按功能类型排序的 PII 文档

PII 功能按功能类型分组。 每个特征类型都映射到特定的输入格式和处理模型。

PII 功能类型图的屏幕截图。

选择与数据形状和运行时要求匹配的功能类型。

文本个人可识别信息 (PII)

文本 PII 处理基于字符串的有效负载,并返回同步检测和修订结果。 当系统处理消息、提示、日志和其他文本字段的请求时间处理时,请使用此功能。

使用以下文档实现和优化文本 PII 工作负载:

对话中的个人身份信息 (PII)

对话 PII 处理多轮次交换和面向记录的负载,其中轮次边界和对话上下文会影响检测和掩码行为。 对分析聊天和脚本结构的异步工作负荷使用此功能。

使用以下文档来实施基于对话的 PII 作业处理:

基于文档的个人身份信息 (PII)

基于文档的 PII 处理原生文件并返回保留文档结构的编辑输出,同时生成机器可读元数据。 将此功能用于处理.pdf.docx.txt输入的异步、基于存储的管道。

使用以下文档在原生文件管道中实现基于文档的个人身份信息(PII):


选择正确的 PII 功能

在开始实现之前,请使用下表选择正确的体验:

功能类型 输入 最适用于 关键优势
文本 PII 原始文本字符串 应用、提示、日志、票证 广泛的语言覆盖和灵活的修订选项
对话 PII 轮次化的聊天或文字记录数据 联系中心、会议、语音听录 对话上下文和文字记录感知输出
基于文档的 PII 原始文件 (.pdf.docx.txt 合规性工作流和文档共享 被编辑处理以保持文档完整性和附加 JSON 元数据的文件

开始

若要使用 PII 检测,需在应用程序中提交文本以供进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行自定义。 可通过两种方式使用 PII 检测:

开发选项 说明
Language Studio Language Studio 是一个基于网络的平台,允许您在注册时使用文本示例与自己的数据进行个人身份信息检测。 有关详细信息,请参阅 Language Studio 网站Language Studio 快速入门
REST API 或客户端库(Azure SDK) 使用 REST API 或以各种语言提供的客户端库将 PII 检测集成到应用程序中。

典型工作流

若要使用此功能,需要提交数据进行分析并处理应用程序中的 API 输出。 分析按原样执行,不会对数据所用的模型进行额外的自定义。

  1. 创建一个Azure语言资源,该资源授予你访问语言提供的功能的权限。 它会生成一个密码(称为密钥)和一个终结点 URL,你将使用它们来对 API 请求进行身份验证。

  2. 使用 REST API 或适用于 C#、Java、JavaScript 和Python的客户端库创建请求。 还可以使用批处理请求发送异步调用,以将多个功能的 API 请求合并到一个调用中。

  3. 发送包含你的文本数据的请求。 密钥和终结点将用于进行身份验证。

  4. 在本地流式处理或存储响应。

功能类型有何不同?

所有功能类型都使用预定义实体类别并返回置信度评分检测。 它们主要因输入格式和处理模型而异:

  • 文本 PII 针对基于字符串的同步输入进行优化。
  • 对话 PII 针对回合制对话记录和聊天结构进行了优化。
  • 基于文档的 PII 是异步的,针对处理原生文件进行了优化,同时保留文档结构。

注释

基于文档的 PII 专注于原始文件编辑工作流。 某些纯文本选项在每个文档 API 版本中都不可用。

GA 和预览版指南

若要避免集成问题,请使用与部署目标匹配的 API 版本和功能:

  • 在生产环境中使用正式发布(GA)的 API 版本。
  • 仅当需要仅预览功能时,才使用预览 API 版本。
  • 避免合并来自不同 API 版本的请求有效负载示例。

每个特定于功能的操作指南文章都标识了仅限预览的部分(如果适用)。

输入要求和服务限制

使用以下引用来验证语言覆盖率、服务限制和模型版本行为:

参考文档和代码示例

在应用程序中使用此功能时,请参阅以下有关 Azure 语言的参考文档和示例:

开发选项/语言 参考文档 示例
REST API REST API 文档
C# C# 文档 C# 示例
Java Java 文档 Java 示例
JavaScript JavaScript 文档 JavaScript 示例
Python Python 文档 Python 示例

常见用例

如果需要在存储、分析、共享或下游 AI 处理之前应用隐私控制,PII 检测非常有用。

典型示例包括:

  • 根据检测到的 PII 类别应用敏感度标签。
  • 在广泛分发的文档中对个人信息进行去除。
  • 在简历筛选工作流中屏蔽个人标识符,以减少偏见风险。
  • 将敏感值替换为机器学习训练数据集中的占位符。
  • 在呼叫中心听录工作流中编辑姓名和联系人详细信息。
  • 为分析和数据科学准备数据集,而无需公开客户数据。

后续步骤

使用以下参考资料继续进行实施: