什么是 Azure AI 语言个人身份信息(PII)检测?

Azure AI 语言个人身份信息(PII)检测是 Azure AI 语言提供的一项功能。 PII 检测服务是一种基于云的 API,它利用机器学习和 AI 算法来帮助开发具有高级自然语言理解的智能应用程序。 Azure AI 语言 PII 检测使用命名实体识别 (NER) 来识别并编辑输入数据中的敏感信息。 该服务将敏感数据分类为预定义类别。 这些类别包括电话号码、电子邮件地址和标识文档。 此分类有助于有效地检测和消除此类信息。

新动态

文本 PII 和对话 PII 检测预览版 API(版本 2024-11-15-preview)现在支持使用标签(而不仅仅是修订字符)来屏蔽检测到的敏感实体的选项。 客户可以指定个人数据内容(例如姓名和电话号码 "John Doe received a call from 424-878-9192")是否使用修订字符(即, "******** received a call from ************"或用实体标签 "[PERSON_1] received a call from [PHONENUMBER_1]"屏蔽)进行掩码。 有关如何为输出指定编修策略样式的详细信息,请参阅操作指南

对话 PII 检测模型(版本 2024-11-01-previewGA)已更新,以提供增强的 AI 质量和准确性。 数字标识符实体类型现在还包括驾驶证和医疗保险受益人标识符。

截至 2024 年 6 月,我们目前为对话式 PII 服务提供正式发布版支持(仅支持英语)。 现在,客户可以编辑录音、聊天和以对话风格编写的其他文本(即包含 umah 等语气词的文本,涉及多个说话者,以及通过单词拼读来提高清晰度),同时对 AI 的质量、Azure SLA 支持、生产环境支持和企业级安全性更有信心。

能力

目前,PII 支持适用于以下功能:

  • 用于在多个预定义类别的非结构化文本中进行通常文本的PII检测,以处理敏感信息(PII)和健康信息(PHI)。
  • 对话 PII 检测,这是一个专门设计用于处理语音听录以及会议和通话听录中出现的非正式对话语调的模型。
  • 用于处理结构化文档文件的本机文档 PII 检测

Azure AI 语言是一种基于云的服务,它应用自然语言处理(NLP)功能来检测基于文本的数据中的个人信息类别(PII)。 本文档包含以下类型:

  • 快速入门是入门说明,指导您向服务发出请求。
  • 操作指南包含以更具体的方式或自定义方式使用服务的说明。

典型工作流

若要使用此功能,需要提交数据进行分析并处理应用程序中的 API 输出。 分析按原样执行,不会对数据所用的模型进行额外的自定义。

  1. 创建 Azure AI 语言资源,它会授权你访问 Azure AI 语言提供的功能。 它会生成一个密码(称为密钥)和一个终结点 URL,你将使用它们来对 API 请求进行身份验证。

  2. 使用 REST API 或 C#、Java、JavaScript 和 Python 的客户端库创建请求。 还可以使用批处理请求发送异步调用,以将多个功能的 API 请求合并到一个调用中。

  3. 发送包含你的文本数据的请求。 密钥和终结点将用于进行身份验证。

  4. 在本地流式处理或存储响应。

文本 PII 的主要功能

Azure AI 语言提供命名实体识别,用于识别和分类文本中的信息。 此功能可检测 PII 类别,包括名称、组织、地址、电话号码、财务帐户号码或代码以及政府标识号。 此 PII 的一个子集是受保护健康信息 (PHI)。 通过在请求中指定 domain=phi,仅返回 PHI 实体。

PII 检测入门

若要使用 PII 检测,需在应用程序中提交文本以供进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行自定义。 可通过两种方式使用 PII 检测:

开发选项 说明
语言工作室 Language Studio 是一个基于网络的平台,允许您在注册时使用文本示例与自己的数据进行个人身份信息检测。 有关详细信息,请参阅 Language Studio 网站Language Studio 快速入门
REST API 或客户端库 (Azure SDK) 使用 REST API 或以各种语言提供的客户端库将 PII 检测集成到应用程序中。 有关详细信息,请参阅 PII 检测快速入门

参考文档和代码示例

在应用程序中使用此功能时,请参阅 Azure AI 语言的以下参考文档和示例:

开发选项/语言 参考文档 示例
REST API REST API 文档
C# C# 文档 C# 示例
Java Java 文档 Java 示例
Javascript JavaScript 文档 JavaScript 示例
Python Python 文档 Python 示例

输入要求和服务限制

  • 文本 PII 提取文本进行分析。 有关详细信息,请参阅操作指南中的数据和服务限制
  • PII 适用于各种书面语言。 有关详细信息,请参阅语言支持。 可以指定源文本使用哪些支持的语言。 如果未指定语言,则提取默认为英语。 API 可能会在响应中返回偏移量,以支持不同的多语言和表情符号编码

示例方案

  • 应用敏感度标签 - 例如,根据 PII 服务的结果,公共敏感度标签可能应用于未检测到 PII 实体的文档。 对于识别到美国地址和电话号码的文档,可能会应用机密标签。 高度机密标签可用于要在其中识别银行路由号码的文档。
  • 在获得更广泛流通的文档中修订某些类别的个人信息 - 例如,如果客户联系人记录可供一线支持代表访问,则公司可能希望在相应版本的客户历史记录中对除名字以外的客户个人信息进行修订,从而保护客户的隐私。
  • 为了减少无意识偏见而修订个人信息 - 例如,在公司的简历审查过程中,他们可以阻止姓名、地址和电话号码,以帮助减少无意识性别或其他偏见。
  • 替换源数据中用于机器学习的个人信息,以减少不公平性 – 例如,如果要删除在训练机器学习模型时可能会暴露性别的名称,则可以使用该服务来识别这些名称,并将它们替换为用于模型训练的泛型占位符。
  • 从呼叫中心的转录中删除个人信息 - 例如,如果您希望删除在客服人员与客户的通话中出现的姓名或其他个人身份信息 (PII)。 可以使用该服务来标识和删除它们。
  • 针对数据科学的数据清理 - PII 可用于使数据准备就绪,然后数据科学家和工程师使用这些数据来训练其机器学习模型。 对数据进行修订以确保不会泄露客户数据。

后续步骤

可以通过两种方式开始使用实体链接功能:

  • Language Studio 是一个基于 Web 的平台,可用于使用多个语言服务功能,而无需编写代码。
  • 有关使用 REST API 和客户端库 SDK 向服务发出请求的说明,请参阅快速入门文章