什么是 Azure AI 语言中的个人身份信息 (PII) 检测?

从 2024 年 6 月起,我们将为对话 PII 服务提供正式发布支持(仅限英语)。 客户现在可以编辑以对话方式编写的脚本、聊天和其他文本(即具有“嗯”、“啊”、多个说话者的文本以及为了清晰起见而拼出单词),同时对 AI 质量、Azure SLA 支持和生产环境支持有更大的信心,并会想到企业级安全。

PII 检测是 Azure AI 语言提供的功能之一,它是云中机器学习和 AI 算法的集合,可用于开发涉及书面语言的智能应用程序。 PII 检测功能可以识别、分类和编修非结构化文本中的敏感信息。 例如:电话号码、电子邮件地址和各种形式的标识信息。 Azure AI 语言支持常规文本 PII 修订以及对话 PII,这是一种用于处理会议和通话录音中的语音听录和非正式的会话语气的特殊模型。 该服务还支持本机文档 PII 修订,其中输入和输出是结构化文档文件。

  • 快速入门介绍了入门说明,指导您完成向服务发出请求。
  • 操作指南包含以更具体的方式或自定义方式使用服务的说明。
  • 概念性文章对服务的功能和特性进行了深入说明。

典型工作流

若要使用此功能,需要提交数据进行分析并处理应用程序中的 API 输出。 分析按原样执行,不会对数据所用的模型进行额外的自定义。

  1. 创建 Azure AI 语言资源,它会授权你访问 Azure AI 语言提供的功能。 它会生成一个密码(称为密钥)和一个终结点 URL,你将使用它们来对 API 请求进行身份验证。

  2. 使用 REST API 或 C#、Java、JavaScript 和 Python 的客户端库创建请求。 还可以使用批处理请求发送异步调用,以将多个功能的 API 请求合并到一个调用中。

  3. 发送包含文本数据的请求。 密钥和终结点将用于进行身份验证。

  4. 在本地流式处理或存储响应。

原生文档支持

原生文档是指用于创建原始文档的文件格式,例如 Microsoft Word (docx) 或可移植文档文件 (pdf)。 有了原生文档支持,便无需再在使用 Azure AI 语言资源功能之前进行文本预处理。 目前,原生文档支持适用于 PiiEntityRecognition 功能。

目前,PII 支持以下原生文档格式:

文件类型 文件扩展名 说明
文本 .txt 无格式的文本文档。
Adobe PDF .pdf 可移植文档文件格式的文档。
Microsoft Word .docx Microsoft Word 文档文件。

有关详细信息,请参阅使用原生文档进行语言处理

PII 检测入门

若要使用 PII 检测,需在应用程序中提交文本以供进行分析并处理 API 输出。 分析按原样执行,不会对数据所用的模型进行自定义。 可通过两种方式使用 PII 检测:

开发选项 说明
Language Studio Language Studio 是一个基于 Web 的平台,让你可以在没有 Azure 帐户的情况下尝试使用文本示例进行实体链接,并在注册时使用自己的数据。 有关详细信息,请参阅 Language Studio 网站Language Studio 快速入门
REST API 或客户端库 (Azure SDK) 使用 REST API 或以各种语言提供的客户端库将 PII 检测集成到应用程序中。 有关详细信息,请参阅 PII 检测快速入门

参考文档和代码示例

在应用程序中使用此功能时,请参阅 Azure AI 语言的以下参考文档和示例:

开发选项/语言 参考文档 示例
REST API REST API 文档
C# C# 文档 C# 示例
Java Java 文档 Java 示例
Javascript JavaScript 文档 JavaScript 示例
Python Python 文档 Python 示例

示例方案

  • 应用敏感度标签 - 例如,根据 PII 服务的结果,公共敏感度标签可能应用于未检测到 PII 实体的文档。 对于识别到美国地址和电话号码的文档,可能会应用机密标签。 高度机密标签可用于识别到银行路由号码的文档。
  • 在获得更广泛流通的文档中修订某些类别的个人信息 - 例如,如果客户联系人记录可供一线支持代表访问,则公司可能希望在相应版本的客户历史记录中对除名字以外的客户个人信息进行修订,从而保护客户的隐私。
  • 为了减少无意识偏见而修订个人信息 - 例如,在公司的简历审查过程中,可以隐藏姓名、地址和电话号码,以帮助减少无意识的性别偏见或其他偏见。
  • 替换源数据中用于机器学习的个人信息,以减少不公平性 – 例如,如果要删除在训练机器学习模型时可能会暴露性别的名称,则可以使用该服务来识别这些名称,并将它们替换为用于模型训练的泛型占位符。
  • 从呼叫中心听录中删除个人信息 - 例如,如果要删除代理与客户在呼叫中心场景中出现的名称或其他 PII 数据。 可以使用该服务来标识和删除它们。
  • 针对数据科学的数据清理 - PII 可用于使数据准备就绪,然后数据科学家和工程师使用这些数据来训练其机器学习模型。 对数据进行修订以确保不会泄露客户数据。

后续步骤

可以通过两种方式开始使用实体链接功能:

  • Language Studio 是一个基于 Web 的平台,通过该平台,你无需编写代码即可尝试多种语言服务功能。
  • 有关使用 REST API 和客户端库 SDK 向服务发出请求的说明,请参阅快速入门文章