如何检测和编修对话中的个人身份信息 (PII)

对话 PII 功能可以评估对话,以在多个预定义类别的内容中提取敏感信息 (PII) 并对其进行编修。 此 API 对转录文本(称为“记录”)和聊天引用的文本进行操作。 对于记录,API 还可为包含 PII 信息的音频片段提供音频计时信息,从而支持对这些音频片段进行编修。

确定如何处理数据(可选)

指定 PII 检测模型

默认情况下,此功能将对输入使用最新的可用 AI 模型。 你还可以将 API 请求配置为使用特定模型版本

语言支持

有关详细信息,请参阅 PII 语言支持页。 目前,对话 PII GA 模型仅支持英语。 预览模型和 API 支持与其他语言服务相同的列表语言

区域支持

对话式 PII API 支持语言服务支持的所有 Azure 区域。

提交数据

注意

有关使用 Language Studio 设置要提交的对话文本格式的信息,请参阅 Language Studio 一文。

可以将输入作为对话项列表提交到 API。 在收到请求时执行分析。 因为 API 是异步的,所以在发送 API 请求和接收结果之间可能存在延迟。 有关每分钟和每秒可以发送的请求大小和数量信息,请参阅下面的数据限制。

使用异步功能时,API 结果在引入请求后的 24 小时内可用,并在响应中指示。 在此时间段后,结果将被清除,并且不再可用于检索。

将数据提交到聊天 PII 时,可以针对每个请求发送一个对话(聊天或语音)。

此 API 尝试检测给定对话输入的所有已定义实体类别。 如果要指定将检测并返回哪些实体,请使用可选的 piiCategories 参数指定相应的实体类别。

对于语音记录,检测到的实体会在提供的 redactionSource 参数值中返回。 目前,redactionSource 支持的值为 textlexicalitnmaskedItn(它们分别映射到语音转文本 REST API 的 display\displayTextlexicalitnmaskedItn 格式)。 此外,对于语音记录输入,此 API 还会提供音频计时信息,以增强音频编修功能。 若要使用 audioRedaction 功能,请使用值为 true 的可选 includeAudioRedaction 标志。 系统根据词法输入格式执行音频编修。

注意

对话 PII 现在支持将 40,000 个字符作为文档大小。

获取 PII 结果

从 PII 检测获得结果时,可以将结果流式传输到应用程序或将输出保存到本地系统上的文件中。 API 响应包括识别的实体,包括其类别和子类别,以及置信度分数。 还将返回 PII 实体经过编辑的文本字符串。

示例

  1. Azure 门户中,转到资源概述页

  2. 在左侧菜单中,选择“密钥和终结点”。 需要其中一个密钥和终结点才能对 API 请求进行身份验证。

  3. 下载并安装所选语言的客户端库包:

    语言 包版本
    .NET 1.0.0
    Python 1.0.0
  4. 有关客户端和返回对象的详细信息,请参阅以下参考文档:

服务和数据限制

有关每分钟和每秒可以发送的请求大小和数量信息,请参阅服务限制一文。