文本审查概念

可使用 Azure 内容审查器的文本审查模型来分析文本内容,如聊天室、讨论区、聊天机器人、电子商务目录和文档。

服务响应包含以下信息:

  • 不敬词:根据多种语言的内置不敬字词列表执行基于字词的匹配
  • 分类:在机器的辅助下分类成三个类别
  • 个人数据
  • 自动更正的文本
  • 原始文本
  • 语言

亵渎内容

如果 API 在任何受支持语言中检测到任何亵渎字词,这些字词会包含在响应中。 响应还会包含这些字词在原始文本中的位置 (Index)。 以下示例 JSON 中的 ListId 引用了自定义术语列表(如果可用)中的术语。

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

注意

对于 language 参数,请分配 eng 或将其留空以查看机器辅助的分类响应(预览功能)此功能仅支持英语

对于不雅用语 检测,请使用本文所列的支持语言的 ISO 639-3 代码或留空。

分类

内容审查器的机器辅助文本分类功能仅支持英语,可帮助检测可能不需要的内容。 根据上下文,可能会将标记的内容评估为不合适。 它表达了每个类别的可能性。 该功能使用经过训练的模型来识别可能的辱骂、贬低或歧视性语言。 这包括俚语、缩写词、冒犯性和故意拼错的词。

以下 JSON 摘录内容显示了示例输出:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

说明

  • Category1 指可能存在某些情况下被视为色情或成人性质的语言。
  • Category2 指可能存在某些情况下被视为性暗示或过于成熟的语言。
  • Category3 指可能存在某些情况下被视为具攻击性的语言。
  • Score 介于 0 和 1 之间。 分数越高,类别可能适用的概率就越高。 此功能依赖于统计模型,而不是人工编码结果。 我们建议你对自己的内容进行测试,以确定每个类别是否符合要求。
  • ReviewRecommended 为 true 或 false,具体情况取决于内部评分阈值。 客户应评估是使用该值,还是根据他们的内容策略确定自定义阈值。

个人数据

个人数据功能检测是否可能存在以下信息:

  • 电子邮件地址
  • 美国邮寄地址
  • IP 地址
  • 美国电话号码

以下示例显示了示例响应:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

自动更正

文本审查响应可以选择返回应用了基本自动更正的文本。

例如,以下输入文本有拼写错误。

The quick brown fox jumps over the lazzy dog.

如果指定执行自动更正,则响应会包含更正后的文本版本:

The quick brown fox jumps over the lazy dog.

创建和管理自定义字词列表

尽管在默认情况下,全局字词列表能够很好地满足大部分需要,但你可能想要根据自己的具体业务需求筛选字词。 例如,你可能想要从用户的发布内容中,筛选出所有竞争品牌名称。

注意

最多只能使用五个字词列表,每个列表中的字词数不得超过 10,000 个

以下示例显示匹配的列表 ID:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

内容审查器提供字词列表 API 和相应的操作用于管理自定义字词列表。 如果熟悉 Visual Studio 和 C#,请查看字词列表 .NET 快速入门