可使用 Azure 内容审查器的文本审查模型来分析文本内容,如聊天室、讨论区、聊天机器人、电子商务目录和文档。
服务响应包含以下信息:
- 不敬词:根据多种语言的内置不敬字词列表执行基于字词的匹配
 - 分类:在机器的辅助下分类成三个类别
 - 个人数据
 - 自动更正的文本
 - 原始文本
 - 语言
 
亵渎内容
如果 API 在任何受支持语言中检测到任何亵渎字词,这些字词会包含在响应中。 响应还会包含这些字词在原始文本中的位置 (Index)。 以下示例 JSON 中的 ListId 引用了自定义术语列表(如果可用)中的术语。
"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }
注意
对于 language 参数,请分配 eng 或将其留空以查看机器辅助的分类响应(预览功能)。 此功能仅支持英语。
对于不雅用语 检测,请使用本文所列的支持语言的 ISO 639-3 代码或留空。
分类
内容审查器的机器辅助文本分类功能仅支持英语,可帮助检测可能不需要的内容。 根据上下文,可能会将标记的内容评估为不合适。 它表达了每个类别的可能性。 该功能使用经过训练的模型来识别可能的辱骂、贬低或歧视性语言。 这包括俚语、缩写词、冒犯性和故意拼错的词。
以下 JSON 摘录内容显示了示例输出:
"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}
说明
Category1指可能存在某些情况下被视为色情或成人性质的语言。Category2指可能存在某些情况下被视为性暗示或过于成熟的语言。Category3指可能存在某些情况下被视为具攻击性的语言。Score介于 0 和 1 之间。 分数越高,类别可能适用的概率就越高。 此功能依赖于统计模型,而不是人工编码结果。 我们建议你对自己的内容进行测试,以确定每个类别是否符合要求。ReviewRecommended为 true 或 false,具体情况取决于内部评分阈值。 客户应评估是使用该值,还是根据他们的内容策略确定自定义阈值。
个人数据
个人数据功能检测是否可能存在以下信息:
- 电子邮件地址
 - 美国邮寄地址
 - IP 地址
 - 美国电话号码
 
以下示例显示了示例响应:
"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[
  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}
自动更正
文本审查响应可以选择返回应用了基本自动更正的文本。
例如,以下输入文本有拼写错误。
The quick brown fox jumps over the lazzy dog.
如果指定执行自动更正,则响应会包含更正后的文本版本:
The quick brown fox jumps over the lazy dog.
创建和管理自定义字词列表
尽管在默认情况下,全局字词列表能够很好地满足大部分需要,但你可能想要根据自己的具体业务需求筛选字词。 例如,你可能想要从用户的发布内容中,筛选出所有竞争品牌名称。
注意
最多只能使用五个字词列表,每个列表中的字词数不得超过 10,000 个。
以下示例显示匹配的列表 ID:
"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }
内容审查器提供字词列表 API 和相应的操作用于管理自定义字词列表。 如果熟悉 Visual Studio 和 C#,请查看字词列表 .NET 快速入门。