文本审查概念
可使用 Azure 内容审查器的文本审查模型来分析文本内容,如聊天室、讨论区、聊天机器人、电子商务目录和文档。
服务响应包含以下信息:
- 不敬词:根据多种语言的内置不敬字词列表执行基于字词的匹配
- 分类:在机器的辅助下分类成三个类别
- 个人数据
- 自动更正的文本
- 原始文本
- 语言
亵渎内容
如果 API 在任何受支持语言中检测到任何亵渎字词,这些字词会包含在响应中。 响应还会包含这些字词在原始文本中的位置 (Index
)。 以下示例 JSON 中的 ListId
引用了自定义术语列表(如果可用)中的术语。
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
注意
对于 language
参数,请分配 eng
或将其留空以查看机器辅助的分类响应(预览功能)。 此功能仅支持英语。
对于不雅用语 检测,请使用本文所列的支持语言的 ISO 639-3 代码或留空。
分类
内容审查器的机器辅助文本分类功能仅支持英语,可帮助检测可能不需要的内容。 根据上下文,可能会将标记的内容评估为不合适。 它表达了每个类别的可能性。 该功能使用经过训练的模型来识别可能的辱骂、贬低或歧视性语言。 这包括俚语、缩写词、冒犯性和故意拼错的词。
以下 JSON 摘录内容显示了示例输出:
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
说明
Category1
指可能存在某些情况下被视为色情或成人性质的语言。Category2
指可能存在某些情况下被视为性暗示或过于成熟的语言。Category3
指可能存在某些情况下被视为具攻击性的语言。Score
介于 0 和 1 之间。 分数越高,类别可能适用的概率就越高。 此功能依赖于统计模型,而不是人工编码结果。 我们建议你对自己的内容进行测试,以确定每个类别是否符合要求。ReviewRecommended
为 true 或 false,具体情况取决于内部评分阈值。 客户应评估是使用该值,还是根据他们的内容策略确定自定义阈值。
个人数据
个人数据功能检测是否可能存在以下信息:
- 电子邮件地址
- 美国邮寄地址
- IP 地址
- 美国电话号码
以下示例显示了示例响应:
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
自动更正
文本审查响应可以选择返回应用了基本自动更正的文本。
例如,以下输入文本有拼写错误。
The quick brown fox jumps over the lazzy dog.
如果指定执行自动更正,则响应会包含更正后的文本版本:
The quick brown fox jumps over the lazy dog.
创建和管理自定义字词列表
尽管在默认情况下,全局字词列表能够很好地满足大部分需要,但你可能想要根据自己的具体业务需求筛选字词。 例如,你可能想要从用户的发布内容中,筛选出所有竞争品牌名称。
注意
最多只能使用五个字词列表,每个列表中的字词数不得超过 10,000 个。
以下示例显示匹配的列表 ID:
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
内容审查器提供字词列表 API 和相应的操作用于管理自定义字词列表。 如果熟悉 Visual Studio 和 C#,请查看字词列表 .NET 快速入门。