本文列出了 Microsoft Purview 数据映射 中支持的系统分类。 若要了解有关分类的详细信息,请参阅 数据映射中的数据分类。
Microsoft Purview 使用 RegEx、Bloom Filter 和机器学习模型对数据进行分类。 以下列表描述了 Microsoft Purview 定义的系统分类的格式、模式和关键字。 每个分类名称都以 MICROSOFT 为前缀。
注释
Microsoft Purview 可以对结构化 (CSV、TSV、JSON、SQL 表等 ) 以及非结构化数据 (DOC、PDF、TXT 等 ) 进行分类。 但是,某些分类仅适用于结构化数据。 下面是 Microsoft Purview 不适用于非结构化数据的分类列表- 城市名称、国家/地区名称、出生日期、Email、种族群体、地理位置、人员姓名、美国电话号码、美国州、美国邮政编码
注释
最小匹配阈值:它是扫描程序必须找到的列中数据值匹配的最小百分比,以便应用分类。 对于系统分类,最低匹配阈值设置为 60%,无法更改。 对于自定义分类,此值是可配置的。
基于 Bloom 筛选器的分类
世界城市、国家/地区
城市和国家/地区分类器根据其全名和短代码标识数据。
关键字
城市关键字
- 伯格
- city
- 城市
- 城市名称
- cosmopolis
- 都市
- 城
- place
- 镇
国家/地区的关键字
- country
- 国家
- 国家/地区名称
- 国家
- 国籍
基于机器学习的分类
注释
基于机器学习的分类器仅支持结构化数据,例如表格或列式数据源。
人员姓名
人员名称机器学习模型已使用英语名称的全局数据集进行训练。 Microsoft Purview 对存储在同一列中的全名以及不同列中的名字和姓氏进行分类。
人员地址
人员的地址分类用于检测存储在包含以下元素的单个列中的完整地址:房屋编号、街道名称、城市、州、国家/地区、邮政编码。 人员的地址分类器使用基于英语全局地址数据集训练的机器学习模型。
支持的格式
目前,地址模型支持同一列中的以下格式:
- 数字、街道、城市
- name、street、pincode 或 zipcode
- 数字、街道、区域、pincode 或邮政编码
- street、city、pincode 或 zipcode
- 地标,城市
人员的性别
人员的性别机器学习模型已使用美国人口普查数据和其他英语公共数据源进行了训练。 它支持对 50 多种现用的性别进行分类。
关键字
- sex
- 性别
- 性的
- 方向
人员年龄
人员年龄机器学习模型检测以各种不同格式指定的个人年龄。 天数、月数和年份的限定符必须为英语。
关键字
- 年龄
- 年龄
支持的格式
- {%y} y,{%m} m
- {%y} 年 {%m} 个月
- {%y} 年和 {%m} 个月
- {%y} 年 {%w} 周
- {%y} 年和 {%w} 周
- {%y} y, {%d} d
- {%y} y,{%w} w
- {%y} 年,{%d} 天
- {%y} 年和 {%d} 天
- “{%y} 年、{%m} 个月和 {%d} 天
- {%y} 个月和 {%d} 天
- {%y} 年
- {%y}。{%yd} yr
- {%y} 年
- {%y} 岁
- {%y}。{%yd} 年
- 年龄 {%y}
- {%y} 到 {%y2}
- {%y} 到 {%y2} 年
- {%y} 年到 {%y2} 年
- {%m} 个月到 {%y} 年
- {%m} m 到 {%y} 年
- {%y}-{%y2} 年
- {%y}-{%y2}
- {%y} - {%y2}
- {%y}+
- {%m}-{%m2} 个月
- {%y} 及以上
- {%y} 及以下
- 低于 {%y}
- 高于 {%y}
- 月份 {%m}
- 周 {%w}
- {%y}
不支持的格式
- {%y}年 {%m}月
- {%y}y {%d}d
- {%y}y {%w}w
- {%y}。{%m}
- {%y}。{%yd}
正则表达式分类
ABA 路由号码
格式
可以采用格式化或无格式模式的 9 位数字。
图案
- 00-12、21-32、61-72 或 80 范围内的两位数字
- 两位数字
- 可选的连字符
- 四位数字
- 可选的连字符
- 数字
校验和
是的
关键字
Keyword_aba_routing
- ABA 路由号码
- 阿坝#
- 阿坝
- abarouting#
- abaroutingnumber
- americanbankassociationrouting#
- americanbankassociationroutingnumber
- bankrouting#
- bankroutingnumber
- 路由#
- 路由否
- 路由编号
- 路由传输号码
- 路由#
- RTN
中国居民身份证 (PRC) 号
格式
18 个数字
图案
18 个数字:
- 六个数字,即地址代码
- 八个数字,采用 YYYYMMDD 格式,代表出生日期
- 三个数字,即订单代码
- 一个数字,即检查数字
校验和
是的
关键字
关键词_中国居民身份证
- 居民身份证
- 中华人民共和国
- 国家身份证
- 身份证
- 居民 身份证
- 居民身份证
- 鉴定
- 身份证
- 居民身份證
- 鑑定
信用卡号
格式
(d) 可以格式化或无格式设置格式的 14 到 16 位数字,并且必须通过 Luhn 测试。
图案
检测来自全球所有主要品牌的卡,包括Visa、万事达卡、发现卡、JCB、美国运通、礼品卡、餐卡、Rupay 和中国银联。
校验和
是,Luhn 校验和
关键字
关键字_信用卡验证
- 卡片验证
- 卡标识号
- cvn
- cid
- cvc2
- cvv2 (信用卡验证码)
- 引脚块
- 安全代码
- 安全编号
- 安全性否
- 问题编号
- 问题编号
- 密码
- numéro de sécurité
- 安全号码
- 信用卡检验码
- 信用卡认证码
- prüfziffer
- prufziffer
- 安全代码
- 安全码
- 安全号码
- verfalldatum
- codice di verifica
- 鳕鱼。 sicurezza
- 安全码
- 无授权
- código
- codigo
- 鳕鱼。 seg
- cod seg
- código de segurança
- 安全码
- codigo de segurança
- 安全代码
- cód. segurança
- 鳕鱼。 seguranca
- 鳕鱼。 segurança
- cód. seguranca
- 安全码
- cod seguranca
- 安全代码
- 安全码
- 验证码
- 验证号
- ablauf
- gültig bis
- gültigkeitsdatum
- 有效期至
- 有效期
- scadenza
- data scad
- fecha de expiracion
- 到期日期
- vencimiento
- 有效期至
- 有效期限至
- vto
- data de expiração
- data de expiracao
- 过期日期
- validade
- 勇气
- vencimento
- 事务
- 事务编号
- 引用编号
- 安全代码
- 安全码
- 安全号码
- 安全号码
- 安全号码
Keyword_cc_name
- amex
- 美国快车
- americanexpress
- 美式浓缩咖啡
- 签证
- 万事达卡
- Master Card
- 司仪
- 万事达卡
- 万事达卡
- 食客俱乐部
- 食客俱乐部
- dinersclub
- 发现
- 发现卡
- discovercard
- 发现卡片
- JCB
- BrandSmart
- 日本卡局
- 全权委托
- carteblanche
- 信用卡
- cc#
- cc#:
- 到期日期
- 到期日期
- 有效期
- date d'expiration
- 到期日期
- 过期日期
- 银行卡
- 二元
- 卡号
- 卡号
- 卡号
- cardnumbers
- 卡号
- 信用卡
- 信用卡
- 信用卡
- ccn
- 持卡者
- 持卡人
- 持卡者
- 持 卡 人
- 支票卡
- checkcard
- 支票卡
- checkcards
- 借记卡
- 借记卡
- 借记卡
- 借记卡
- ATM 卡
- atmcard
- ATM卡
- ATM卡
- enroute
- 途中
- 卡片类型
- 持卡人账户
- cardmember 帐户
- 卡诺
- 公司卡
- 公司卡
- 卡的类型
- 卡帐号
- 卡成员帐户
- 卡会员账户。
- 卡片编号。
- 卡否
- 卡号
- carte bancaire
- carte de crédit
- 信用卡
- numéro de carte
- numero de carte
- 卡号
- 卡号
- 信用卡
- karte
- karteninhaber
- karteninhabers
- 信用卡持有者
- kreditkarteninstitut
- kreditkartentyp
- 所有者名称
- 卡号
- 卡号
- kreditkartennummer
- kreditkarten-nummer
- carta di credito
- carta credito
- n. carta
- n carta
- 星期日。 carta
- nr carta
- numero carta
- numero della carta
- 卡号
- tarjeta credito
- tarjeta de credito
- tarjeta crédito
- tarjeta de crédito
- ATM卡
- ATM卡
- tarjeta debito
- tarjeta de debito
- tarjeta débito
- tarjeta de débito
- 卡号
- 不。 de tarjeta
- 卡号
- numero de tarjeta
- número de tarjeta
- tarjeta no
- 持卡人
- cartão de crédito
- cartão de credito
- cartao de crédito
- cartao de credito
- cartão de débito
- cartao de débito
- cartão de debito
- cartao de debito
- débito automático
- debito automatico
- número do cartão
- numero do cartão
- 卡号
- 卡号
- número de cartão
- numero de cartão
- 卡号
- 卡号
- 卡号
- 卡号
- n。。 do cartão
- no do cartão
- 卡号
- 不。 do cartão
- 不。 do cartao
- rupay
- 银联
- 银联
- 餐厅
- 食客
- クレジットカード番号
- 信用卡号码
- クレジットカード#
- クレジットカード
- クレジット
- 信用卡
- 卡号
- 卡号
- カード#
- アメックス
- アメリカンエクスプレス
- アメリカン エクスプレス
- Visa カード
- Visa カード
- マスターカード
- マスター カード
- マスター
- ダイナースクラブ
- ダイナース クラブ
- ダイナース
- 有効期限
- 期限
- キャッシュカード
- 现金卡
- カード名義人
- カードの名義人
- カードの名義
- デビット カード
- デビットカード
- 中国银联
- 银联