pair_probabilities_fl()

项目
09/29/2024

适用于：✅Azure 数据资源管理器

为一对分类变量计算各种概率和相关指标。

函数 pair_probabilities_fl() 是一个 UDF（用户定义的函数），它计算一对分类变量（A 和 B）的以下概率和相关指标，如下所示：

P(A) 是每个值的 A=a 概率
P(B) 是每个值的 B=b 概率
P(A|B) 是 B=b 的情况下，A=a 的条件概率
P(B|A) 是 A=a 的情况下，B=b 的条件概率
P(A∪B) 是并集概率（A=a 或B=b）
P(A∩B) 是交集概率（A=a 或B=b）
提升指标的计算方式为 P(A∩B)/P(A)*P(B)。有关详细信息，请参阅提升指标。
- 接近 1 的提升表示两个值的联合概率类似于两个变量互相独立时的预期概率。
- 提升 >> 1 表示在做出独立性假设的情况下，值共现的次数超过预期。
- 提升 << 1 表示在做出独立性假设的情况下，值共现的次数况不太可能超过预期。
Jaccard 相似性系数的计算方式为 P(A∩B)/P(A∪B)。有关详细信息，请参阅 Jaccard 相似性系数。
- 接近 1 的较高 Jaccard 系数表示值倾向于共同出现。
- 接近 0 的较低 Jaccard 系数表示值倾向于保持独立。

语法

pair_probabilities_fl(A, B, Scope)

详细了解语法约定。

参数

客户	类型	必需	说明
A	标量 (scalar)	✔️	第一个分类变量。
B	标量 (scalar)	✔️	第二个分类变量。
范围	标量 (scalar)	✔️	包含范围的字段，用于单独为每个范围值计算 A 和 B 的概率。

函数定义

可以通过将函数的代码嵌入为查询定义的函数，或将其创建为数据库中的存储函数来定义函数，如下所示：

查询定义的函数
存储函数

使用以下 let 语句定义函数。不需要任何权限。

重要

let 语句不能独立运行。它必须后跟一个表格表达式语句。若要运行 pair_probabilities_fl() 的工作示例，请参阅示例。

let pair_probabilities_fl = (tbl:(*), A_col:string, B_col:string, scope_col:string)
{
let T = materialize(tbl | extend _A = column_ifexists(A_col, ''), _B = column_ifexists(B_col, ''), _scope = column_ifexists(scope_col, ''));
let countOnScope = T | summarize countAllOnScope = count() by _scope;
let probAB = T | summarize countAB = count() by _A, _B, _scope | join kind = leftouter (countOnScope) on _scope | extend P_AB = todouble(countAB)/countAllOnScope;
let probA  = probAB | summarize countA = sum(countAB), countAllOnScope = max(countAllOnScope) by _A, _scope | extend P_A = todouble(countA)/countAllOnScope;
let probB  = probAB | summarize countB = sum(countAB), countAllOnScope = max(countAllOnScope) by _B, _scope | extend P_B = todouble(countB)/countAllOnScope;
probAB
| join kind = leftouter (probA) on _A, _scope           // probability for each value of A
| join kind = leftouter (probB) on _B, _scope           // probability for each value of B
| extend P_AUB = P_A + P_B - P_AB                       // union probability
       , P_AIB = P_AB/P_B                               // conditional probability of A on B
       , P_BIA = P_AB/P_A                               // conditional probability of B on A
| extend Lift_AB = P_AB/(P_A * P_B)                     // lift metric
       , Jaccard_AB = P_AB/P_AUB                        // Jaccard similarity index
| project _A, _B, _scope, bin(P_A, 0.00001), bin(P_B, 0.00001), bin(P_AB, 0.00001), bin(P_AUB, 0.00001), bin(P_AIB, 0.00001)
, bin(P_BIA, 0.00001), bin(Lift_AB, 0.00001), bin(Jaccard_AB, 0.00001)
| sort by _scope, _A, _B
};
// Write your query to use the function here.

使用以下 .create function 定义存储的函数一次。数据库用户权限是必需的。

重要

必须先运行此代码来创建函数，然后才能按示例所示使用该函数。

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Calculate probabilities and related metrics for a pair of categorical variables")
pair_probabilities_fl (tbl:(*), A_col:string, B_col:string, scope_col:string)
{
let T = materialize(tbl | extend _A = column_ifexists(A_col, ''), _B = column_ifexists(B_col, ''), _scope = column_ifexists(scope_col, ''));
let countOnScope = T | summarize countAllOnScope = count() by _scope;
let probAB = T | summarize countAB = count() by _A, _B, _scope | join kind = leftouter (countOnScope) on _scope | extend P_AB = todouble(countAB)/countAllOnScope;
let probA  = probAB | summarize countA = sum(countAB), countAllOnScope = max(countAllOnScope) by _A, _scope | extend P_A = todouble(countA)/countAllOnScope;
let probB  = probAB | summarize countB = sum(countAB), countAllOnScope = max(countAllOnScope) by _B, _scope | extend P_B = todouble(countB)/countAllOnScope;
probAB
| join kind = leftouter (probA) on _A, _scope           // probability for each value of A
| join kind = leftouter (probB) on _B, _scope           // probability for each value of B
| extend P_AUB = P_A + P_B - P_AB                       // union probability
       , P_AIB = P_AB/P_B                               // conditional probability of A on B
       , P_BIA = P_AB/P_A                               // conditional probability of B on A
| extend Lift_AB = P_AB/(P_A * P_B)                     // lift metric
       , Jaccard_AB = P_AB/P_AUB                        // Jaccard similarity index
| project _A, _B, _scope, bin(P_A, 0.00001), bin(P_B, 0.00001), bin(P_AB, 0.00001), bin(P_AUB, 0.00001), bin(P_AIB, 0.00001)
, bin(P_BIA, 0.00001), bin(Lift_AB, 0.00001), bin(Jaccard_AB, 0.00001)
| sort by _scope, _A, _B
}

示例

以下示例使用 invoke 运算符运行函数。

查询定义的函数
存储函数

若要使用查询定义的函数，请在嵌入的函数定义后调用它。

运行查询

let pair_probabilities_fl = (tbl:(*), A_col:string, B_col:string, scope_col:string)
{
let T = materialize(tbl | extend _A = column_ifexists(A_col, ''), _B = column_ifexists(B_col, ''), _scope = column_ifexists(scope_col, ''));
let countOnScope = T | summarize countAllOnScope = count() by _scope;
let probAB = T | summarize countAB = count() by _A, _B, _scope | join kind = leftouter (countOnScope) on _scope | extend P_AB = todouble(countAB)/countAllOnScope;
let probA  = probAB | summarize countA = sum(countAB), countAllOnScope = max(countAllOnScope) by _A, _scope | extend P_A = todouble(countA)/countAllOnScope;
let probB  = probAB | summarize countB = sum(countAB), countAllOnScope = max(countAllOnScope) by _B, _scope | extend P_B = todouble(countB)/countAllOnScope;
probAB
| join kind = leftouter (probA) on _A, _scope           // probability for each value of A
| join kind = leftouter (probB) on _B, _scope           // probability for each value of B
| extend P_AUB = P_A + P_B - P_AB                       // union probability
       , P_AIB = P_AB/P_B                               // conditional probability of A on B
       , P_BIA = P_AB/P_A                               // conditional probability of B on A
| extend Lift_AB = P_AB/(P_A * P_B)                     // lift metric
       , Jaccard_AB = P_AB/P_AUB                        // Jaccard similarity index
| project _A, _B, _scope, bin(P_A, 0.00001), bin(P_B, 0.00001), bin(P_AB, 0.00001), bin(P_AUB, 0.00001), bin(P_AIB, 0.00001)
, bin(P_BIA, 0.00001), bin(Lift_AB, 0.00001), bin(Jaccard_AB, 0.00001)
| sort by _scope, _A, _B
};
//
let dancePairs = datatable(boy:string, girl:string, dance_class:string)[
    'James',   'Mary',      'Modern',
    'James',   'Mary',      'Modern',
    'Robert',  'Mary',      'Modern',
    'Robert',  'Mary',      'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Patricia',  'Modern',
    'Robert',  'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Linda',     'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Linda',     'Modern',
    'Robert',  'Linda',     'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Mary',      'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Mary',      'Classic',
    'Robert',  'Linda',     'Classic',
    'James',   'Mary',      'Classic',
    'James',   'Linda',     'Classic'
];
dancePairs
| invoke pair_probabilities_fl('boy','girl', 'dance_class')

重要

若要使此示例成功运行，必须先运行函数定义代码来存储函数。

let dancePairs = datatable(boy:string, girl:string, dance_class:string)[
    'James',   'Mary',      'Modern',
    'James',   'Mary',      'Modern',
    'Robert',  'Mary',      'Modern',
    'Robert',  'Mary',      'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Patricia',  'Modern',
    'Robert',  'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Linda',     'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Linda',     'Modern',
    'Robert',  'Linda',     'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Mary',      'Modern',
    'Michael', 'Patricia',  'Modern',
    'Michael', 'Patricia',  'Modern',
    'James',   'Linda',     'Modern',
    'Robert',  'Mary',      'Classic',
    'Robert',  'Linda',     'Classic',
    'James',   'Mary',      'Classic',
    'James',   'Linda',     'Classic'
];
dancePairs
| invoke pair_probabilities_fl('boy','girl', 'dance_class')

输出

让我们看看两个舞蹈班上随机跳舞的每对舞伴的列表，确定是否存在任何异常（即非随机情况）。我们先从每个舞蹈班开始。

Michael-Patricia 这一对舞伴的提升指标为 2.375，这明显大于 1。此值意味着，他们在一起跳舞的次数远远超过随机凑对的情况。他们的 Jaccard 系数为 0.75，接近于 1。在双人舞中，他们倾向于凑成一对。

A	B	scope	P_A	P_B	P_AB	P_AUB	P_AIB	P_BIA	Lift_AB	Jaccard_AB
Robert	Patricia	新式	0.31578	0.42105	0.05263	0.68421	0.12499	0.16666	0.39583	0.07692
Robert	Mary	新式	0.31578	0.26315	0.15789	0.42105	0.59999	0.49999	1.89999	0.37499
Robert	Linda	新式	0.31578	0.31578	0.10526	0.52631	0.33333	0.33333	1.05555	0.2
Michael	Patricia	新式	0.31578	0.42105	0.31578	0.42105	0.75	0.99999	2.375	0.75
James	Patricia	新式	0.36842	0.42105	0.05263	0.73684	0.12499	0.14285	0.33928	0.07142
James	Mary	新式	0.36842	0.26315	0.10526	0.52631	0.4	0.28571	1.08571	0.2
James	Linda	新式	0.36842	0.31578	0.21052	0.47368	0.66666	0.57142	1.80952	0.44444
Robert	Mary	经典	0.49999	0.49999	0.24999	0.75	0.49999	0.49999	0.99999	0.33333
Robert	Linda	经典	0.49999	0.49999	0.24999	0.75	0.49999	0.49999	0.99999	0.33333
James	Mary	经典	0.49999	0.49999	0.24999	0.75	0.49999	0.49999	0.99999	0.33333
James	Linda	经典	0.49999	0.49999	0.24999	0.75	0.49999	0.49999	0.99999	0.33333

通过

pair_probabilities_fl()

语法

参数

函数定义

示例

其他资源