辛普森悖论(Simpson's paradox)
两个例子
-
例子一:阿伟罗和梅老板谁是最伟大的球员
进球数 |
射门数 |
进球率 |
||
梅西 |
禁区内 |
11 |
20 |
55% |
禁区外 |
1 |
3 |
33% |
|
C罗 |
禁区内 |
4 |
7 |
57.14% |
禁区外 |
8 |
17 |
47.06% |
-
从上表的数据看,无论是禁区内还是禁区外,C罗的进球率都是高于梅西的,为什么金球奖给了梅西?
-
我们忽略射门方式再来看一下他们的进球率:
进球数 |
射门数 |
进球率 |
||
梅西 |
汇总 |
12 |
23 |
52.17% |
C罗 |
汇总 |
12 |
24 |
50% |
-
梅西进球率 > C罗的进球率, 但是在每一个单项上确实C罗更好,这不科学啊!
-
例子二: 在业务场景上是否有这种情况:
-
假设我们在线上做AB实验(投放了两个买量策略,两种运营扶持策略)
-
实验B的付费率高于实验A, 实验B真的比实验A效果更好吗?
付费人数 |
用户人数 |
付费率 |
||
实验A |
汇总 |
273 |
350 |
78% |
实验B |
汇总 |
289 |
350 |
83% |
-
我们看一下实验A和实验B在上海和北京的付费率情况;
付费人数 |
用户人数 |
付费率 |
||
实验A |
上海 |
81 |
87 |
93% |
北京 |
192 |
263 |
73% |
|
实验B |
上海 |
234 |
270 |
87% |
北京 |
55 |
88 |
69% |
-
数据是一个有力的武器,它既能被用来澄清现实,也能被用来混淆是非
-
我们经常用数据相关性来做分析,以下数据和图表是为了方便大家理解,并不是我们的真实数据和真实场景;
-
假设我们产品上线了一个活动页,用户的点击次数和留存的关系如下;
-
基于大家的业务认知,这个活动页对用户的留存是有比较明显的带动作用,点击次数越高留存越高;
-
有没有隐藏风险? 在进行相关性分析的时候,遗漏了关键的维度;
-
客户端的用户,活跃度是不一样的,有高活用户、中活用户、低活用户,而不同活跃度的用户,数据表现相差很远;
-
假设我们划分不同的用户群体来看效果,会得到完全相反的结论;
文字化描述
-
辛普森悖论:A的每一分项的数据都比B要高,但是把各分项一汇总起来算总体数据时,A却比B低。
-
辛普森悖论一般是从总体拆分到细分项维度的时候发现的,因为你选择了这个(关键)维度做拆分进而触发辛普森悖论。
-
在数据分析中,决策容易犯的错误:遗漏了关键的维度;
-
辛普森悖论可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象。
形式化描述
-
需要满足一定的数字特征才能触发, 这里我不想去介绍什么数值条件下触发辛普森悖论,会让大家陷在数学论证中忽略了本文的重点;
-
本篇文章只是想借助辛普森悖论引出因果推断(Causal Inference);
因果推断
相关性不意味着因果(Correlation & Causation)
-
从辛普森悖论看相关和因果, 一个真实的数据
-
轻症组和重症组,都是B方案的死亡率更低,然而合在一起,A方案的死亡率更低
-
如何评价A和B的优劣,
死亡人数 |
治疗人数 |
死亡率 |
||
治疗方案A |
汇总 |
240 |
1500 |
16% |
治疗方案B |
汇总 |
105 |
550 |
19% |
死亡人数 |
治疗人数 |
死亡率 |
||
治疗方案A |
轻症病人 |
210 |
1400 |
15% |
重症病人 |
30 |
100 |
30% |
|
治疗方案B |
轻症病人 |
5 |
50 |
10% |
重症病人 |
100 |
500 |
20% |
-
不同的人对以上数据的解释:
-
医生根据病人的症状分配不同的方案,对于重症的病人使用更为稀缺的医疗资源(方案B)进行救助。
-
重症患者的死亡率更高,而总体来看方案B的死亡率更高是因为使用方案B的重症病人更多。
-
在这种情况下,方案B是更好的选择。我们可以将这种情况的因果图画出,可以看到,病人的条件导致了方案的选取(condition as a cause of treatment)
-
解释一:
-
解释二:
-
方案B需要等待的时间更长,采用方案B的一部分病人从轻症变为了重症,导致更坏的结果。
-
显然,此时方案A是更好的选择。
-
从因果图可以看出,方案的选择导致了病人条件的变化(treatment as a cause of condition)
-
在不知道数据底层的因果结构时,我们很容易被表面上的数据所欺骗。辛普森悖论的产生,根源在于我们无法从数据上判断是condition as a cause of treatment还是treatment as a cause of condition。
-
通过这个例子,也引出了这样一件重要的事情:统计学上的相关性并不意味着因果性。
-
相关性分析往往认为吃早餐与体重轻重密切相关,然而获得"吃早餐有助于减肥"结论却缺乏内在逻辑,实际上这两个事件可能只是相关性而非因果性,或许每天吃早餐的女孩子生活规律、健康饮食,最终让她们拥有轻盈苗条的体态。这种情况下拥有更好的生活方式是早餐和轻体重的共同原因。
-
上麦率(点击率、房内时长、关注率)和用户留存是相关的,但是我们无法判断:因为上麦率(各种转化率)高导致的用户留存高,还是因为能留存的用户他们的活跃本来就是高的?
为什么研究因果推断
-
相关性的主要来源有:因果(causation)、混淆(confounding)、样本选择偏差(selection bias),三类分别对应以下三种结构:
-
因果(causation)产生的相关,即因果关系,
-
是一种稳定的机制,不随环境变化而变化,也只有这种稳定的结构是可解释的。
-
例如,无论是在哪个国家,夏天时候天气变热(原因:T ),会导致冰淇淋的数量(结果:Y )上升。
-
混淆(confounding):存在一个变量X ,该变量构成了 T 和 Y 的共同原因,
-
如果忽略了X 的影响,那么T 和Y 之间存在假性相关关系:即T 并非产生Y 的直接原因。
-
例如,我们在夏天时候发现游泳溺水的人数增加,如果忽略了气温的影响,仅凭冰淇淋销量与溺水人数呈现出来的正向相关关系,则可能得出吃冰淇淋会导致游泳溺水的错误结论。
-
样本选择偏差(selection bias):当两个相互独立的变量 T 和 Y 产生了一个共同结果变量 S
-
引入S 则为T 和 Y 之间打开了一条通路,从而误以为T 和 Y 之间存在关联关系;
-
例如,有些基础好且勤奋的人考入重点高中,他们高考之后考入名校,那么在样本选择偏差的背景下,会产生重点高中的同学可以考名校;而现实的情况是自身的付出才是考取名校的主要因素。重点高中与考名校之间的关系次之。
-
当前的机器学习主要利用数据中的统计相关性进行建模, 利用好相关性能服务于绝大多数业务场景;
-
但是依赖统计相关的建模方式,存在着严重的理论缺陷:缺乏因果关系考虑;
-
仅从数据中学习到的相关性可能是错误的:
-
首先,利用相关性学习的模型,泛化能力和稳定性差,极易受到场景变化或数据中异常值的影响;
-
再者,过度依赖数据拟合的机器学习模型就像是一个黑盒子,缺乏可解释性;
-
大模型是目前相关性的极致,现在很多工作往大模型引入因果机制;
什么是因果推断
因果推断不是一个具体的算法,而是整套的统计框架,它可以跟各种模型进行衔接,比如跟经济学、心理学、统计学、机器学习的模型衔接;
因果推断是基于统计学方法刻画变量之间的因果关系。
因果关系存在三个层级:
第一层级(关联):从数据中观察到哪些相关规律?变量之间的关联是怎样的?是基于相关性的,是对历史数据的总结。
例如,购买牙膏的顾客同时购买牙线的可能性有多大?
第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现状。
例如,如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?
第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。
例如,聪明的老司机根据导航看到高速预计堵一个小时,于是选择了低速,结果发现用了两个小时,聪明的老司机反思,如果我不走低速是不是就到家了?
例如,现在我的头已经不痛了,是因为我吃了阿司匹林吗?假如我没有服用过阿司匹林会发生什么?
因为一个人(个体)不可能同时存在吃阿司匹林(干预)和不吃阿司匹林(未干预)的两种状态,所以与事实相反的那种状态就是反事实,因果模型可用于回答此类反事实问题。
因果关系之梯第三层级的典型问题是:“假如我当时……了会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世界的比较,仅靠干预实验无法回答这样的问题(没有条件了)。
因果关系之梯
目前大部分机器学习模型和深度学习模型还处在第一(部分二层级),仅仅实现了对历史数据的“曲线拟合”,回答的是相关性问题,相关性不等于因果性,这就导致解释性差。
机器学习无法回答反向因果关系(反事实)的问题,例如,如果我还是在高速上等而不是走了低速,会发生什么?
机器学习无法通过相关性预测来回答这些问题。
怎么进行因果推断
因果推断解决的两个主要问题是:因果关系发现和因果效应评估。
-
因果关系发现(Causal Discovery):研究变量两两之间是否有因果关系?如果有,谁是因谁是果?
例如,商品打折是否是销量增加的原因?或者在商品价格,商品转化率,商品上市时间,商品成本等几个变量之间探究一个因果图。
-
因果效应评估(Causal Effect Estimatation):研究“因”的改变能带来多少”果”的变化。
例如,在用户增长领域的发券补贴场景中,干预是发券,通过因果效应评估,我们可以得到发券比不发券带来的订单转化率的增加是多少。
Judea Pearl教授是计算机出身,他提出的框架是以图这种更直观的方法进行研究。
Donald Rubin教授是统计学出身,因此他提出的框架会以形式化的数学公式进行研究。
结构因果模型和潜在结果框架等价,潜在结果框架( Potential Outcome Framework )更适用于工业界的场景和问题
原文始发于微信公众号(风物长宜 AI):因果推断(Causal Inference)引言
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论