因果推断(Causal Inference)引言

admin 2025年5月15日14:23:24评论4 views字数 3780阅读12分36秒阅读模式
因果推断(Causal Inference)引言

辛普森悖论(Simpson's paradox)

两个例子

  • 例子一:阿伟罗和梅老板谁是最伟大的球员

进球数

射门数

进球率

梅西

禁区内

11

20

55%

禁区外

1

3

33%

C罗

禁区内

4

7

57.14%

禁区外

8

17

47.06%

  • 从上表的数据看,无论是禁区内还是禁区外,C罗的进球率都是高于梅西的,为什么金球奖给了梅西?

  • 我们忽略射门方式再来看一下他们的进球率:

进球数

射门数

进球率

梅西

汇总

12

23

52.17%

C罗

汇总

12

24

50%

  • 梅西进球率 > C罗的进球率, 但是在每一个单项上确实C罗更好,这不科学啊!

因果推断(Causal Inference)引言

  • 例子二: 在业务场景上是否有这种情况:

    • 假设我们在线上做AB实验(投放了两个买量策略,两种运营扶持策略)

    • 实验B的付费率高于实验A, 实验B真的比实验A效果更好吗?

付费人数

用户人数

付费率

实验A

汇总

273

350

78%

实验B

汇总

289

350

83%

  • 我们看一下实验A和实验B在上海和北京的付费率情况;

付费人数

用户人数

付费率

实验A

   上海

81

87

93%

   北京

192

263

73%

实验B

   上海

234

270

87%

   北京

55

88

69%

  • 数据是一个有力的武器,它既能被用来澄清现实,也能被用来混淆是非

    • 我们经常用数据相关性来做分析,以下数据和图表是为了方便大家理解,并不是我们的真实数据和真实场景

    • 假设我们产品上线了一个活动页,用户的点击次数和留存的关系如下;

    • 基于大家的业务认知,这个活动页对用户的留存是有比较明显的带动作用,点击次数越高留存越高;

因果推断(Causal Inference)引言

  • 有没有隐藏风险? 在进行相关性分析的时候,遗漏了关键的维度;

  • 客户端的用户,活跃度是不一样的,有高活用户、中活用户、低活用户,而不同活跃度的用户,数据表现相差很远;

  • 假设我们划分不同的用户群体来看效果,会得到完全相反的结论;

因果推断(Causal Inference)引言

文字化描述

  • 辛普森悖论:A的每一分项的数据都比B要高,但是把各分项一汇总起来算总体数据时,A却比B低。

  • 辛普森悖论一般是从总体拆分到细分项维度的时候发现的,因为你选择了这个(关键)维度做拆分进而触发辛普森悖论。

  • 在数据分析中,决策容易犯的错误:遗漏了关键的维度;

  • 辛普森悖论可以归纳为:在增加了维度后使得数据结论反转的现象,均可称为是辛普森悖论现象

形式化描述

因果推断(Causal Inference)引言

因果推断(Causal Inference)引言

  • 需要满足一定的数字特征才能触发,  这里我不想去介绍什么数值条件下触发辛普森悖论,会让大家陷在数学论证中忽略了本文的重点;

  • 本篇文章只是想借助辛普森悖论引出因果推断(Causal Inference);

因果推断

相关性不意味着因果(Correlation & Causation)

  • 从辛普森悖论看相关和因果, 一个真实的数据 

    • 轻症组和重症组,都是B方案的死亡率更低,然而合在一起,A方案的死亡率更低

    • 如何评价A和B的优劣,

死亡人数

治疗人数

死亡率

治疗方案A

汇总

240

1500

16%

治疗方案B

汇总

105

550

19%

死亡人数

治疗人数

死亡率

治疗方案A

轻症病人

210

1400

15%

重症病人

30

100

30%

治疗方案B

轻症病人

5

50

10%

重症病人

100

500

20%

  • 不同的人对以上数据的解释:

    • 医生根据病人的症状分配不同的方案,对于重症的病人使用更为稀缺的医疗资源(方案B)进行救助。

    • 重症患者的死亡率更高,而总体来看方案B的死亡率更高是因为使用方案B的重症病人更多

    • 在这种情况下,方案B是更好的选择。我们可以将这种情况的因果图画出,可以看到,病人的条件导致了方案的选取(condition as a cause of treatment

    • 解释一:

因果推断(Causal Inference)引言

  • 解释二:

    • 方案B需要等待的时间更长,采用方案B的一部分病人从轻症变为了重症,导致更坏的结果。

    • 显然,此时方案A是更好的选择。

    • 从因果图可以看出,方案的选择导致了病人条件的变化(treatment as a cause of condition

因果推断(Causal Inference)引言

  • 在不知道数据底层的因果结构时,我们很容易被表面上的数据所欺骗。辛普森悖论的产生,根源在于我们无法从数据上判断是condition as a cause of treatment还是treatment as a cause of condition

  • 通过这个例子,也引出了这样一件重要的事情:统计学上的相关性并不意味着因果性

    • 相关性分析往往认为吃早餐与体重轻重密切相关,然而获得"吃早餐有助于减肥"结论却缺乏内在逻辑,实际上这两个事件可能只是相关性而非因果性,或许每天吃早餐的女孩子生活规律、健康饮食,最终让她们拥有轻盈苗条的体态。这种情况下拥有更好的生活方式是早餐和轻体重的共同原因。

    • 上麦率(点击率、房内时长、关注率)和用户留存是相关的,但是我们无法判断:因为上麦率(各种转化率)高导致的用户留存高,还是因为能留存的用户他们的活跃本来就是高的?

为什么研究因果推断

  • 相关性的主要来源有:因果(causation)、混淆(confounding)、样本选择偏差(selection bias),三类分别对应以下三种结构:

因果推断(Causal Inference)引言

  • 因果(causation)产生的相关,即因果关系,

    • 是一种稳定的机制,不随环境变化而变化,也只有这种稳定的结构是可解释的。

    • 例如,无论是在哪个国家,夏天时候天气变热(原因:T ),会导致冰淇淋的数量(结果:Y )上升。

  • 混淆(confounding):存在一个变量X ,该变量构成了 T 和 Y 的共同原因,

    • 如果忽略了X 的影响,那么T 和Y 之间存在假性相关关系:即T 并非产生Y 的直接原因。

    • 例如,我们在夏天时候发现游泳溺水的人数增加,如果忽略了气温的影响,仅凭冰淇淋销量与溺水人数呈现出来的正向相关关系,则可能得出吃冰淇淋会导致游泳溺水的错误结论。

因果推断(Causal Inference)引言

  • 样本选择偏差(selection bias):当两个相互独立的变量 T 和 Y 产生了一个共同结果变量 S

    • 引入S 则为T 和 Y 之间打开了一条通路,从而误以为T 和 Y 之间存在关联关系;

    • 例如,有些基础好且勤奋的人考入重点高中,他们高考之后考入名校,那么在样本选择偏差的背景下,会产生重点高中的同学可以考名校;而现实的情况是自身的付出才是考取名校的主要因素。重点高中与考名校之间的关系次之。

因果推断(Causal Inference)引言

  • 当前的机器学习主要利用数据中的统计相关性进行建模, 利用好相关性能服务于绝大多数业务场景

  • 但是依赖统计相关的建模方式,存在着严重的理论缺陷:缺乏因果关系考虑;

  • 仅从数据中学习到的相关性可能是错误的:

    • 首先,利用相关性学习的模型,泛化能力和稳定性差,极易受到场景变化或数据中异常值的影响;

    • 再者,过度依赖数据拟合的机器学习模型就像是一个黑盒子,缺乏可解释性;

  • 大模型是目前相关性的极致,现在很多工作往大模型引入因果机制;

什么是因果推断

因果推断不是一个具体的算法,而是整套的统计框架,它可以跟各种模型进行衔接,比如跟经济学、心理学、统计学、机器学习的模型衔接;

因果推断是基于统计学方法刻画变量之间的因果关系。

因果关系存在三个层级

第一层级(关联):从数据中观察到哪些相关规律?变量之间的关联是怎样的?是基于相关性的,是对历史数据的总结。

例如,购买牙膏的顾客同时购买牙线的可能性有多大?

第二层级(干预):如果采取某个行动,会产生什么结果?是面向未来的推测。干预比关联更高级,因为它不仅涉及被动观察,还涉及主动改变现状。

例如,如果我们把牙膏的价格翻倍,牙线的销售额将会怎么样?

第三层级(反事实):如果当时采取了另外一个行动,结果会是怎样?是面向过去的反思。

例如,聪明的老司机根据导航看到高速预计堵一个小时,于是选择了低速,结果发现用了两个小时,聪明的老司机反思,如果我不走低速是不是就到家了?

例如,现在我的头已经不痛了,是因为我吃了阿司匹林吗?假如我没有服用过阿司匹林会发生什么?

因为一个人(个体)不可能同时存在吃阿司匹林(干预)和不吃阿司匹林(未干预)的两种状态,所以与事实相反的那种状态就是反事实,因果模型可用于回答此类反事实问题。

因果关系之梯第三层级的典型问题是:“假如我当时……了会怎样?”和“为什么?”两者都涉及观察到的世界与反事实世界的比较,仅靠干预实验无法回答这样的问题(没有条件了)。

因果推断(Causal Inference)引言因果关系之梯

目前大部分机器学习模型和深度学习模型还处在第一(部分二层级),仅仅实现了对历史数据的“曲线拟合”,回答的是相关性问题,相关性不等于因果性,这就导致解释性差。

机器学习无法回答反向因果关系(反事实)的问题,例如,如果我还是在高速上等而不是走了低速,会发生什么?

机器学习无法通过相关性预测来回答这些问题。

怎么进行因果推断

因果推断解决的两个主要问题是:因果关系发现和因果效应评估。

  • 因果关系发现(Causal Discovery):研究变量两两之间是否有因果关系?如果有,谁是因谁是果?

例如,商品打折是否是销量增加的原因?或者在商品价格,商品转化率,商品上市时间,商品成本等几个变量之间探究一个因果图。

  • 因果效应评估(Causal Effect Estimatation):研究“因”的改变能带来多少”果”的变化。

例如,在用户增长领域的发券补贴场景中,干预是发券,通过因果效应评估,我们可以得到发券比不发券带来的订单转化率的增加是多少。

因果推断(Causal Inference)引言

Judea Pearl教授是计算机出身,他提出的框架是以这种更直观的方法进行研究。

Donald Rubin教授是统计学出身,因此他提出的框架会以形式化的数学公式进行研究。

结构因果模型和潜在结果框架等价,潜在结果框架( Potential Outcome Framework )更适用于工业界的场景和问题

原文始发于微信公众号(风物长宜 AI):因果推断(Causal Inference)引言

免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2025年5月15日14:23:24
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   因果推断(Causal Inference)引言https://cn-sec.com/archives/4067576.html
                  免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉.

发表评论

匿名网友 填写信息