在上一篇文章中,我们详细阐述了AB实验的概念与其价值,并结合美团的实际情况,探讨了AB实验中常见的挑战及建设经验。本篇作为可信实验白皮书系列的第二章,将重点讲解AB实验的理论原理及其背后的统计学基础。
本章目录
2.1 实验基础原理概述
2.2 AB实验统计学基础
2.3 常用实验术语
2.1 实验基础原理概述
AB实验原理源于统计学中经典的Rubin潜在结果模型(也称反事实因果推断框架)。考虑最简单的情况,当我们想要比较两个策略的差异以获得更优策略时。如图2-1所示,最理想的方案是面向同一拨用户或者全部用户,假设存在两个完全相同的平行时空,平行时空一中所有用户体验实验策略B,类似的平行时空二中所有用户体验对照策略A,那么直接对比2个平行空间用户行为指标表现,则可决定哪个策略胜出以及观测真实的平均实验效应。具体的,如果记分别为第个个体在实验策略B(平行空间一)以及对照策略A(平行空间二)下的指标表现,则显然可定义 Individual causal effects: ,以及策略真实平均提升效果:
然而,现实世界中不存在两个平行时空,针对同一用户,我们只能观察到其接受策略A或策略B下的一种表现。因此,现实世界中通常考虑先通过随机实验手段,将用户随机均匀地分为实验组和对照组2个足够相似的群体,并分别施加实验策略B以及对照策略A。
如图2.2所示,在这种随机分配下理论上实验组和对照组用户的平均表现(在数学期望意义下)可以分别代表2个平行时空下所有用户的平均表现,因此通过对比实验组、对照组间差异可以有效估计策略迭代带来的具体收益、风险与成本,帮助实验组精细成本收益,结合业务做出更为理性的决策。然而在单次实验中,尽管理论上实验组和对照组来自同一总体,但实际上每次随机分配下2组间业务指标通常存在一定的差异(样本量越多差异越小)。这种差异可以理解为由抽样机制或者是分组机制的随机性贡献,即每次随机分配下实验组、对照组个体未施加策略时的平均差异在真值0附近波动。为准确识别单次AB实验中两组差异观测值是由分组的随机波动还是真实策略效果贡献,通常需借助假设检验、置信区间等统计工具进行判断和论证(相关内容可参考2.2章节)。
-
个体处理稳定性假设(SUTVA):实验单元的行为结果不受到其他单元分组的影响,即实验单元间相对独立,不会因为直接关联(如社交网络)或者间接关联(如共享资源)而互相产生干扰或者溢出。SUTVA被破坏的典例包括:某打车App想要测试不同的溢价算法时,如果效果很好以至于实验组乘客更愿意打车,则路上可供搭乘的司机数量会减少,进而可能导致对照组难打上车,从而打车的对照乘客减少。又例如某通信工具上线增加通话时长的新功能时,如果实验组用户通话时长增加,而实验用户通话对象包括对照用户,从而也会提高对照组用户的通话时长。(信息源自:Ron Kohavi, Diane Tang, Ya Xu 著作《关键迭代--可信赖的线上对照实验》) -
分组随机性:实验单元进入实验组、对照组可完全由实验者随机分配,不受限于实验单元自身行为选择与表现。分组随机性破坏的案例包括例如在测试吃药是否对治疗感冒有效时,吃药行为可能完全由病人自行决定,且感冒更严重的人更加偏向于吃药,而不是随机选择。SUTVA假设以及分组随机性的破坏会导致实验组(对照组)平均表现并不代表平行空间一(平行空间二)——全部个体接受实验(对照)策略下的平均表现,因此对比实验群体与对照群体的表现不能准确反映策略的真实效果。需引入更高阶实验方法或因果推断技术来解决,详情请参阅后面章节。
2.2 AB实验统计学基础
| 2.2.1 参数估计
参数估计是数理统计中通过样本数据推断或估计总体未知参数的基本方法,在众多实际领域中被广泛应用。例如基于某批产品的随机抽样检查结果来估计总体废品率;又或者在AB实验中基于实验组、对照组样本表现差异去估计真实策略提升效果。大体而言,参数估计可划分为两大类:点估计和区间估计。
点估计(Point Estimation)
点估计,简而言之是使用样本数据计算一个单一的数值来估计总体参数。例如为了调查某批产品的废品率c,可以从该批产品中随机抽取n个产品进行检查,记a为检查产品中为废品的个数,则可考虑用a/n估计总体废品率c。常用的构造点估计的方法包括矩估计、极大似然估计、贝叶斯估计等,在此不详细展开介绍。点估计作为明确告知“未知参数是多少”的基本手段,那么现实中怎么评估点估计准不准?进一步的对于同一参数,不同估计方法求出的估计量可能不一样,那么如何判断不同的估计量之间的优劣。相合性、无偏性和有效性是常用的3个标准。相合性指当样本量无限增加时,点估计值趋近于总体参数值,即大样本下估计量能够准确反映总体参数。无偏性指从样本中得到的估计量的期望与总体参数相等,而有效性则指在样本量相同情况下,点估计A方差<点估计B方差则代表估计量A更有效。实际上如果不失一般性,记为参数的点估计,那么估计量与总体参数真实值的均方误差MSE(Mean Squared Error)可以拆解为偏差的平方与方差。其中偏差:
从上式中不难看出一个好的估计需要满足无偏性或者渐进无偏性,即偏差Bias等于0或者随着样本量增加趋于0。与此同时在无偏条件下方差越小则点估计与参数真值越接近。通常而言,基于极大似然估计等方法构造的点估计的方差项Var通常以1/n阶速度趋于0,其中n为样本量。
回到AB实验,实验者通常感兴趣策略总体提升效果ATE,旨在通过实验收集样本构造 ATE的点估计。在SUTVA假设成立的随机对照实验下直接对比实验组、对照组表现的点估计满足相合性和无偏性/渐进无偏性,并且随着样本量的增长点估计值趋近于总体参数值,因为方差(抽样/分组随机性贡献)随着样本量增加也趋向于0。然而对于SUTVA假设以及分组随机性的破坏,会导致偏差Bias存在或者说不收敛到0。因此此时需要一些复杂实验设计、建模分析与因果推断技术着重消除、避免偏差项,从而保证点估计的准确性。
置信区间(Confidence Interval)
对于总体的未知参数,在有限样本下点估计总存在一定的波动或误差,一个取而代之的自然想法为:兼顾波动性考虑估计参数落在哪个区间范围内,这便是统计学中经典的置信区间模块。置信区间顾名思义指的是总体参数的一个区间估计,以95%置信区间[a,b]为例,其表明区间[a,b]包含参数真值的概率在95%左右。例如假设我们要估计某城市中所有居民的平均收入。我们从这个城市中随机抽取了一部分样本,并计算了95%的置信区间结果为[5000元, 7000元]。这意味着我们有95%的信心认为,整个城市中所有居民的平均收入在5000元到7000元之间。又例如在对比新App页面设计与旧页面设计AB实验中,考虑到单次实验下随机分组波动性,转化率提升值点估计0.03与真实效果理论值存在一定的波动,此时可进一步参考95%置信区间估计[−0.00136,0.06136],即判断置信区间[−0.00136,0.06136]包含真实策略效果理论值的把握在95%以上,或者说有95%以上信心判断真实提升效果在−0.00136~0.06136之间。通常而言在置信水平固定情况下区间长度越短越好,学业界最经典的95%置信区间构造方式为,即在点估计基础上增加一个波动范围。从置信区间构造形式上也不难看出随着样本量的不断增加,置信区间变得越来越窄并收敛到参数真值点。
| 2.2.2 假设检验
假设检验(Hypothesis testing)是统计学中用数据论证某假设是否成立的方法,在工程、医学、社会科学等多个领域广泛应用。假设检验本质可理解为反证法,有点类似于法庭的评理,想象法庭上有一名被告,在开始无信息时假设被告是清白的(原假设),而检察官必须要提出足够的证据去证明被告的确有罪。如果没有足够的信息和证据证明被告有罪,那么判定原假设:被告清白成立。除非检察官提供足够的证据才判定被告有罪。统计学家Fisher提过一个女士品茶的假设检验著名例子,一名女士声称其可以品尝出奶茶制作过程中是先加入茶还是先加入牛奶。Fisher提议给她八杯奶茶,并告知其中四杯先加茶,四杯先加牛奶,但随机排列,需要女士说出这八杯奶茶中,哪些先加牛奶,哪些先加茶。原假设是该女士无法判断奶茶中的茶先加入还是牛奶先加入,根据猜中的次数判断该假设是否成立。结果女士测试结果为八杯品尝都正确。在原假设下若单纯以概率考虑,八杯都正确的概率为1/70(因为8选4的组合数是70),约1.43%,即原假设成立下统计上完全猜对可能性极小,单次测试基本上不会发生,即几乎排除女士完全盲猜正确的可能,因此我们有理由去拒绝“该女士无法判断奶茶中的茶先加入还是牛奶先加入”的假设。
类似的,假设检验在AB实验中通常被作为基本工具论证新策略是否相对旧策略会带来业务收益。例如当测试一个新的App广告设计是否能提高用户点击率时,通常原假设新策略相对旧策略无效,然后收集现有证据--样本数据去论证实验组和对照组之间是否具有显著的差异,如果拥有足够证据——实验组对照组差异很大(这在新策略无效下基本上不太可能出现),则推翻“新策略相对旧策略无效”的假设,否则认为在现有证据——样本信息下接受原假设成立,除非收集更多证据(样本数据)再“重新开庭论证”。一个完整的假设检验主要包括以下几个步骤:
1. 提出假设
-
原假设(Null Hypothesis,通常选择为默认结论或者需推翻的结论)H0:实验组与对照组无差异,表示策略无效果。 -
备择假设(Alternative Hypothesis,通常为想被证明的结论)H1:实验组与对照组有差异,也可考虑单边备择假设H1:实验组>对照组,或者H1:实验组<对照组。但在AB实验中为同时兼顾收益和风险通常默认选择双边备择假设。
2. 选择显著性水平
显著性水平(α)指能容忍的犯第一类错误的概率,其中第一类错误是指在原假设为真时,拒绝原假设的犯错,又称假阳性。显著性水平是人为定义或指定的概率值,学业界常见的显著性水平为0.05。
3. 构造检验统计量
根据样本数据和假设类型,选择合适的检验统计量,AB实验中最常用的方式为双样本t检验。例如在探索某策略是否会带来单量增长时,按用户随机对照试验可考虑构造检验统计量:
其中方差计算常用算法包括Delta方法、Bootstrap、Jackknife方法等,当然检验方式也包括参数检验、非参数检验等。
4. 计算拒绝域和p值
拒绝域是指在假设检验中拒绝原假设的检验统计量的取值范围,其通常依赖于显著性水平等。尽管可通过判断检验统计量观测值是否落在拒绝域决策拒绝/接受原假设,假设检验实际应用中通常考虑一个更常用的标准——P值。P值表示在原假设为真时,比所得到的统计量观察结果更极端的概率。其计算逻辑为先推导出在原假设H0成立条件下检验统计量的概率分布(在AB实验场景可以想象为,在策略无效场景下,假设允许做无数次实验,每次实验独立执行分组机制,并且得到一个检验统计量,基于若干次实验得到的若干个检验统计量观测值画图,即得到H0下且在对应实验分组机制下的检验统计量的概率分布。现实中可通过一些极限理论等统计定理性质来基本近似获得原假设H0成立条件下检验统计量的概率分布),然后再计算观察到比当前样本下检验统计量观测值更极端的概率,直观上也可理解为在原假设成立情况下,出现当前观测值及更极端场景的概率,如果很小则意味着原假设成立下单次实验不太能出现的小概率事件发生了,需质疑甚至拒绝原假设。
5. 作出决策
假设检验的核心思想反证法,理论上小概率事件在一次实验中几乎不可能发生,如果发生了则说明原假设不合理。因此可通过比较p值与显著性水平α:
-
如果p值 ≤ α,拒绝原假设,支持备择假设。 -
如果p值 > α,接受原假设,拒绝备择假设。
| 2.2.3 极限理论
极限理论是假设检验与置信区间等过程中构建统计量分布的理论基础,是统计学中一个庞大且内容丰富的关键模块。由于主题和篇幅的限制,本白皮书将不对其进行深入探讨,仅简要介绍几个常用的原理。读者也可选择跳过本部分内容。
大数定律(Strong Law of Large Numbers):假设是一组独立同分布的随机变量,每个变量的期望值为且方差有限。根据强大数定律,当样本量趋于无穷大时,样本均值几乎必然收敛于总体均值:
其中:是样本均值,a.s.表示几乎处处收敛(almost sure convergence),是总体均值。强大数定律描述了独立同分布随机变量的样本均值几乎必然收敛于总体均值的现象。
中心极限定理(Lindeberg-Levy Central Limit Theorem):假设是一组独立同分布的随机变量,每个变量的期望值为和方差为。则当趋于无穷大时,样本均值的标准化形式收敛于标准正态分布:
其中:是样本均值,表示均值为0,方差为1的标准正态分布。上述中心极限定理表明样本量足够大时,样本均值的分布可以近似为正态分布,即使原始数据的分布不是正态的。
其中:是函数在处的导数。是的方差。该结论同样可推广到多元场景:假设我们有一个-维随机向量:
其均值为,并且的分布收敛于一个正态分布。对于一个可微的向量值函数,Delta方法的多元版本可以表示为:
其中:是一个从到的可微函数。是在处的雅可比矩阵(Jacobian matrix),其元素为。是的协方差矩阵。是-维零向量。
Slutsky定理:Slutsky定理是概率论和统计学中的一个重要定理,它描述了在某些条件下随机变量的极限行为。下面仅简单介绍涉及的以下三种情况:
1. 和的极限
如果(即分布收敛于),并且(即以概率收敛于常数),那么。
2. 积的极限
如果并且,那么。
3. 商的极限
如果并且,那么。
其中分布收敛指的是随机变量的分布函数收敛于某个极限分布函数。概率收敛指的是随机变量依概率收敛于某个常数。
2.3 常用实验术语
写在后面
后续,我们将在美团技术团队微信公众号上陆续推出第3章节~第8章节的内容,敬请期待。如果大家发现问题,或者有一些建议,也欢迎在文末留言,跟我们进行交流。
---------- END ----------
原文始发于微信公众号(美团技术团队):可信实验白皮书系列02:AB实验基础
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论