去评论
辅助岛

【每日一知】幸存者偏差

2712016074
2020/04/23 20:45:32
本帖最后由 2712016074 于 2020-4-23 20:48 编辑

简介:
幸存者偏差(Survivor bias)幸存者偏差,另译为“生存者偏差”或“存活者偏差”,是一种常见的逻辑谬误(“谬误”而不是“偏差”)
意思是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。这东西的别名有很多,比如“沉默的数据”、“死人不会说话”等等。

幸存者偏差的案例:
关于幸存者偏差(Survivorship Bias),有一个较知名的“飞机防护”案例。

1941年,第二次世界大战中,美国哥伦比亚大学统计学沃德教授(Abraham Wald)应军方要求,利用其在统计方面的专业知识来提供关于《飞机应该如何加强防护,才能降低被炮火击落的几率》的相关建议。沃德教授针对联军的轰炸机遭受攻击后的数据,进行研究后发现:机翼是最容易被击中的位置,机尾则是最少被击中的位置。沃德教授的结论是“我们应该强化机尾的防护”,而军方指挥官认为“应该加强机翼的防护,因为这是最容易被击中的位置”。沃德教授坚持认为:

(1)统计的样本,只涵盖平安返回的轰炸机;
(2)被多次击中机翼的轰炸机,似乎还是能够安全返航;
(3)而在机尾的位置,很少发现弹孔的原因并非真的不会中弹,而是一旦中弹,其安全返航的概率就微乎其微。军方采用了教授的建议,并且后来证实该决策是正确的,看不见的弹痕却最致命!

这个故事有两个启示:一是战死或被俘的飞行员无法发表意见,所以弹痕数据的来源本身就有严重的偏误;二是作战经验丰富的飞行员的专业意见也不一定能提升决策的质量,因为这些飞行员大多是机翼中弹而机尾未中弹的幸存者。

俗语“死人不会说话”很好地解释了这种偏差的重要成因。当我们分析问题所依赖信息全部或者大部分来自“显著的信息”,较少利用“不显著的信息”甚至彻底忽略“沉默的信息”,得到的结论与事实情况就可能存在巨大偏差。

解决方案(贝叶斯公式)

二战期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里。然而统计学家亚伯拉罕·瓦尔德(Abraham Wald)力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。事实证明,瓦尔德是正确的。
我们可以用贝叶斯公式来分析一下瓦尔德和众人的分歧出在什么地方,而谁的假设更为合理。设 X = 飞机的击中部位,Y = 1, 0 表示飞机是否返航。设空战中飞机的击中部位 X 的分布为 P(X),而返航飞机的 X 分布为条件分布 P(X|Y=1)。于是有

众人认为幸存飞机的击中部位分布 P(X|Y=1) 反映了空战中击中部位的分布 P(X),因此哪里弹痕多就要在哪里加强防护。但瓦尔德认为炮弹不长眼睛,空战中的 P(X) 应该是接近于均匀分布的。因此 P(X|Y=1) 恰恰是正比于 P(Y=1|X),即击中该部位 X 以后的返航概率。所以幸存飞机哪里中弹多,表明相应部位不是要害部位,而应该在返航概率 P(Y=1|X) 较小,亦即 P(X|Y=1) 较小的地方加强防护——正是幸存飞机中弹痕少的部位。
以上的贝叶斯公式还可以纠正一些 “成功学” 谬误。例如 Y = 1 代表成功者,往往受媒体关注多,而公众可能缺少 Y = 0 的数据。成功学常常寻找成功者具有的某些共同特征 X,得出 P(X|Y=1) 较大。比如牛顿被苹果砸中,比尔盖茨辍学了等等。但是普通人具有特征 X 的概率 P(X) 可能也不小。二者的比值 P(X|Y=1) / P(X) 才等于具有了特征 X 以后,成功的概率能提高多少倍。又例如用 Y = 1 代表得一种病,比如肺癌。而 X 代表该病的某种诱因,比如吸烟。那么根据贝叶斯公式,只要在肺癌患者中统计一下吸烟者的比例 P(X|Y=1),和普通人中的吸烟者比例 P(X) 比较一下,就能知道吸烟增加患肺癌风险的倍数。

对照实验
另一种避免幸存者偏差的办法是同时考察 Y = 1 和 Y = 0 的数据,采用对照实验的方法,比较实验组分布 P(X|Y=1) 和对照组分布 P(X|Y=0) 之间有没有显著性差异。通常采用双盲试验的方法进行研究,消除诸如安慰剂效应、混淆变量等干扰因素,详细、全面、客观地记录数据。分析数据时,采用统计学中的假设检验方法,在一定的显著性水平下确立 X 和 Y 的关系。如果只有实验组而没有对照组,得出的结论就可能带有 “幸存者偏差”。对照实验与统计学假设检验相结合的研究方法已经成为生物学、医学、心理学、社会学等诸多学科的研究范式。