马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
1.辛普森悖论 当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。 请看下面的例子 一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:
法学院 性别 | 录取 | 拒收 | 总数 | 录取比例 | 男生 | 8 | 45 | 53 | 15.1% | 女生 | 51 | 101 | 152 | 33.6% | 合计 | 59 | 146 | 205 |
|
商学院 性别 | 录取 | 拒收 | 总数 | 录取比例 | 男生 | 201 | 50 | 251 | 80.1% | 女生 | 92 | 9 | 101 | 91.1% | 合计 | 293 | 59 | 352 |
|
根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总: 性别 | 录取 | 拒收 | 总数 | 录取比例 | 男生 | 209 | 95 | 304 | 68.8% | 女生 | 143 | 110 | 253 | 56.5% | 合计 | 352 | 205 | 557 |
|
在总评中,女生的录取比率反而比男生低。 女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生
借助一幅向量图可以更好的了解情况(右图) 这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。 就上述例子说,导致辛普森悖论有两个前提。 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更高的拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生,使得最后汇总的时候,男生在数量上反而占优。 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人误认为这是由性别差异而造成的。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。
2. 安斯库姆四重奏
安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。 这四组数据的共同统计特性如下: 性质 | 数值 | x的平均数 | 9 | x的方差 | 11 | y的平均数 | 7.50(精确到小数点后两位) | y的方差 | 4.122或4.127(精确到小数点后三位) | x与y之间的相关系数 | 0.816(精确到小数点后三位) | 线性回归线 | (分别精确到小数点后两位和三位) |
在四幅图中,由第一组数据绘制的图表(左上图)是看起来最“正常”的,可以看出两个随机变量之间的相关性。从第二组数据的图表(右上图)则可以明显地看出两个随机变量间的关系是非线性的。第三组中(左下图),虽然存在着线性关系,但由于一个离群值的存在,改变了线性回归线,也使得相关系数从1降至0.81。最后,在第四个例子中(右下图),尽管两个随机变量间没有线性关系,但仅仅由于一个离群值的存在就使得相关系数变得很高。 爱德华·塔夫特(Edward Tufte)在他所著的《图表设计的现代主义革命》(The Visual Display of Quantitative Information)一书的第一页中,就使用安斯库姆四重奏来说明绘制数据图表的重要性。 四组数据的具体取值如下所示。其中前三组数据的x值都相同。 安斯库姆四重奏
参考文献 F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21. Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press.ISBN 0961392142 Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254. doi:10.1198/000313007X220057
外部链接
Department of Physics, University of Toronto Curve fitting, Central Queensland University, Australia Practice Problems, Linear Regression, The Physics Hypertextbook (See practice problem 4.)
|