168大数据

标题: 数据分析陷阱:辛普森悖论 and 安斯库姆四重奏 [打印本页]

作者: 乔帮主    时间: 2014-10-29 20:56
标题: 数据分析陷阱:辛普森悖论 and 安斯库姆四重奏
1.辛普森悖论
WIKI原始连接:http://zh.wikipedia.org/wiki/%E8 ... E%E6%82%96%E8%AE%BA
当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论。
请看下面的例子
一所美国高校的两个学院,分别是法学院和商学院。新学期招生,人们怀疑这两个学院有性别歧视。现作如下统计:

法学院
性别
录取拒收总数录取比例
男生
8
45
53
15.1%
女生
51
101
152
33.6%
合计
59
146
205


商学院
性别录取拒收总数录取比例
男生
201
50
251
80.1%
女生
92
9
101
91.1%
合计
293
59
352


根据上面两个表格来看,女生在两个学院都被优先录取,即女生的录取比率较高。现在将两学院的数据汇总:
性别录取拒收总数录取比例
男生
209
95
304
68.8%
女生
143
110
253
56.5%
合计
352
205
557


在总评中,女生的录取比率反而比男生低。


女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生


借助一幅向量图可以更好的了解情况(右图)
这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。
就上述例子说,导致辛普森悖论有两个前提。
为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时,我们必需清楚了解情况,以综合考虑是否存在造成此悖论的潜在因素。

2. 安斯库姆四重奏
wiki连接:http://zh.wikipedia.org/wiki/%E5 ... B%E9%87%8D%E5%A5%8F
安斯库姆四重奏(Anscombe's quartet)是四组基本的统计特性一致的数据,但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造,他的目的是用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。
这四组数据的共同统计特性如下:
性质数值
x的平均数
9
x的方差
11
y的平均数
7.50(精确到小数点后两位)
y的方差
4.122或4.127(精确到小数点后三位)
xy之间的相关系数
0.816(精确到小数点后三位)
线性回归线
(分别精确到小数点后两位和三位)

在四幅图中,由第一组数据绘制的图表(左上图)是看起来最“正常”的,可以看出两个随机变量之间的相关性。从第二组数据的图表(右上图)则可以明显地看出两个随机变量间的关系是非线性的。第三组中(左下图),虽然存在着线性关系,但由于一个离群值的存在,改变了线性回归线,也使得相关系数从1降至0.81。最后,在第四个例子中(右下图),尽管两个随机变量间没有线性关系,但仅仅由于一个离群值的存在就使得相关系数变得很高。
爱德华·塔夫特(Edward Tufte)在他所著的《图表设计的现代主义革命》(The Visual Display of Quantitative Information)一书的第一页中,就使用安斯库姆四重奏来说明绘制数据图表的重要性。
四组数据的具体取值如下所示。其中前三组数据的x值都相同。
安斯库姆四重奏
参考文献

外部链接

来源:www.guzili.com







欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2