168大数据

标题: 数据分析陷阱：辛普森悖论 and 安斯库姆四重奏 [打印本页]

作者: 乔帮主 时间: 2014-10-29 20:56
标题: 数据分析陷阱：辛普森悖论 and 安斯库姆四重奏

1.辛普森悖论

WIKI原始连接：http://zh.wikipedia.org/wiki/%E8 ... E%E6%82%96%E8%AE%BA

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论，但一直到1951年，E.H.辛普森在他发表的论文中阐述此一现象后，该现象才算正式被描述解释。后来就以他的名字命名此悖论，即辛普森悖论。

请看下面的例子

一所美国高校的两个学院，分别是法学院和商学院。新学期招生，人们怀疑这两个学院有性别歧视。现作如下统计：

法学院

性别	录取	拒收	总数	录取比例
男生	8	45	53	15.1%
女生	51	101	152	33.6%
合计	59	146	205

商学院

性别	录取	拒收	总数	录取比例
男生	201	50	251	80.1%
女生	92	9	101	91.1%
合计	293	59	352

根据上面两个表格来看，女生在两个学院都被优先录取，即女生的录取比率较高。现在将两学院的数据汇总：

性别	录取	拒收	总数	录取比例
男生	209	95	304	68.8%
女生	143	110	253	56.5%
合计	352	205	557

在总评中，女生的录取比率反而比男生低。

女生单独两个矢量斜率都比男生大，说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

借助一幅向量图可以更好的了解情况（右图）

这个例子说明，简单的将分组数据相加汇总，是不能反映真实情况的。

就上述例子说，导致辛普森悖论有两个前提。

两个分组的录取率相差很大，就是说法学院录取率很低，而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院，相反，男性申请者大部分分布于商学院。结果在数量上来说，拒收率高的法学院拒收了很多的女生，男生虽然有更高的拒收率，但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生，使得最后汇总的时候，男生在数量上反而占优。
有潜在因素影响着录取情况。就是说，性别并非是录取率高低的唯一因素，甚至可能是毫无影响的。至于在学院中出现的比率差，可能是随机事件。又或者是其他因素作用，比如入学成绩，却刚好出现这种录取比例，使人误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现，就需要斟酌各分组的权重，并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时，我们必需清楚了解情况，以综合考虑是否存在造成此悖论的潜在因素。

2. 安斯库姆四重奏

wiki连接：http://zh.wikipedia.org/wiki/%E5 ... B%E9%87%8D%E5%A5%8F

安斯库姆四重奏（Anscombe's quartet）是四组基本的统计特性一致的数据，但由它们绘制出的图表则截然不同。每一组数据都包括了11个(x,y)点。这四组数据由统计学家弗朗西斯·安斯库姆（Francis Anscombe）于1973年构造，他的目的是用来说明在分析数据前先绘制图表的重要性，以及离群值对统计的影响之大。

这四组数据的共同统计特性如下：

性质	数值
x的平均数	9
x的方差	11
y的平均数	7.50（精确到小数点后两位）
y的方差	4.122或4.127（精确到小数点后三位）
x与y之间的相关系数	0.816（精确到小数点后三位）
线性回归线	（分别精确到小数点后两位和三位）

在四幅图中，由第一组数据绘制的图表（左上图）是看起来最“正常”的，可以看出两个随机变量之间的相关性。从第二组数据的图表（右上图）则可以明显地看出两个随机变量间的关系是非线性的。第三组中（左下图），虽然存在着线性关系，但由于一个离群值的存在，改变了线性回归线，也使得相关系数从1降至0.81。最后，在第四个例子中（右下图），尽管两个随机变量间没有线性关系，但仅仅由于一个离群值的存在就使得相关系数变得很高。

爱德华·塔夫特（Edward Tufte）在他所著的《图表设计的现代主义革命》（The Visual Display of Quantitative Information）一书的第一页中，就使用安斯库姆四重奏来说明绘制数据图表的重要性。

四组数据的具体取值如下所示。其中前三组数据的x值都相同。

安斯库姆四重奏

参考文献

F.J. Anscombe, "Graphs in Statistical Analysis," American Statistician, 27 (February 1973), 17-21.
Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd Edition, Cheshire, CT: Graphics Press.ISBN 0961392142
Sangit Chatterjee and Aykut Firat (2007). "Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset", American Statistician, 61(3), 248-254. doi:10.1198/000313007X220057

外部链接

Department of Physics, University of Toronto
Curve fitting, Central Queensland University, Australia
Practice Problems, Linear Regression, The Physics Hypertextbook (See practice problem 4.）

来源：www.guzili.com

欢迎光临 168大数据 (http://www.bi168.cn/)