最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

新手必看!统计学知识大梳理(附框架图&公式)

[复制链接]
发表于 2020-3-4 17:36:59 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

本文内容为对统计学和几率论常识的了解的归纳。

前言

品德经云:“道生一,一生二,二生三,三生万物”。学习常识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出全部常识体例 体制。

笔者结合本身对统计学和几率论常识的了解写了这篇文章,有以下几个目的;

目的一:构建出可以让人了解的常识架构,让读者对这个常识体例 体制一览无余

目的二:尽可能论述每一个常识在数据分析任务中的使用场景及界限条件

目的三:为读者搭建从“实际”到“实践"的桥梁

留心:本文不涉及对概念及办法公式的推导,读者有喜好可以自行查阅《几率与统计》

概述

你的“对象” 是谁?

此对象非彼“对象”,我们学习“几率和统计学”目的在于应用到关于“对象”的研究中,笔者将我们要研究的“对象”依照维度分为了两大类。



一维:就是此刻摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的常识往研究这类对象。

二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过往是不是发作,此刻是可以会出现几种状况,每种状况将来发作的可以性有多大?这类标题问题是属于几率论的范围。

因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范围,然后在按着这个分支检索本身该用到的常识或办法来解决标题问题。

分析就像在给 “爱人” 画肖像

从外不雅的角度描绘一个姑娘,通常为面容怎么样?身段怎么样?两个维度往描绘。就像画一幅肖像画,我们的研究“对象”在描绘性分析中也是通过两个维度往来描绘即,“集中趋向---代表值”,“分散和水平”。



看到这几个概念是不是是就很熟习了?笔者认为一个描绘性的分析就是从这两个维度来讲清晰你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常常使用的概念“均值”,“方差”之类的。下面我们进进正题,笔者将具体论述全部常识架构。

第一局部

对“数据”的描绘性分析



数据分析中最常规的状况,比如你手上有一组,一批或许一坨数据,数据分析的进程就是通过“描绘”从这些数据中猎取的信息,通常可以从两个维度往描绘:

1.集中趋向量度:为这批数据寻到它们的“代表”

均值(μ)



均值的局限性

均值是最常常使用的均匀数之一,但是它的局限性在于“若用均值描绘的数据中存在异常值的状况,会发作偏向” ;例如下面一组数据就不太适实用均值来代表

这5团体的年龄均值是:31.2岁



很明显,在这组数据中,大局部人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描绘他们的年龄是31.2岁,很明显用均值作为描绘这组数据是不相宜的,那末我们该如何准确的表征这组数据呢???

中位数

中位数,又称中点数,中值。是按递次布列的一组数据中居于旁边位置的数。

中位数的局限



回到上一个例子,若用中位数来表征这组数据的均匀年龄,就变得加倍合理,中位数15。

那末我们在看一下下面一组数据,中位数的暗示又如何?



中位数:45

这组数据的中位数为:45,但是中位数45其实不克不及代表这组数据。

因为这组数据分为两批,两批的差别很大。那末如何措置这类数据呢?接下来介绍第三位均匀数。

众数

众数是样本不雅测值在频数散布表中频数最多的那一组的组中值。

均匀数可以表征一批数据的典型值,但是仅凭均匀数还不克不及给我们提供足够的信息,均匀数无法表征一组数据的分散水平。

2.分散性与变异性的量度

(全距,迷你距,四分位数,标准差,标准分)

全距=max-min

全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于胸怀数据的分散水平。

全距的局限性

全距虽然求解便利快捷,但是它的局限性在于“若数据中存在异常值的状况,会发作偏向。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增多了一个异常值,两组数据的全距发作了宏大的差别。

四分位数

所有不雅测值从小到大排序后四等分,处于三个分开点位置的数值就是四分位数:Q1,Q2和Q3。

Q1:第一四分位数 (Q1),又称“较小四分位数”,即是该样本中所稀有值由小到大布列后第25%的数字。

Q2:第二四分位数 (Q2),又称“中位数”,即是该样本中所稀有值由小到大布列后第50%的数字。

Q3:第三四分位数 (Q3),又称“较大四分位数”,即是该样本中所稀有值由小到大布列后第75%的数字。

迷你距 也叫“四分位距”

迷你距。它是一组数据中较小四分位数与较大四分位数之差。

即:迷你距= 上四分位数 - 下四分位数

迷你距可以反映旁边50%的数据,假如出现了极大或微小的异常值,将会被扫除在中央数据50%之外。因此使用迷你距可以剔除数据中异常值。

全距,四分位距,箱形图可以表征一组数据极大和微小值之间的差值跨度,必定水平上反响了数据的分散水平,但是却无法精准的通知我们,这些数值具体出现的频率,那末我们该如何表征呢?

我们胸怀每批数据中数值的“变异”水平时,可以通过不雅察每一个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异水平的概念。

方差

方差是胸怀数据分散性的一种办法,是数值与均值的距离的平方数的均匀值。



标准差

标准差为方差的开方。



通过方差和标准差我们此刻可以表征一组数据的数值的变异水平。那末关于拥有不同均值和不同标准差的多个数据集我们如何比拟呢?

标准分——表征了距离均值的标准差的个数



标准分为我们提供了解决办法,当比拟均值和标准差各不不异的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后举行比拟。标准分将把每一个数据集转化为通用的散布形态,举行比拟。

标准分还有个主要的作用,它可以把正态散布变成标准正态散布,后文会有介绍。

第一局部小节

  • 描绘一批数据,通过集中趋向分析,寻出其“代表值” ;通过火散和变异性的描绘,查验 反省这批数据的分散水平。
  • 集中趋向参数:均值,中位数,众数。
  • 分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分。

第二局部

关于“事件”的研究分析

几率论

1.一个事件的状况

为了让读者更好了解,笔者几率论中最中心的概念和概念之间彼此的关系绘制成了下图,那末接下来笔者开始“讲故事”了。



事件:有几率可言的一件事情,一个事情可以会发作许多后果,后果和后果之间要完全穷尽,彼此独立。

几率:每种后果发作的可以性。所有后果的可以性相加即是1,也就是必定!!!

几率散布:我们把事件和事件所对应的几率组织起来,就是这个事件的几率散布。

几率散布可以是图象,也可以是表格。如下图1和表2都可以算是几率散布





期远望:表征了综合思索事情的各种后果和后果对应的几率后这个事情的综合影响值。(一个事件的期远望,就是代表这个事件的“代表值”,相似于统计外面的均值)



方差:表征了事件不同后果之间的差别或分散水平。



2.细说散布

抱负很丰满,现实很骨感。实在的生活中别说往算一个事件的期远望,即使把这个事件的几率散布可以表述完整,每一个事件对应的几率值得出来就已是一件了不起的事情了。

因此,为了能更快更准确的求解掉事件的几率散布,当某些事件,满足某些特定的条件,那末我们可以干脆依据这些条件,来套用一些固定的公式,来求解这些事件的散布,期远望和方差。

“分离型”数据和“持续性”数据差别

在我们展开散布的常识之前,先补充一个预备常识,什么是分离数据,什么是持续数据,它们两者之间有什么差别?

分离数据: 一个粒儿,一个粒儿的数据就是分离型数据。

持续数据: 一个串儿,一个串儿的数据就是持续型数据。

好啦,开个打趣!!!别打我,下面分享干货!!!

其实上述描绘并没有毛病 过错,分离型和持续型数据是一对相对概念,一样的数据既可以是分离型数据,又可以是持续型数据。判别一个数据是持续还是分离最实质的因素在于,一个数据组中数据整体的量级和数据粒度之间的差别。差别越大越趋近于持续型数据,差别越小越趋近于分离型数据。

举个例子

人这个单位,关于一个家庭来讲,就分离型数据,一个家庭可以有 3团体,4团体,5团体....等等。

关于一个国度来讲,就是持续型数据,我们的国度有14亿人口,那末以团体为单位在这个量级的数据群体里就是持续型数据。

清晰了分离型和持续型数据的差别,我们接下来一块科普这几种常常使用的特殊散布。

分离型散布

分离数据的几率散布,就是分离散布。这三类分离型的散布,在“0-1事件”中可以采用,就是一个事只有成功和掉败两种状况。



持续型散布

持续型散布实质上就是求持续的一个数据段几率散布。

正态散布



f(x)----是该关于事件X的几率密度函数

μ --- 均值

σ^2 ---方差

σ ---标准差

绿色区域的面积 ---该区间段的几率

正态散布几率的求法

step1 --- 确定散布和范围 ,求出均值和方差

step2 --- 应用标准分将正态散布转化为标准正态散布 (还记得 第一局部的标准分吗?)

step3 ---查表寻几率

分离型散布 → 正态散布 (分离散布转化为正态散布)

出色的中央在这里,笔者已论述了持续型数据和分离型数据是一对相对的概念,那末这就意味着在某种“界限”条件下,分离型散布和持续型散布之间是可以彼此转化的。进而简化几率散布的计算。这里笔者不在偷懒干脆上皂片了(编公式快吐了!!!!)



3.多个事件的状况:“几率树”和“贝叶斯定理”

多个事件就要探讨事件和事件之间的关系

对抗事件:假如一个事件,A’包孕所有A不包孕的可以性,那末我们称A’和A是互为对抗事件

穷尽事件:如何A和B为穷尽事件,那末A和B的并集为1

互斥事件:如何A和B为互斥事件,那末A和B没有任何交集

独立事件:假如A件事的后果不会影响B事件后果的几率散布那末A和B互为独立事件。

例子:10个球,我随机抽一个,放回往还是10个球,第二次随机抽,还是10选1,那末第一次和第二次抽球的事件就是独立的。

相关事件:假如A件事的后果会影响B事件后果的几率散布那末A和B互为独立事件。

例子:10个球,我随机抽一个,不放回往还是10个球,第二次随机抽是9选1,那末第一次和第二次抽球的事件就是相关的。

条件几率(条件几率,几率树,贝叶斯公式)



条件几率代表:已知B事件发作的条件下,A事件发作的几率

几率树 --- 一种描绘条件几率的图形东西。

假定有个甜品店,顾客买甜甜圈的几率是3/4 ;不买甜甜圈干脆买咖啡的几率是1/3 ;同时买咖啡和甜甜圈几率是9/20。

从图中我们可以发明以下两个信息

1. 顾客买不买甜甜圈可以影响喝不喝咖啡的几率,所以事件甜甜圈与事件咖啡是一组相关事件

2. 几率树每一个层级分支的几率和都是1



贝叶斯公式 ----提供了一种计算逆条件几率的办法

贝叶斯公式用于以下场景,当我们晓得A发作的前提下B发作的几率,我们可以用贝叶斯公式来推算出B发作条件下A发作的几率。



第二局部小节

1. 事件,几率,几率散布之间的关系

2. 期远望,方差的意义

3. 持续型数据和分离型数据之间的区别和联络

4. 几何散布,二项散布,泊松散布,正态散布,标准正态散布

5. 分离散布和正态散布可以转化

6. 多个事件之间的关系,相关事件和独立事件,条件几率和贝叶斯公式

第三局部

关于“小样本”猜测“大整体”

现实生活中,整体的数量假如过于庞大我们无法猎取整体中每一个数据的数值,举行对整体的特征提取进而完成分析任务。那末接下来就用到了本章节的常识。



1.抽取样本

整体:你研究的所有事件的调集;

样本:整体中拔取相对较小的调集,用于做出关于整体本身的结论;

偏倚:样本不克不及代表目的整体,说明该样本存在偏倚;

复杂随机抽样: 随机抽取单位形成样本。

分红抽样: 整体分红几组或许几层,对每层履行复杂随机抽样

系统抽样:拔取一个参数K,每到第K个抽样单位,抽样一次。

2.猜测整体(点估量猜测,区间估量猜测)

点估量量--- 一个总参数的点估量量就是可用于估量整体参数数值的某个函数或算式。

场景1: 样本无偏的状况下,已知样本,猜测整体的均值,方差。

(1) 样本的均值 = 整体的预算均值(整体均值的点估量量) ≈ 整体现实均值(误差是不是可承受)



(2)整体方差 估量整体方差



场景2:已知整体,研究抽取样本的几率散布

比例抽样散布:思索从同一个整体中取得所有大小为n的可以样本,由这些样本的比例形成一个散布,这就是“比例抽样散布”。样本的比例就是随机变量。

举个栗子:已知所有的糖球(整体)中红色糖球比例为0.25。从整体中随机抽n个糖球,我们可以求用比例抽样散布求出这n个糖球中对应红球各种可以比例的几率。



样本均值散布:思索同一个整体中所有大小为n的可以样本,然后用这个样本的均值形成散布,该散布就是“样本均值散布” ,样本的均值就是随机变量。



中央极限制理:假如从一个非正态整体X中抽出一个样本,且样本极大(最少大于30),则图片.png的散布近似正态散布。



区间估量量--- 点估量量是应用一个样本对整体举行估量,区间估量是应用样本组成的一段区间对样本举行估量。

举个栗子:今日下午3点下雨;今日下午3点到4点下雨。假如我们的目的是为了尽可以猜测准确,你会使用那句话术?

如何求相信区间?(这里笔者讲一下思路,不画图码公式了,读者有喜好可以查阅一下教材)



求相信区间方便公式(干脆上皂片)

关于C值参数:相信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58



待补充常识一(t散布)

我们之前的区间猜测有个前提,就是应用了中央极限制理,当样本量足够大的时候(通常大于30),均值抽样散布近似于正态散布。若样本量缺乏大呢?这是一样的思路,只是样本均值散布将近似于别的一种散布措置加倍准确,那就是t散布。这里笔者干脆放张图,不做拓展了。



待补充常识二(卡方散布)----留心待补充不代表不主要,是笔者水平有限,今朝还不克不及用复杂的语言概述此中的精华。

卡方散布的定义

若n个彼此独立的随机变量ξ、ξ、……、ξn ,均服从标准正态散布,则这n个服从标准正态散布的随机变量的平方和构成一新的随机变量,其散布规律称为卡方散布。



卡方散布的应用场景

用途1:用于查验拟合优度。也就是查验一组给定的数据与指定散布的吻合水平;

用途2:查验两个变量的独立性。通过卡方散布可以查验 反省变量之间是不是存在某种关联:

3.验证后果(假定查验)

假定查验是一种办法用于验证后果是不是实在可靠。具体操作分为六个步调。



两类毛病 过错---即使我们举行了“假定查验”依旧无法担保决策是百分百准确的,会出现两类毛病 过错



第一类毛病 过错: 回尽了一个准确的假定,错杀了一个大好人

第二类毛病 过错:采用了一个毛病 过错的假定,放过了一个坏人

第三局部小节

1. 无偏抽样

2. 点估量量猜测(已知样本猜测整体,已知整体猜测样本)

3. 区间估量量猜测(求相信区间)

4. 假定查验

第四局部

相关与回回(y=ax+b)

这里介绍的相关和回回是关于二维双变量的最复杂最有用的线性回回,非线性回回这里不暂不做拓展。

散点图:显示出二变量数据的形式。

相关性:变量之间的数学关系。

线性相关性:两个变量之间出现的直线相关关系。

最好拟合直线:与数据点拟合水平最高的线。(即每一个因变量的值与现实值的误差平方和最小)

误差平方和SSE:

线性回回法:求最好拟合直线的办法(y=ax+b),就是求参数a和b

歪率a公式:



b公式:



相关系数r:表征描绘的数据与最好拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)

r公式:



完毕语

笔者这里梳理了统计与几率学最基础的概念常识,尽可能论述清晰这些概念常识之间关联的关系,和应用的场景。底层概念是上层应用的基础,当今急躁的“机械学习”,“神经网络”,“AI自适应”这些宏伟上的要害字满天飞。笔者认为踏结壮实的把“基础”打扎实,才是向上展开的唯一途径。

来源:PMCAFF产品经理社区;本次编辑转自公众号:数据派THU ;


楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 07:48

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表