036-概率分布让我又恨又爱

刘小泽写于18.9.23 之前对这块知识又渴望又敬畏,感觉无从下手。 但是硬骨头总归要啃,从头开始,一点点来弥补知识漏洞 顾名思义,“概率分布”:先看“概率”,概率怎么得到的,不得有数据吗?至于“分布”,不就是数据的统计形状吗? 因此,搞明白了前后顺序,我们先来看什么是数据

数据是什么?

数据在统计学中也叫随机变量,有两种类型:离散型和连续型

离散型数据

还是顾名思义【因为既然人家给翻译成这样,就一定有他的道理,否则大众不可能接受。相信“存在即合理”】离散数据就是不连续的数据。最典型的就是抛硬币,因为结果只有两种:要么正面,要么反面。它就像草坪上的小石板路,一块隔着一块铺起来,每一块石板是一个数据,并且他们之间存在间隔

连续型数据

它可以取任意的数值,比如时间,可以随意分隔,就像一条柏油马路,那么平滑、连绵,你可以连续往下走

数据集

不管离散还是连续的数据,整合到一张表格中,就是一个数据集。它最大的特点就是模糊,最擅长的就是让人为之发疯。因为感觉无据可循,十分模糊

问题来了,面对庞杂的数据集,怎么分辨主次呢?

将数据简化的方法就是:选几个有代表性的,能描述整体特点的数字,比如学了一个学期的结果,用一个学分绩点就能代表,4.0最高,3.0以上说明还不错,2.0嘛,估计~_~。这个事情有个专有名词——描述性统计,就是用几个描述变量就能得知数据的整体情况。再如:要买一部手机,怎么算好手机呢?通过比较价格、外观、性能等等指标,就能帮你做出一个相对合理的判断。

问题又来了,我现在知道了可以用几个指标来判断整体情况,那么统计学中要用哪几个指标呢?

  1. **平均值:**这个最常见了,某某班的平均成绩最高,班主任当然高兴啦,但是就个别成绩差的学生而言,他的压力可比普通班的学生大多了。这个例子表明,平均值的缺点就是对异常值不敏感,很容易收到极端值的影响。什么“平均薪水”、“平均身高”等等,都要慎重看待
  2. 四分位数:我们常见的箱线图就是描述四分位数,它有两个作用: a.比较不同的数据整体情况;b.识别异常值,Tukey’s test用的就是四分位数
  3. 标准差:描述数据的波动大小,看数据是否稳定,比如老师分析某个学生考试发挥水平
  4. 标准分:也叫z分数,将原始分数与团体的平均数之差除以标准差所得的商数,表示某些数据的相对排名,可以比较不同的数据集,比如升学时用标准分计算出来的值就可以代表学生的整体排名,对于学校选择可以提供帮助

概率分布是什么?

概率分布 = 数据+分布,横轴表示数据值,纵轴表示数据值对应的概率 数据类型决定概率分布。切记:别记公式,记不住,也没用,R语言全能算,自己只需要知道什么时候套用什么模型就好啦

概率分布也分为两种:离散型概率分布,连续型概率分布

大体知道了这两种分布类型,统计学就围绕着它们开始了研究,并且发现众多的数据分布中,就有几种形状反复出现,感觉就像一个“概率模版”一样,记住这些模版,以后遇到数据直接套用

离散型概率分布

想得到一个特定数值的概率,还是拿离散型数据:抛硬币来说,正面朝上的概率是p(正面)=50%。包括以下几种:

  • 伯努利分布

    最简单的离散型随机变量分布

    只有两个可能的结果,成功(1)、失败(0),一般就是指单次试验

  • 二项分布

    是什么?

    “二项”代表一个事情有2种可能的结果,“不成功便成仁”。它是重复n次独立的伯努利试验伯努利试验指的是指在一次试验中只考虑两种结果】

    特点是啥/如何辨别?

    1. 一个事情发生的次数(学名试验次数)固定,比如我抛硬币5次;
    2. 每个试验都有两种可能结果——成功或失败;
    3. 每次成功概率相等,比如抛硬币正面向上每次都是50%;
    4. 你的目的是想知道成功n次的概率

    涉及一个词**”期望值“**:预期成功的次数,它等于发生的次数*每次成功的概率 二项分布期望值E(x)=np

  • 二项分布的变体——超几何分布

    它是从有限个物件中抽出n个物件,成功抽出指定种类的物件的个数(不放回)。它每试验一次,就变一次,比如投飞镖,这次没投中就要换个靶子,但上次结果保留。它规定,一件事在每个维度上都只做一次(有点超脱的意思了;再回想二项分布,就是死活要在那一个维度证明自己,它就是有放回的抽样,总想着重复同样的过程就有可能会成功) 。特别像当今的典型人群,有的人学习不行,就转行从商,可能获得成功,他就是超几何;有的人呢,学不好,继续拼命学,总想着有一天能凭借学习出人头地,又可能学有所成,也有可能一事无成,他就是二项分布。

  • 几何分布

    是什么?

    首先,它和二项分布很像,可以说是同卵双胞胎(今天我和花花还讨论了这个问题🤒)。

    特点是啥/如何辨别?

    它最大的特点就是:如果要知道n次伯努利分布试验中第一次就能成功的概率(即前n-1次失败,第n次成功),那用它就没错。还是上面飞镖的例子,向靶子扔飞镖,无规则地乱投却正中耙心的概率(一件事在一个维度上重复多次

    区别二项分布和几何分布很简单,就看试验目的是不是寻找第一次成功的概率

    几何分布期望值等于E(x)=1/p,比如每次找工作成功的概率是30%,要按照几何分布来看,期望值为1/0.3=3.3次(约为3次),也就是说大概3次你就会成功应聘【当然实际成功概率并不是不变的】

  • 泊松分布

    是什么?

    某个范围内(事件发生的时间和地点随机分布),某件事情发生一定次数的概率,只对事件发生的次数感兴趣。 比如说一个月内的售楼量、刊物的每一页的印刷错误次数(这里的次数无上限)。它的作用可大了,比如店家要办一个迎宾抽奖,准备庆祝三天,计算得到第二天中奖次数超过20次的概率都接近90%,和成本比较,发现这样做会赔本,就可以未雨绸缪

    特点是啥/如何辨别?

    1. 事件是相互独立的,比如抽奖的每次试验过程就是相互独立的; 【独立事件:一个事件的概率不以任何方式影响另一个事件】
    2. 任意相同的时间内,发生概率相同(也就是不受时间前后的影响),你抽奖不会说今天天气好,你中奖概率就大;
    3. 你的目的是想看特定的时间范围内,某个事情发生的概率

连续型概率分布

要算出中间每一个数值对应的概率是不现实的,那是随机变量。而你关心的应该是连续变量,也就是随机变量在某个区间内取值的概率,此时的函数叫做概率密度函数。

举个例子:比如早上8点上课前学生们都会聊会天,什么时候安静取决于老师什么时候进教室,老师可能7点59分59秒进来,可能8点2分10秒进来,但是这可能不是大家所关心的,而且也算不完,因为时间点太多了。学生们实际关心的应该是在7点55到8点整老师进来的概率,因此来决定自己有多大的聊天机会

  • 正态分布(高斯分布)

    生活中绝大多数的分布都是正态分布,比如降雨量、人的身高体重等,它就像一条钟型曲线,中间高,两边低,左右对称。于是体现的数据的分布就是:大部分数据集中的地方,小部分数据向两边分布。

    当伯努利试验的次数接近无穷大时,他们的分布函数基本相等。也可以说,正态分布是二项分布的一个极限形式

    这里有一个规律,可以帮助计算数据大体分布:正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内。因此一般计算阈值的时候,采用mean - 2*sd 的方法,就能达到95%以上的置信度

  • 均匀分布

  • 指数分布


关于差异统计

做实验的处理和对照,肯定有差别,但怎么设定这个标准,张三说两组差1叫有差别,李四说两组得差5才叫有差别。科学嘛,没有证据就没法证明,于是在统计学的基础上,产生了众多的检验方法。怎么选择检验方法至关重要,因为有时候自己对概念的模糊,导致选错方法,得到的结果是完全不同的

一个重要的选择标准就是,数据总体分布是否符合正态分布和方差齐性

Shapiro-Wilk test检验是否符合正态分布(p大于0.05是正态分布); Levene’s test检验方差齐性(p大于0.05表示方差齐)

第一类:参数检验

总体的分布类型已知,用样本指标对总体参数进行推断或者进行假设检验

前提:方差齐性、正态分布

比如:T检验(多数人钟爱的检验方式)【两组之间比较差异】;

ANOVA (Analysis of Variance方差分析,又称“变异数分析”,研究数据波动情况) 【多组之间比较:如果p值大于0.05,表示各组总体均值相等】

第二类:非参数检验

不考虑总体分布类型是否已知,不比较总体参数,只比较总体的分布位置是否相同,用来检验数据是否来自同一个总体

前提:总体分布不能确定(不知道是不是正态分布)

比如:Metastats,Wilcoxon rank sum test,Welch’s t-test等【两组之间比较差异】;

Kruskal-Wallis【多组之间比较,如果p值大于0.05,表示各组总体均值相等】

更多非参方法:

  • 单样本泊松分布 poisson.test()

  • 分布一致性检验

    • 离散分布:卡方检验【根据样本数据的实际频数推断总体分布与期望分布或理论分布是否有显著差异。零假设H0:样本来自的总体分布形态和期望分布或某一理论分布没有显著差异】
    • 连续分布: Kolmogorov-Smirnov ks.test(x, y)【单样本,检验是否符合某种分布 ;双样本,检验是否属于同一分布】 Shapiro-Wilk shapiro.test(x) 【正态W检验方法,p值大于a为正态分布,样本含量在[3, 5000]之间】
  • 离散一致性检验

    • mood.test(x, y) 【此方法假设两样本中位数相同,因此需要先将两个中位数差异消除】
    • ansari.test(x,y) 【两样本,需要先将两个中位数差异消除】
    • fligner.test(x) 【多样本,不需要消除中位数差异】
  • 列联表独立性检验

    卡方独立性检验chisq.test() 【将数据写成二维表矩阵形式,包括行变量和列变量】 McNemar检验【针对配对数据,数据不得小于5,总数要大于100,检验变化的强度】

  • 符号检验 binom.test【以中位数为界,一边为正,一边为负,理论上正负概率都应该是50%。用p=0.5的二项检验来完成】

  • 秩和检验【解决了符号检验中只考虑了符号,没有考虑差异的大小的问题】 wilcoxon.test()【用于单样本】 Mann-Whitney U检验【两个样本】或者用wilcoxon.test(paired=TRUE) kruskal.testKurskal-Wallis检验【多个样本,同样也适用两个样本】

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related