092-统计知识是必须要学的

刘小泽写于19.3.17

如果平常的分析需要用到R语言,你会发现,许多函数是带有统计背景的,比如CPM、t检验、RPKM计算等等,虽然大多数需求都被包装成了函数,可以直接使用。但是掌握点统计知识对理解这里面的具体运算是非常必要的。

奔波了一天,在车上无聊,看点统计知识吧《白话统计学》,记录一下

第一章

  • 总体
    • 一组感兴趣的特定分组对象
    • 对象不一定很多
  • 样本
    • 总体中选出的子集
    • 不一定能恰当地代表抽样总体
  • 统计量:根据样本数据计算的值
  • 描述统计(descriptive ):只能应用于收集到的一定数量的样本总体
  • 推断统计(inferential):假定样本可以代表更大的总体
  • 抽样问题
    • 随机抽样(random sampling):总体中每个对象被选入样本的概率相等
    • 典型抽样(representative sampling):选取具体特征上与更大总体相匹配的对象(例如:根据人口类型选取对应比例的样本)
    • 方便抽样(convenience sampling):根据地理距离、接触难度、参与意愿选择
  • 变量 Variable
    • 定量/连续变量
    • 定性/分类变量
  • 分布:变量取值的一个集合
    • 正态分布:取值的频率分布呈钟形。均值、中位数、众数位于中央
    • t分布:比较样本均值以及检验相关系数和回归斜率的统计显著性
    • F分布
    • 卡方分布

第二章:中心趋势的测度

  • 偏态分布(<=>正态分布):多数值聚集在分布高端=》正偏(反之负偏)
    • 例:均值略小于中位数,表明是一个负偏分布
  • 异常值:距离均值超过2倍标准差的极端值
    • 样本越小,对均值的影响越大
  • 双峰Bimodal:一个分布有两个出现频率最高的值 (<=>多峰)
  • 参数:得自总体数据的值,或由样本统计量推断的总体的值

第三章:变异程度的测度

  • 极差(range):一个分布最大值和最小值之差
    • 误导性=》并非特别有用
    • 评价总离散程度
  • 四分位差:75%位数与25%位数之差
  • 方差:评价离散程度【很少使用】
  • 标准差(standard deviation):单个取值与均值之间“平均”离差【常用】
    • standard标准:平均的意思
    • deviation离差:一个分布的单个取值与该分布的平均取值之差
  • 计算标准差需要考虑:应用于样本还是总体
    • 总体均值不同于样本均值,利用总体均值计算标准差结果大于用样本均值计算的结果;
    • 样本越大,各个样本越有机会接近均值的值,标准差更小
    • 感兴趣的不是分布的平均取值,而是分布的各个取值与均的平均差异
  • 箱线图:箱子顶端是75%,底端是25%,之间的距离是四分位差(IQR),垂直线表示最大、最小

第四章:正态分布(Norm distribution)

  • 又叫钟形曲线(Bell curve):单个变量具体取值出现的次数
  • 基本性质:
    • 对称
    • 均值、中位数、众数同一位置,且在中心
    • 渐进分布(asymptotic)
  • 这是一种理论分布,很少样本符合,但可以利用零假设(null hopothesis)符合正态分布

第五章:标准化与z score

  • 为什么标准化?
    • 一个简单例子:A考试分值是1-100分,B考试分值是1-150分,那么A考了80分,B考了85分,就可以判断考B表现的比A好吗?
    • 并不能!因为二者不在同一测量单位之下,我们首先要将二者放在同一量度下=》需要标准化
  • 标准化值standard score,或者z score,用于描述个别取值与分布中的其他取值之间的距离 =》一个标准化过程
  • z-score是以标准化为单位的分布中一个给定取值与均值之间的距离数,将原始取值(raw scores)转为标准差单位
  • z = (原始取值-均值)/标准差
    • 例如:如果A考试得了 1.5的z score,就知道A考试得分比考试均值成绩高1.5倍的标准差;B考试得了-0.3的z score,就知道B考试比均值成绩低0.3倍的标准差,这样就可以判断哪一门科目考的更好
    • 任何小于均值的原始值都有负的z score,反之为正;
    • 标准差小而均值大,导致最后的z score比较小,说明数据严重偏移
    • 正态分布的大部分取值都在均值周围,因此得到的z score都接近0
  • z score的问题:考虑的背景问题有限,因此提供的信息有限
  • 百分位数取值(percentile scores):分布一定比例的取值在它之下,一定比例取值在其之上。如:某人考试得分为60分,然后全班30%的人的成绩都低于60分,那么第30百分位数为60
Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related