092-统计知识是必须要学的
刘小泽写于19.3.17
如果平常的分析需要用到R语言,你会发现,许多函数是带有统计背景的,比如CPM、t检验、RPKM计算等等,虽然大多数需求都被包装成了函数,可以直接使用。但是掌握点统计知识对理解这里面的具体运算是非常必要的。
奔波了一天,在车上无聊,看点统计知识吧《白话统计学》,记录一下
第一章
- 总体
- 一组感兴趣的特定分组对象
- 对象不一定很多
- 样本
- 总体中选出的子集
- 不一定能恰当地代表抽样总体
- 统计量:根据样本数据计算的值
- 描述统计(descriptive ):只能应用于收集到的一定数量的样本总体
- 推断统计(inferential):假定样本可以代表更大的总体
- 抽样问题
- 随机抽样(random sampling):总体中每个对象被选入样本的概率相等
- 典型抽样(representative sampling):选取具体特征上与更大总体相匹配的对象(例如:根据人口类型选取对应比例的样本)
- 方便抽样(convenience sampling):根据地理距离、接触难度、参与意愿选择
- 变量 Variable
- 定量/连续变量
- 定性/分类变量
- 分布:变量取值的一个集合
- 正态分布:取值的频率分布呈钟形。均值、中位数、众数位于中央
- t分布:比较样本均值以及检验相关系数和回归斜率的统计显著性
- F分布
- 卡方分布
第二章:中心趋势的测度
- 偏态分布(<=>正态分布):多数值聚集在分布高端=》正偏(反之负偏)
- 例:均值略小于中位数,表明是一个负偏分布
- 异常值:距离均值超过2倍标准差的极端值
- 样本越小,对均值的影响越大
- 双峰Bimodal:一个分布有两个出现频率最高的值 (<=>多峰)
- 参数:得自总体数据的值,或由样本统计量推断的总体的值
第三章:变异程度的测度
- 极差(range):一个分布最大值和最小值之差
- 误导性=》并非特别有用
- 评价总离散程度
- 四分位差:75%位数与25%位数之差
- 方差:评价离散程度【很少使用】
- 标准差(standard deviation):单个取值与均值之间“平均”离差【常用】
- standard标准:平均的意思
- deviation离差:一个分布的单个取值与该分布的平均取值之差
- 计算标准差需要考虑:应用于样本还是总体
- 总体均值不同于样本均值,利用总体均值计算标准差结果大于用样本均值计算的结果;
- 样本越大,各个样本越有机会接近均值的值,标准差更小
- 感兴趣的不是分布的平均取值,而是分布的各个取值与均的平均差异
- 箱线图:箱子顶端是75%,底端是25%,之间的距离是四分位差(IQR),垂直线表示最大、最小
第四章:正态分布(Norm distribution)
- 又叫钟形曲线(Bell curve):单个变量具体取值出现的次数
- 基本性质:
- 对称
- 均值、中位数、众数同一位置,且在中心
- 渐进分布(asymptotic)
- 这是一种理论分布,很少样本符合,但可以利用零假设(null hopothesis)符合正态分布
第五章:标准化与z score
- 为什么标准化?
- 一个简单例子:A考试分值是1-100分,B考试分值是1-150分,那么A考了80分,B考了85分,就可以判断考B表现的比A好吗?
- 并不能!因为二者不在同一测量单位之下,我们首先要将二者放在同一量度下=》需要标准化
- 标准化值standard score,或者z score,用于描述个别取值与分布中的其他取值之间的距离 =》一个标准化过程
- z-score是以标准化为单位的分布中一个给定取值与均值之间的距离数,将原始取值(raw scores)转为标准差单位
- z = (原始取值-均值)/标准差
- 例如:如果A考试得了 1.5的z score,就知道A考试得分比考试均值成绩高1.5倍的标准差;B考试得了-0.3的z score,就知道B考试比均值成绩低0.3倍的标准差,这样就可以判断哪一门科目考的更好
- 任何小于均值的原始值都有负的z score,反之为正;
- 标准差小而均值大,导致最后的z score比较小,说明数据严重偏移
- 正态分布的大部分取值都在均值周围,因此得到的z score都接近0
- z score的问题:考虑的背景问题有限,因此提供的信息有限
- 百分位数取值(percentile scores):分布一定比例的取值在它之下,一定比例取值在其之上。如:某人考试得分为60分,然后全班30%的人的成绩都低于60分,那么第30百分位数为60