112-富集分析中遇到的小问题?
刘小泽写于19.5.5 晚上花花问了我一个问题,她用clusterProfiler做了KEGG分析,然后发现结果中出现了GeneRatio、BgRatio这样的名词,问我知不知道,其实我不是很清楚,但不会不怕,现学也来得及,于是有了这篇文章
GeneRatio and BgRatio
想必很多人都在用clusterProfiler做富集分析,也的确很好用,在做KEGG时就会出现这样的数据
首先看了https://www.biostars.org/p/220465/上的答案
先假设全部的基因集叫:HALLMARK
,然后其中有一个特定研究的基因集叫:E2F_targets
BgRatio=M/N
N就是全部的基因集的大小(这里就是
HALLMARK
的大小),它是背景基因总数(universal);M就是研究基因集的大小(这里就是
E2F_targets
的大小),而这个大小指的就是直接或间接注释到感兴趣节点的基因数量(interest)GeneRatio = k/n
差异基因中与该Term相关的基因数与整个差异基因总数的比值
当然,除了这个,我发现还有一些概念比较模糊,于是整理了一下
P值与P.adjust
从上图中也能看出差异分析结果存在P value和P adjust value,先看帮助文档
https://www.rdocumentation.org/packages/stats/versions/3.5.0/topics/p.adjust
p.adjust.methods
# c("holm", "hochberg", "hommel", "bonferroni", "BH", "BY",
# "fdr", "none")
其中,BH也叫做fdr
另外看到https://www.researchgate.net/post/Hallo_how_can_I_convert_p-value_into_adjusted_p-value中描述
The adjusted p-value is always the p-value, multiplied with some factor: adj.p = f * p The actual size of this factor f depends on the strategy used to correct for multiple testing