112-富集分析中遇到的小问题?

刘小泽写于19.5.5 晚上花花问了我一个问题,她用clusterProfiler做了KEGG分析,然后发现结果中出现了GeneRatio、BgRatio这样的名词,问我知不知道,其实我不是很清楚,但不会不怕,现学也来得及,于是有了这篇文章

GeneRatio and BgRatio

想必很多人都在用clusterProfiler做富集分析,也的确很好用,在做KEGG时就会出现这样的数据

首先看了https://www.biostars.org/p/220465/上的答案

先假设全部的基因集叫:HALLMARK,然后其中有一个特定研究的基因集叫:E2F_targets

  • BgRatio=M/N

    N就是全部的基因集的大小(这里就是HALLMARK的大小),它是背景基因总数(universal);

    M就是研究基因集的大小(这里就是E2F_targets 的大小),而这个大小指的就是直接或间接注释到感兴趣节点的基因数量(interest)

  • GeneRatio = k/n

    差异基因中与该Term相关的基因数与整个差异基因总数的比值

当然,除了这个,我发现还有一些概念比较模糊,于是整理了一下

P值与P.adjust

从上图中也能看出差异分析结果存在P value和P adjust value,先看帮助文档

https://www.rdocumentation.org/packages/stats/versions/3.5.0/topics/p.adjust

p.adjust.methods
# c("holm", "hochberg", "hommel", "bonferroni", "BH", "BY",
#   "fdr", "none")

其中,BH也叫做fdr

另外看到https://www.researchgate.net/post/Hallo_how_can_I_convert_p-value_into_adjusted_p-value中描述

The adjusted p-value is always the p-value, multiplied with some factor: adj.p = f * p The actual size of this factor f depends on the strategy used to correct for multiple testing

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related