230-测序质控中的per base GC content需要关注吗

刘小泽写于2021.1.22

先看一组chipseq的QC结果

1

2

3

4

看上去总体质量还不错,Q30、Q20表现良好。但是这个perbase sequence content 就有点奇怪,另外接头也没有去除,被标记为overrepresented sequences(黄色标出来的就是Truseq接头序列)

$ cat Truseq_adaptor.fa
>TruSeq_Universal_Adapter
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT
>TruSeq_Adapter_Index_1
GATCGGAAGAGCACACGTCTGAACTCCAGTCACATCACGATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_2
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCGATGTATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_3
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTTAGGCATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_4
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTGACCAATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_5
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACAGTGATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_6
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_7
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCAGATCATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_8
GATCGGAAGAGCACACGTCTGAACTCCAGTCACACTTGAATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_9
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGATCAGATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_10
GATCGGAAGAGCACACGTCTGAACTCCAGTCACTAGCTTATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_11
GATCGGAAGAGCACACGTCTGAACTCCAGTCACGGCTACATCTCGTATGCCGTCTTCTGCTTG
>TruSeq_Adapter_Index_12
GATCGGAAGAGCACACGTCTGAACTCCAGTCACCTTGTAATCTCGTATGCCGTCTTCTGCTTG

去接头

trimmomatic SE  in.fastq in_trimmed.fastq ILLUMINACLIP:Truseq_adaptor.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

再看下结果

5

6

7

看到这时总体质量值有所提高,而且GC content也正常了很多(一般来说,由于chipseq是DNA测序,理论上ATCG应该各占25%),此处看似AT更高一点(因为看最后一张图,总体碱基的GC还不到50%);另外,接头序列也去除了。此时就可以继续进行比对了

另一组RNAseq的结果

Capture1

Capture2

Capture3

Capture4

当然,RNAseq与chipseq存在着很多不同,下图中,从上到下依次是:Chipseq、RNAseq、WES、WGS

image-20210122112802718

  • 最上面是ChIP-seq数据,首先,测序深度都不高,而且测序深度极度的不稳定,深浅不一;其次,整个基因区域似乎都有覆盖到。
  • 第二层是RNA-seq:只有exon对应的区域是有reads覆盖的,非常exon和intron的间隔非常明显。由于是PE测序,还可以看到不同的exon被同一个read跨越了intron连接起来了。测序深度而言,某一个基因的大部分exon都是等深度的,但是一个基因与其它基因的测序深度就不一样了

再回到之前的RNAseq质控图

  • per-base content 很奇怪没有关系,造成这种现象的原因一般是: “random” hexamer effect,因为RNAseq和DNAseq不一样,它的扩增不是均一的。而且大部分人的RNAseq数据都是这样,也不需要去除这部分
  • RNAseq的duplicates情况也很常见。首先,样本即使做了ribodepletion处理,其中依然可能含有rRNAs;另外,任何高表达基因都可能出现PCR重复
  • 其他几个补充链接:https://www.biostars.org/p/55648/、https://www.biostars.org/p/66831/、https://www.biostars.org/p/14283/
Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related