062-变异检测初步了解

刘小泽写于18.12.5

变异一般和变异相提并论:遗传是子代重复亲代特征的现象,体现生物的稳定性;变异是指基因组在传递过程中,出现结构改变的基因,改变发育轨迹,产生不同性状,代表进化动力

变异检测属于比较基因组学中的部分,目的是根据不同基因组之间的差异,推断基因型和表型之间的关系

变异类型

基因组变异一般包括:

  • 单碱基变异,学名单核苷酸多态性(SNP),原来的定义是单个碱基导致的群体中广泛存在的(约1%)的多态性,后来指与参考基因组不同的位点,它最常见也最简单。正常人的全基因组测序结果中大概有几百万个SNP,外显子组中也存在数万个SNP。对于人来说,SNP之间的平均距离在1.2M左右,但部分SNP位点仅间隔数个碱基甚至相邻。SNP一般可以分为:
    • 发生在编码区的SNP,由于密码子具有简并性不一定会引起氨基酸的改变:引起氨基酸变化的叫做 Non-Synonymous SNP,不引起改变的叫做Synonymous SNP
    • 如果氨基酸发生了改变,又有两种情况:氨基酸的密码子变成另一种,因而导致多肽链的氨基酸种类和顺序发生改变,这就是错义突变。如果突变导致编码氨基酸的密码子变成了终止子,蛋白质合成进行到该突变位点时会提前终止,就导致了无义突变
  • 小片段的插入与缺失(合称InDel),一般发生在基因组上短的有序的基因片段,长度小于50bp,有时不超过10bp,这个范围内的长度可以用Smith-waterman局部比对算法来获取
  • 更大范围的结构性变异SV),长度大于50bp的片段的插入、缺失(Big Indel),染色体倒位(Inversion)、染色体之间或者内部发生易位(Translocation)、拷贝数变异(CNV)、串联重复(Tandem repeat)、嵌合体(chimera

变异检测意义

一般基因组测序有两种: De novo测序:基因组第一次被测序出来,用于拼接; 重测序:利用已有的发表的基因组,直接进行短序列比对,即re-sequencing,目的是找变异 然后重测序又分为基于全基因组和简化基因组,区别就是用途不同,后者着眼于SNP检测

  • 找到的变异位点进行基因组变异注释,看发生基因变异的位置,是在基因区还是基因间区。如果在基因区,是否引起基因的变化(移码突变等);基因间区是否影响基因调控
  • 基因组差异与表型差异关联分析(根据候选基因在基因组上的功能、位置)
  • 基因分型(利用质谱、SNP芯片等,其中最出名的就是Affymetrix的SNP6.0芯片以及illumina的OMIN系列),构建系统发育树

关于SNP

一般读作“snip”,指的是Single nucleotide polymorphisms,指等位基因发生突变,产生不同等位型,它的分布最广,也是人与人不同的重要原因。

关于Hapmap计划必知

Hapmap计划(国际人类基因组单体型图计划)就是研究人类遗传相似性和差异性的,计划是通过对亚、非、欧裔共269个个体进行全基因组中的SNP(单核苷酸多态性)进行筛查和分析,构建出整合了人类遗传多态性信息的”单体型图“(可以理解成:距离较近的SNP位点形成一个“区块”进行遗传)。

Hapmap其实就是一个多人种的SNP数据库,来区分人与人差异(ftp://ftp.ncbi.nlm.nih.gov/hapmap/),目前可以可以下载数据但不能登官网,取而代之的是千人基因组计划(ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/)。

SNP分类

这里以二倍体生物为例:

纯合SNP:两个等位基因都发生了相同突变(比如参考基因组中位点为A,而样本两条染色体相同位点都变成了G)

与之对应的是杂合SNP(一条染色体变化,另一个不变)

转换(嘌呤与嘌呤)相比于颠换(嘌呤与嘧啶)更容易发生,比例大概2:1

SNP在CG序列上出现最频繁多为C转为T(因为C常为甲基化,自发脱氨基形成T)

SNP对基因组的影响

  • 同义突变:某个碱基的变化没有影响氨基酸序列的密码子(由于简并性)
  • 错义突变:对氨基酸序列产生影响,严重时影响蛋白质活性,从而影响表型(如镰刀性贫血症)
  • 无义突变:将原来编码氨基酸的密码子变成了终止密码子(UAA、UAG、UGA),可能产生假基因,或者影响表型

SNP检测

有一个误区:样品间差异越大,SNP就越多吗?

试想一下:亲缘关系远的基因组之间差异是不是很大?可能一段序列中所有位点都不同,但是这样依然不能认为他们是SNP。要理解的是,变异是在遗传基础上发生的, 因此,变异检测中只有同源比对的序列才有意义,并且还需要一个高质量的参考比对结果

关于SV

结构性变异比SNP的后果更严重(如:9号染色体和22号染色体长臂发生易位,导致慢性粒细胞白血病),但同时也更能代表群体多样性特征。一般利用Circos来展示

关于SV研究,除了测序已经发展出了相关的芯片,成本低,但大多只能检测片段删除,比较粗略

关于结构性变异有文献介绍:https://doi.org/10.1016/j.ymeth.2016.01.020

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related