037-基因的一大家子-Gene Family
刘小泽写于18.9.25
今天接触到一个新名词——基因家族分析,不搜不知道,一搜吓一跳。2018年关于基因家族分析的文章已经超过了180篇,并且门槛不高,甚至用公共数据库就能做。
什么是基因家族?
想想我们人的家族,肯定是一大家子,一个共同的祖先的后代。尽管子子孙孙长相各异,但是血缘关系维持着我们的亲疏远近
基因家族,当然也是来源一个祖先,经过基因重复和突变而产生的一组具有序列结构与功能相似性的基因,它们编码相似的蛋白质产物。当然同一个家族的可以紧密排列在一起,构成一个大“宗亲”(基因簇)。但更多时候,“人各有志”(子孙基因也各有作用),同一个家族的基因们分散在同一个染色体的不同位置,或者在不同染色体(相当于我们和周围的亲人都身处各行各业),每个基因有着自己不同的表达调控模式。
重复主要分为:基因片段复制、串联重复、逆转录转座【一般拷贝数会增加】
突变主要有:核苷酸插入、缺失、转换、颠换;基因重组;基因转换。这些因素再加上后来群体的遗传漂变、自然选择过程将这种趋势进行扩散,并逐步确定下来突变【一般拷贝数不增加,基因重复性比较小】
简而言之,基因家族就是一组功能相似、序列具有同源性的基因
因此,如果不从“共同祖先”的角度出发,考虑“结构域”的话:对于一个基因家族,它的特点就是编码蛋白都有同一个结构域,因为一般来讲,结构域决定某种功能,保守的结构域序列,容易形成稳定的三维结构【结构域:Protein domain,是构成蛋白质(三级)结构的基本单元,Pfam和InterPro都是结构域网站】
为什么做基因家族?
- 一个基因家族,一般存在于多个物种(不同物种中的叫亚家族基因),并且很多基因家族都是转录因子,可以对家族内基因启动子区域进行分析;还能找几个物种,分析同源基因的基因结构、motif分析,找到保守的motif;还可以结合湿实验QRT-PCR,找出(二)十几个基因做不同组织的表达量,看哪些基因具有较强的组织特异性表达性
- 对于刚有基因组的但注释不全的物种,基因家族待挖掘资源较多
基因的远近
我们人类即便是同一个祖先,在长期繁衍过程中,也会产生亲疏远近,所以才有了“远亲不如近邻”这样的俗语,那么基因呢?
Homolog: A gene related to a second gene by descent from a common ancestral DNA sequence. The term, homolog, may apply to the relationship between genes separated by the event of speciation (see ortholog) or to the relationship betwen genes separated by the event of genetic duplication (see paralog). (**同源基因:**来自共同祖先DNA序列的基因,包括了物种间的同源“ortholog”、物种内的因基因复制导致的同源"paralog”)
出自 https://homepage.usask.ca/~ctl271/857/def_homolog.shtml
- **Ortholog:**Orthologs are genes in different species that evolved from a common ancestral gene by speciation. Normally, orthologs retain the same function in the course of evolution. Identification of orthologs is critical for reliable prediction of gene function in newly sequenced genomes (直系/垂直同源基因: 同一祖先但后来形成了不同物种,它们之间的基因集。一般从进化上来讲,有相同的功能,但这个并不绝对,可能在新测序的物种中又会发现新的基因功能)
- **Paralog:**Paralogs are genes related by duplication within a genome. Orthologs retain the same function in the course of evolution, whereas paralogs evolve new functions, even if these are related to the original one (旁系/平行同源基因: 某个特定基因组中由于基因复制产生的同源基因,直系基因在进化中一般会保持相同的功能,但是旁系基因会发生进化,可能已经有了新的功能,或者成为了假基因)
一般来讲,在描述同源性和相似性时,可以理解成:同源性为“质”,即有没有同源性;相似性为“量”,即相似性有80%、90%
基因家族能做的事
鉴定基因家族的成员
先要准备好:CDS.fa、protein.fa、xxx.gff3和genome.fa
NCBI 导出目标基因编码蛋白序列=》 数据库Pfam,设定e-value 阈值=〉 得到domain名称和Pfam ID,如PFxxxxx =》 查看该Pfam ID,左侧栏选择Curation&model,下载Stockholm格式的HMM文件
*.hmm
=》 使用hmmsearch *.hmm protein.fa > result
=> 批量获取gene ID,然后根据ID获得protein.fa中的基因家族成员蛋白序列=》最后在SMART网站进行鉴定=〉
接下来得到CDS、genome信息(需要染色体编号、起始终止位点、基因ID、序列)
构建这些成员的进化树,进行同源基因聚类分析 将筛选的基因家族的蛋白序列进行多序列比对,还可以加入相关的模式物种,将基因们分成几个大类和几个亚类
染色体位置分布和加倍复制分析 可以用MCScanX软件http://chibba.pgml.uga.edu/mcscan2/
图片来自文章:Genome-wide investigation of WRKY gene family in pineapple: evolution and expression profiles during development and stress 红色表示基因家族成对复制,灰色表示共线性关系
基因结构、motif分析
结合转录组进行家族内基因表达定量(可以结合不同处理或不同组织),表达定量的方法可以用转录组、表达谱、芯片、qRT-PCR,这里可以让之前的转录组数据重复利用,因此要做的话,纯湿实验也就是荧光定量