205-新get的小鼠基因组知识
刘小泽写于2020.8.26 之前做小鼠有关的组学实战,一般就是去UCSC、Ensembl或者NCBI三大数据库去获取参考基因组,再进行比对等操作。 直到昨天,我才知道,参考基因组只是其中一个品系而已,另外还有很多其他品系可以搜索,于是来探索一下
第一个被测序的小鼠基因组
参考:https://www.ncbi.nlm.nih.gov/grc/mouse https://baike.baidu.com/item/C57BL/6/6247218?noadapt=1
当时组装参考基因组使用的品系是:C57BL/6J
1921年立特(Little)用艾比·拉特洛坡(Abby Lathrop)的小鼠株,雌鼠57号与雄鼠52号交配而得C57BL。1937年从C57BL分离出C57BL/6和C57BL/10两个亚系。
C57BL/6, 常被称作“C57 black 6”、“C57”或者“black 6”(标准简称为B6), 是一种常见的近交品系实验鼠。在遗传学试验中广泛用作转基因鼠以模拟人类的基因缺陷类疾病。因其可用作同类系、易于繁殖和体格健壮等特性,是使用范围最广、销量最好的一支鼠株品种。
由于B6品系是第一个完成基因组测序的小鼠,因此获得了广泛的关注
目前有三个版本:
就像hg19、hg38一样,小鼠也是有mm9(GRCm38)【诞生于2012年1月】、mm10(GRCm39)
不同数据库的基因组命名也是不同的
以我之前做的人类基因组为例:
不同版本之间的坐标不同,注意转换,可以参考UCSC的工具:https://genome.ucsc.edu/cgi-bin/hgLiftOver
来自Sanger研究所的小鼠基因组计划
参考:https://www.sanger.ac.uk/data/mouse-genomes-project/
小鼠的品系多种多样
除了B6品系,还有很多其他的实验小鼠,比如BALB/C品系,具有白化、免疫缺陷,是近交品系。1913年培育,1974年定名为BALB/cByJ。它对致癌物特别敏感,可用于肾癌、肺癌等动物模型构建。另外,还可以用于杂交瘤和单克隆抗体的制备,在免疫研究中也比较广泛。
计划初衷
小鼠基因组计划还在进行,目的是将实验室常见小鼠品系之间所有形式的遗传变异进行编目,并为关键品系构建和注释参考基因组。
主要有两个方向,都是基于NGS:
- 研究序列变异:短读长测序并以C57BL/6J为参照,鉴定其他品系的变异(SNP、InDel、SV)
- 组装基因组:从头组装并得到常用品系的基因组注释
研究序列变异
包含了以下的品系:
所有比对的bam文件在:ftp://ftp-mouse.sanger.ac.uk/current_bams
所有鉴定的变异VCF在:ftp://ftp-mouse.sanger.ac.uk/current_snps
所有的变异信息都已发布,并且可以无限制使用,可以引用:
Mouse genomic variation and its effect on phenotypes and gene regulation. Keane TM, Goodstadt L, Danecek P, White MA, Wong K et al. Nature 2011;477;7364;289-94 PUBMED: 21921910; PMC: 3276836; DOI: 10.1038/nature10413
组装基因组
主要得到了16个品系的组装结果,如果有基于这些基因组的研究或者存在疑问,可以联系Sanger( mousegenomes@sanger.ac.uk)
全部的信息存储在了FTP站点:ftp://ftp-mouse.sanger.ac.uk/
- 最新的bam文件是2020年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1905-BAM/
- 最新的vcf文件是2018年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1807-SNPs_Indels/
- 最新的基因组是2016年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1509-Assembly/ 包括了各种品系小鼠的基因组序列
看到其中基因组还有三种不同的命名:
<strain>.fa.gz
: Assembled chromosomes+unplaced scaffolds (>2kbp)<strain>.fa.masked.gz
: Repeatmasked chromsomes+unplaced scaffolds (>2kbp)<strain>.fa.out.gz
: Repeatmasker output file of annotated repeats
其他数据库的记载
比如在Ensembl
https://asia.ensembl.org/Mus_musculus/Info/Strains?db=core
比如在UCSC
http://hgdownload.soe.ucsc.edu/hubs/mouseStrains/hubIndex.html