205-新get的小鼠基因组知识

刘小泽写于2020.8.26 之前做小鼠有关的组学实战,一般就是去UCSC、Ensembl或者NCBI三大数据库去获取参考基因组,再进行比对等操作。 直到昨天,我才知道,参考基因组只是其中一个品系而已,另外还有很多其他品系可以搜索,于是来探索一下

第一个被测序的小鼠基因组

参考:https://www.ncbi.nlm.nih.gov/grc/mouse https://baike.baidu.com/item/C57BL/6/6247218?noadapt=1

当时组装参考基因组使用的品系是:C57BL/6J

1921年立特(Little)用艾比·拉特洛坡(Abby Lathrop)的小鼠株,雌鼠57号与雄鼠52号交配而得C57BL。1937年从C57BL分离出C57BL/6和C57BL/10两个亚系。

C57BL/6, 常被称作“C57 black 6”、“C57”或者“black 6”(标准简称为B6), 是一种常见的近交品系实验鼠。在遗传学试验中广泛用作转基因鼠以模拟人类的基因缺陷类疾病。因其可用作同类系、易于繁殖和体格健壮等特性,是使用范围最广、销量最好的一支鼠株品种。

由于B6品系是第一个完成基因组测序的小鼠,因此获得了广泛的关注

目前有三个版本:

就像hg19、hg38一样,小鼠也是有mm9(GRCm38)【诞生于2012年1月】、mm10(GRCm39)

不同数据库的基因组命名也是不同的

以我之前做的人类基因组为例:

不同版本之间的坐标不同,注意转换,可以参考UCSC的工具:https://genome.ucsc.edu/cgi-bin/hgLiftOver

来自Sanger研究所的小鼠基因组计划

参考:https://www.sanger.ac.uk/data/mouse-genomes-project/

小鼠的品系多种多样

除了B6品系,还有很多其他的实验小鼠,比如BALB/C品系,具有白化、免疫缺陷,是近交品系。1913年培育,1974年定名为BALB/cByJ。它对致癌物特别敏感,可用于肾癌、肺癌等动物模型构建。另外,还可以用于杂交瘤和单克隆抗体的制备,在免疫研究中也比较广泛。

计划初衷

小鼠基因组计划还在进行,目的是将实验室常见小鼠品系之间所有形式的遗传变异进行编目,并为关键品系构建和注释参考基因组。

主要有两个方向,都是基于NGS:

  • 研究序列变异:短读长测序并以C57BL/6J为参照,鉴定其他品系的变异(SNP、InDel、SV)
  • 组装基因组:从头组装并得到常用品系的基因组注释
研究序列变异

包含了以下的品系:

所有比对的bam文件在:ftp://ftp-mouse.sanger.ac.uk/current_bams

所有鉴定的变异VCF在:ftp://ftp-mouse.sanger.ac.uk/current_snps

所有的变异信息都已发布,并且可以无限制使用,可以引用:

Mouse genomic variation and its effect on phenotypes and gene regulation. Keane TM, Goodstadt L, Danecek P, White MA, Wong K et al. Nature 2011;477;7364;289-94 PUBMED: 21921910; PMC: 3276836; DOI: 10.1038/nature10413

组装基因组

主要得到了16个品系的组装结果,如果有基于这些基因组的研究或者存在疑问,可以联系Sanger( mousegenomes@sanger.ac.uk)

全部的信息存储在了FTP站点:ftp://ftp-mouse.sanger.ac.uk/

  • 最新的bam文件是2020年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1905-BAM/
  • 最新的vcf文件是2018年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1807-SNPs_Indels/
  • 最新的基因组是2016年上传的:ftp://ftp-mouse.sanger.ac.uk/REL-1509-Assembly/ 包括了各种品系小鼠的基因组序列

看到其中基因组还有三种不同的命名:

  • <strain>.fa.gz : Assembled chromosomes+unplaced scaffolds (>2kbp)
  • <strain>.fa.masked.gz : Repeatmasked chromsomes+unplaced scaffolds (>2kbp)
  • <strain>.fa.out.gz : Repeatmasker output file of annotated repeats

其他数据库的记载

比如在Ensembl

https://asia.ensembl.org/Mus_musculus/Info/Strains?db=core

比如在UCSC

http://hgdownload.soe.ucsc.edu/hubs/mouseStrains/hubIndex.html

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related