020-生信数据库「未完」

刘小泽写于18.8.6

大致分为核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、基因组数据库、非编码RNA数据库等

1 核酸序列数据库

主要存储在GenBank(美国,附属NCBI)、ENA(欧洲,附属EMBL-EBI)、DDBJ(日本),它们组成了国际核酸联盟(International Nucleotide Sequence Database Collaboration, INSDC),每天交换数据。

数据类型中文名NCBIEMBLDDBJ
NGS reads高通量测序序列Sequence Read Archive (SRA)European Nucleotide Archive (ENA)SRA
Cappillary reads一代测序序列Trace Archive同上同NCBI
Annotated Sequences注释序列GenBank同上DDBJ
Samples生物样本BioSample同上BioSample
Studies研究计划Bioproject同上Bioproject

1.1 GenBank数据库

它是NIH(National Institute of Health)附属的注释核酸数据库,两个月一次更新。1982年release3包含606条序列,共680338个碱基。截止2018.7.15,已经到了release226,

访问方式:
  • Entrez Nucleotide
  • FTP方式进行文件下载:ftp://ftp.ncbi.nlm.nih.gov/genbank
主要包括:
  • WGS(Whole Genome Shotgun):未注释的全基因组测序序列数据库
  • TSA(Transcriptome Shotgun Assembly):转录组测序组装序列数据库
  • TLS(Targeted Locus Study):特定位点研究
  • 【后来这三个为了避免重复统计,都开始各自单独统计】
Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related