020-生信数据库「未完」
刘小泽写于18.8.6
大致分为核酸序列数据库、蛋白质序列数据库、蛋白质结构数据库、基因组数据库、非编码RNA数据库等
1 核酸序列数据库
主要存储在GenBank(美国,附属NCBI)、ENA(欧洲,附属EMBL-EBI)、DDBJ(日本),它们组成了国际核酸联盟(International Nucleotide Sequence Database Collaboration, INSDC),每天交换数据。
数据类型 | 中文名 | NCBI | EMBL | DDBJ |
---|---|---|---|---|
NGS reads | 高通量测序序列 | Sequence Read Archive (SRA) | European Nucleotide Archive (ENA) | SRA |
Cappillary reads | 一代测序序列 | Trace Archive | 同上 | 同NCBI |
Annotated Sequences | 注释序列 | GenBank | 同上 | DDBJ |
Samples | 生物样本 | BioSample | 同上 | BioSample |
Studies | 研究计划 | Bioproject | 同上 | Bioproject |
1.1 GenBank数据库
它是NIH(National Institute of Health)附属的注释核酸数据库,两个月一次更新。1982年release3包含606条序列,共680338个碱基。截止2018.7.15,已经到了release226,
访问方式:
- Entrez Nucleotide
- FTP方式进行文件下载:ftp://ftp.ncbi.nlm.nih.gov/genbank
主要包括:
- WGS(Whole Genome Shotgun):未注释的全基因组测序序列数据库
- TSA(Transcriptome Shotgun Assembly):转录组测序组装序列数据库
- TLS(Targeted Locus Study):特定位点研究
- 【后来这三个为了避免重复统计,都开始各自单独统计】