148-如何根据SRA数据库的SRS ID下载数据
刘小泽写于19.11.28 平时我们下载数据一般都是直接找到SRR 列表,然后
prefetch
一下,方便快捷。但是当你只有SRS编号时呢?
首先来认识一下什么是SRS编号
SRA数据库的架构是这样的:
SRP(项目 Project)—>SRS(样本 Sample)—>SRX(数据产生 Experiment)—>SRR(数据本身)
首先要知道国际上的三大生物数据库:SRA, ENA or DDBJ,分别在美国、欧洲、日本
生物项目(BioProjects)是最顶层的,根据不同的数据库,它的前缀是PRJ 或者 SRP/ERP/DRP; 其中包含一个或多个的生物样本(BioSamples),它的前缀是SAMN 或者SRS/ERS/DRS; 一个BioSample虽然只是一个样本,但它可以使用多种实验处理,也就是Experiments,前缀是SRX/ERX/DRX; 每个实验都会有一个数据产出Run,它的前缀是SRR/ERR/DRR
因此,一个SRS或许会包含多个实验产生的多个数据,也就可能对应多个SRR号
其实我们最感兴趣的也就是Runs的最终数据,它包含了reads的信息。而prefetch
是针对SRR或ERR这样的数据本身的,并不能直接去下载SRS,需要先利用SRS ID得到SRR ID
怎么将SRS转成SRR
来自:https://www.biostars.org/p/347050/
比如想要下载:
可以直接用SRS551840
esearch -db sra -query SRS551840 | efetch --format runinfo | cut -d ',' -f 1 | grep SRR
然后你就会看到:
SRR1159129
SRR1159377
SRR1181071
SRR1181300
那么接下来,就可以顺利使用prefetch
进行下载
关于prefetch的快速下载
目前就我测试来讲,下面这个组合最好用,还是可以保持ascp的快速下载
prefetch : 2.9.6
Aspera Connect version 3.9.6
具体使用参考之前写的: 来吧,加速你的下载
还有一点内容
如果看到文章中作者给出的数据不是GEO链接,而是放上一个BioProject,那么这时要怎么去获取SRR ID呢?
可以先进入这里:https://www.ncbi.nlm.nih.gov/Traces/study/
然后输入BioProject编号
就能跳转到SRA ID了,接着下载Accession List就好啦