057-生信基础知识复习之测序

Nov 25, 2018 9 min read cnposts

刘小泽写于18.11.25
每学习一遍之前的知识，总能从不同角度获取一些观点，然后扩增自己的知识库，这就是“知识迭代”
这次我也就是想到哪写到哪，把自己认为重要的内容梳理下，用Q&A的形式展示，没想到测序内容这么多，所以先当作第一部分吧

测序相关

Q1：生物体内的DNA的ATCG核苷酸是怎么转换成计算机识别模式的？

ATCG结构

首先要区分

这是ATCG的化学结构，其中A、G结构类似，属于嘌呤类；C、T（U）结构类似，属于嘧啶类，我们测序的目的就是区别这几种结构。人类基因组中有30亿个碱基，要想区分其中的四类碱基，一个个分析结构肯定不靠谱，于是想到了使用颜色进行区分，也就是**“光信号”**方法

利用光信号测序

Sanger测序、Illumina、454等都是利用光信号。

光信号方法就是要让每个碱基带上颜色，就需要给每种碱基带上特定的荧光基团，荧光基团在测序仪激光作用下被激发，发出的光被照相机记录下来，然后荧光基团失效，接着加下一个碱基（利用了illumina的“可逆阻断终止技术”，简而言之，就是：在碱基3‘端加一个阻断基团，当聚合成功之后，就不能在继续3‘端加其他碱基了，这时利用激光捕获荧光信号，之后切掉荧光基团和阻断基团，让下一个带荧光的碱基继续进行）。

另外还可以用**“电信号”** （例如英国牛津纳米孔公司ONT的MinION测序仪以及18年被illumina以12亿美金收购的太平洋生物公司的SMRT技术）。基本思想就是：4种碱基结构不同，带的电荷就不同，在聚合的过程中，让它们通过电极，产生不同的电信号，利用电信号来区分【不过这种测序装置的灵敏度要求要比光信号更严格，才可以检测微小的电信号差别】

然后要规模

早起Sanger测序是利用了“末端终止技术”，这样准确但是效率比较低，因此illumina开发了“边合成边测序”，每合成一次就可以读取一个碱基，并且合成越长，测序读长就越长。这种技术就需要利用PCR进行大规模的扩增，但是我们知道，PCR技术收到酶活性的影响是有合成限制的，不可能无限扩增下去，illumina给出的解决方案就是：“双末端测序” ，就是正向测一段，反向再测一段，这样就在PCR循环一定的情况下，增加了测序读长

Q2：测序的基本流程是怎样的？

以常用的illumina二代测序为例，大体分为：建库、cluster、测序三步

**建库之前：**首先进行DNA样本的质量检测【1. 最好取单倍体（二倍体或多倍体有等位的杂合位点，测序时不容易分区哪种时物种真实存在的杂合位点，哪种时测序错误导致的假阳性）；2. DNA纯度要达到OD值要求（也就是DNA不能混杂蛋白质，对人和动物最好用红细胞提取DNA ）；3. DNA样本不能降解（因为测序时需要对样本进行随机打断，一般来讲，DNA越长，打断的随机性就越高，比如15K序列打断成500bp文库，这样打断的组合方式就很多，但1K的序列打断成500bp文库，组合方式就很少。如果降解成小片段，就无法进行随机打断）；4. 测序量要够，能满足建库要求（测序的数据量是由加入的样本量决定的，并且为了重复需要保存备份）】
建库： 先理解“文库”（它是DNA片段的集合，将测序DNA随机打断就构成了DNA文库）。建库的过程可以想象成是硬盘格式化，出厂的硬盘（也就是未处理的样本DNA）直接插入计算机（测序仪）是不被识别的，需要分区挂载（也就是检测、打断、加接头等操作）后才可以。
第一步：随机打断 这时的DNA是一条很长的片段（比如几百K的片段），使用机械法、酶接法、超声波（常用），然后设置打断的大小如500bp，然后这个长DNA就会断成许多的500bp的短片段，就形成了500bp左右的文库（需要注意：这里的500bp表示大部分片段在500bp左右，但并非每条片段都正正好好是500bp，可以存在400bp或者700bp）【常见的文库还有170bp文库、350bp文库、800bp、2K、5K、6K等】一般**1K以下属于小片段文库，1K以上是大片段文库。**文库大小的值又叫作“插入片段长度 Insert size”（这个值很重要，在序列拼接、短序列比对中会经常用到）
第二步：电泳 将一定范围内的DNA进行回收，如果要500bp文库，可以回收300-800bp的胶
第三步：3‘加A 在3‘加上一个A碱基，将原来平末端变成粘性末端，更容易在后续过程中连接引物和接头
第四步：加index标签 这是一个6-8bp的碱基片段，用于区分不同的测序样本。现在测序一条lane 能产生30G以上的数据，但是有的物种DNA没这么大，为了减少机器空转，可以将不同物种的DNA混合起来进行测序，但是下机后如何区分提交给客户呢？这就需要利用标签
第五步：加接头
加接头目的是将测序片段固定（或者叫“种”，种花的zhong）在flowcell的lane上，防止被测序的液体冲走。接头包括：P7接头、P5接头，其中P7接头和lane上的一样，P5和lane上互补，这样的目的是为了后面的桥式扩增
cluster： 这个词是“簇”的意思，也就是富集序列。因为测序需要荧光信号，如果仅对一条序列进行检测，那么信号很弱，识别错误率会很高，如果对一簇相同的序列同时检测某个位点的光信号，那么准确度就大大提高这个过程就是“桥式PCR”，原来一条链以指数增长成为一簇“克隆” 序列条数x测序读长=一次测序量
测序：加入dNTP（与桥式PCR中加的普通dNTP不同，它的3‘被叠氮基团修饰）、聚合酶。先从cluster同一条链的第一个碱基开始测，再到第n个碱基，直到测完整条链，得到reads1【注意这里才正式出现了reads这个名词，意思就是：一个碱基一个碱基读取】测完reads1，加入碱性溶液将刚才测序完的链解链冲掉，加再入第二种测序引物，正好reads2的测序引物结合位点在index序列旁，先读取6-8个碱基测得index序列；然后合成原来测序链的互补链，并切除原来测序链，还是按照原来方法测的reads2

测序完成后并没有得到想要的ATGC碱基顺序，而是一堆照片，下面就是图像处理转换成有颜色的光点文件（二进制BCL文件，即basecalling），其中包括测序仪编号、run序号、lane序号、tile号、X/Y坐标、index、reads1/2、碱基序列、质量序列、是否通过质量过滤（1为通过；0表示质量差）

Q3：已经知道文库有大片段文库（1K以上）和小片段文库，文库多大就能测多大吗？另外测序是双端测150bp左右，那么中间还有一部分没有测到，这样会不会有问题？基因组上的这部分区域会被忽略吗？

首先，不管构建多大的文库，测序得到的都是两端很短的序列（比如双端150就是得到两个150bp的reads）；

其次中间测不通并不会有问题，而且是非常正常的现象！因为文库构建是随机打断过程，所以即使第一条片段中间没有被测到也没关系，后面的其他片段一定能测到这中间的部分（因为一次测序过程会产生成百上千万条reads，而基因组就那么大）

另外，你可能会想：既然只能测两端很短的一部分，那么小片段和大片段文库的区别在哪？反正都测不完。其实，大片段文库的目的，除了得到序列以外，更重要的是，为了获取片段的坐标距离（即两条reads之间的物理距离关系，将会为序列拼接和基因组结构变异检测提供帮助）。当然，目前大片段文库还有一些问题，比如现在PCR手段不能扩增太长的片段，另外我们只能测两侧的很短的片段，那么中间合成出来却不能测，造成了浪费！

但是这些问题illumina给出了大片段文库的解决办法：

在随机打断序列后，大片段比小片段文库多了一个环化处理，经过末端修复，再将一个线性长片段头部进行生物素标记，再进行环化（即：把片段首尾连接成一个环）【我们现在知道了：小片段文库是pair end；大片段文库是mate pair】 曾经我也是为这两个概念搞的头晕转向🥺

理解Mate pair

关于大小文库的差别：

大小片段文库的差别

Q4：为什么不能测完整的基因组？

理想的情况是：基因组有多大，我们就能测多大

但事实是：我们提取的DNA就不是完整的一整条，而是断成许多片段，比如10M基因组提取出来，可能也就剩一堆几百K的片段。现在可以做的就是对这些几百K的片段随机打断测序；另外，目前二代测序基本都依赖PCR扩增，因此限制了读长

Q5: 目前市面上一二三代测序并存，怎么选择？

存在即合理，因为没有任何一种测序技术能胜任任何工作，才会出现现在的局面。对于选择困难症患者来讲，一般可以从测序读长、通量、准确性、价格角度考虑

不同测序简单了解

所以也能理解，为什么illumina是目前的龙头，另外收购Pacbio后它在三代的市场又可以一展拳脚了

Q6: GC bias是什么意思？

基因组正常的GC含量是35-65%，如果小于35%或者大于65%就属于异常。我们知道AT是2个氢键连接，而GC是3个氢键，因此如果GC含量太高，在PCR过程中解链需要的能量更高，导致模版链更难打开，默认的温度下，DNA模版变性不完全；另外PCR产物难易结合到模版，DNA聚合酶也难以延伸，结果就是出现非特异性条带，不容易被扩增，因此也无从谈及测序，最后基因组覆盖不均匀，丢失部分信息

对于这样的样品，可以构建PCR-free文库 ，但需要更多样本量

Q7: 关于读长、插入片段大小的选择

我们知道了小片段测序文库中有多种规格可供选择，如：170bp、350bp、500bp、700bp等。读长的话，在保证准确性前提下，越长越好，有利于序列拼接。例如Miseq可以实现PE 300bp的读长，如果选择500bp文库和Miseq PE300（效果可以和454差不多了），那么中间就会有100bp重叠区域，发生了所谓的“片段测通”，可以利用这个区域将两个reads拼接起来，形成更长的序列。

文库大小需要和reads读长相协调，对于较短的测序片段，文库不能过大；对于De novo 拼接，可以先使用小片段文库，然后转为大片段文库，并逐级增加文库大小如2K、6K、10K、20K等【目的就是合理使用重叠区域进行逐级拼接】

Q8：为什么小片段文库如500bp需要两端分别测，而不能一次测通500bp呢？

利用PCR反应是可以实现的，就是一直扩增，把500bp全部测出来。不能这么做的一个因素是：PCR中DNA聚合酶的活性会下降，因此测序错误率会随着测序长度增加而增加 ；另外一个因素就是Phasing，按说cluster中所有片段都要保持同步，第一次大家都加第一个碱基，第二次都加第二个碱基… 但实际上，总有几个走的快或者走的慢（一次加两个碱基或者这一次一个碱基也没加），这些“离群”的碱基出来的荧光值就会带给整体干扰

Q9：不同的测序，不同的操作？

对于全基因组测序，就是按上面的测序步骤就好；

对于转录组测序，就需要考虑RNA反转录的问题，那么是先反转录再打断还是先打断后反转录呢？ 其实比较高效的方法是：先反转录后打断。一般转录本比较短（小于2K），那么选择文库时就不能太大（比如，不能选800bp文库，因为2K的序列，打断成800，随机性不是很好），可以考虑小一些的文库（300左右）

另外还有很多测序类型：外显子组、甲基化、小RNA、宏基因组等

background

057-生信基础知识复习之测序

测序相关

首先要区分

然后要规模

Yunze Liu

Bioinformatics Sharer

Related