刘小泽写于2020.5.22 癌症,一种慢性的基因病。 原文来自:http://www.huangshujia.me/2017/01/02/2017-01-02-cancer-genomics-review.html

简介

在癌症研究中,每个癌症样品呈现在研究人员眼前的已经是一个发生了改变的基因组,其中包含着独特且难以预测的诸多点突变、序列的插入缺失、易位、融合以及其他畸变。并且,这些发生的变异中,许多往往都是之前所未观察到的(Novel mutations),它们也不会只存在于基因组的编码区域中,因而为了能够真正做到全面研究癌症基因组本身所发生的所有突变事件,全基因组测序已被视为肿瘤基因变异研究中 唯一 严谨的方法。

然而,在所有这些变异中,却只有少数的几个主导着癌症这一疾病的发展和演变。要有效揭示这一演变和发展的过程,就需要监控基因表达水平上的变化,那么RNA-Seq便是用以确定这些遗传改变是否会影响疾病发展有用技术。但遗传改变有可能影响所有的细胞过程,包括染色质结构、DNA甲基化、RNA剪接异构体、RNA编辑和microRNA(miRNA)等。这就意味着,只有对所有这些独立的过程都进行检测和综合分析,才能在癌症研究中取得真正的突破。这些内容我们都将在下文一一展开。

当前基因组测序技术的一大特点是在于能够在很短的时间内并行测得数十亿(甚至数百亿)的独立序列片段——read,而每个read来源于单个的DNA分子。由此产生的数据我们可将其视为是对DNA分子的随机抽样,这反过来代表肿瘤样品中每个细胞的基因组的情况。

image-20200522215941427

肿瘤异质性

癌症基因组突变是复杂的

每个人都携带一套独特的来自父母遗传的胚系突变(germline mutations)信息。但随着癌症的发展,体细胞突变(Somatic mutations)和基因组重排(genomics rearrangements)会逐渐增加。这些改变往往会引发耐药性以及转移。越来越多的研究证据表明,这些过程竟然可以是 有意的!——它们其实可以认为是癌细胞面临药物刺激的过程中不断进化的结果。我们想要全面地理解这一复发和耐药性的原因,就有必要进行纵向实验,按照癌症的发展过程,分阶段采集样品来进行研究。

image-20200522220042859

上图是处于正常组织背景下的多克隆肿瘤(polyclone tumor)。大多数的肿瘤样品都会同时包含肿瘤细胞和正常细胞,如基质细胞、血管和免疫细胞。并且肿瘤本身也常常包含几种不同的克隆亚型(clone types),每一种都有着不同的治疗反应和复发可能。

根据传统病理学的估计,大部分研究的结果其实都只集中在那些肿瘤细胞比例 >60% 的区域中。并且为了确定哪些突变是肿瘤特异的,通常都要包含来自同一个体的正常组织样本作为参考

然而,肿瘤本身也往往是异质性的。在癌症发展的过程中,个别细胞会发生新的突变,包含这些新突变的细胞会继续增殖,形成克隆亚型。因此,对于晚期癌症我们通常检测到的都是一个多克隆肿瘤,其中每一个克隆有一套独特的突变信息、独特的病理学和药物反应机制。这其实也正是癌症难以完全治疗的原因,而它的这种 异质性其实正是肿瘤基因组复杂性导致的一种表型性质。目前的深度测序可以检测样本中含量低至1%的克隆。

image-20200522230339332

体细胞突变的逐步累积产生了一个异质的多克隆肿瘤,其中不同克隆可能对治疗的反应不同。

异质性一般还可以分两种情况讨论

  • 第一种情况指的是:同一个病人的肿瘤细胞具有异质性。处于肿瘤发生的不同时期的肿瘤细胞的基因突变情况不同,造就了每一个肿瘤细胞群体内还有许多亚群(subclones),肿瘤细胞在通过转移时,就会有属于不同亚群的肿瘤细胞去侵入新的地方,形成新的肿瘤;
  • 第二种情况指的是:除了同一病人的不同肿瘤细胞会造成肿瘤的异质性外,肿瘤的异质性还体现在不同病人可能得了相同的肿瘤,但是那个『相同』未必真是相同——仅仅是表型相同,不代表着基因型也相同。

在某些基因中,突变频繁发生在同一个位置,这应该有特定的机制在起作用,这些有规律性的情况都会稍微容易对付。然而遗憾的是,对于大多数的基因,突变显然是随机出现在整个基因中的,这其实说明了DNA的复制和修复机制失灵了。

image-20200522231903566

图中为两个假定的基因,他们有着两种不同的突变模式。深灰色框代表外显子组,而红色柱子代表存在突变的位置。A: 特定位置的频发突变可能表示有产生突变的生物学机制的参与。B: 散发突变存在于整个基因中,如P53,可能是由于复制和修复机制的失效。我们可以通过测序检测这两种情况下的突变。

转移

肿瘤的转移是一个复杂的过程,其中癌细胞脱离原发肿瘤,通过血液或者淋巴系统循环到身体的其他部位。在新部位,细胞继续繁殖,最终形成更多肿瘤,这些肿瘤包含了反映其组织来源的细胞。肿瘤(胰腺癌和葡萄膜肿瘤)转移的能力大大增加了它们的致死性。关于转移肿瘤的克隆结构、转移酶之间的系统发育关系、转移和原发部位的平行进化规模,肿瘤如何扩散,以及肿瘤微环境在转移部位决定中的作用如何等,许多这些基本问题目前仍然没有很好地解决。

image-20200522233032005

转移瘤可能来源于原发肿瘤中一个主要克隆(如上图:Metastasis1),也可能来源于次要克隆(Metastasis2)。转移瘤也会经历克隆进化(如Metastasis1所示)

基因组突变

所有的肿瘤在其发展的过程中都会不断积累体细胞突变(somatic mutations)。大多数常见的肿瘤与不同的癌基因相关联,这些癌基因以低频率发生突变。从大型癌症数据库中观察到的一个最令人惊讶的现象是癌症间甚至各个癌症类型内的显著遗传异质性。然而,似乎只有有限的细胞通路对肿瘤的细胞生物学很重要。目前很多人正在编辑收录各种癌症类型的体细胞突变综合列表,这对于更好地了解这种疾病背后的机制将有很大的指引作用。

相关研究

Nik-Zainal S., Alexandrov L. B., Wedge D. C., Van Loo P., Greenman C. D., et al. Mutational processes molding the genomes of 21 breast cancers. Cell 149: 979-993 这篇文章中研究了21个乳腺癌基因组,并给出了它的一个体细胞突变列表。发现带BRCA1或者BRCA2突变的癌症会有一种特别的替换突变特征和与众不同的缺失图谱。文章中还描述了一种局部的超突变现象,这称为『kataegis』(kataegis,希腊语中『雷雨』的意思,文中指的是在一个小区域中出现大量突变的机制,如下图)。并且这些区域中的碱基替换几乎都发生在TpC二核苷酸的胞嘧啶上!

image-20200522233941107

基因融合

基因融合是非常普遍的,也是癌症的一个重要特征。基因融合是由两个原本分开的基因或位点融合形成的。他们可能形成一种基因产物,很多时候表现出来的功能都是全新的,与两个融合的基因个体都不同。

一个强启动子与一个下游功能基因(比如:原癌基因)的融合在某些癌症中很普遍。据估计,半数的前列腺癌含有TMPRSS2和ETS转录因子家族成员之间的融合。胰腺癌的特点便是染色体重排的频繁断裂-融合-桥循环。

目前有几种方法可以通过测序研究融合事件,如对肿瘤的全基因组测序和mRNA-Seq。

mRNA-Seq与全基因组测序组合的方法对于发现基因融合及其机制特别高效。原因就是mRNA-Seq可以提供直接的证据,来支持观察到的融合是否发生,并同时为融合基因是否表达提供了证据。而全基因组测序可以发现那些mRNA-Seq所发现不了的区域的信息,如基因间区和UTR。

image-20200523094719787

由折回倒位所引起的融合事件可捕获基因组中遥远区域的片段,如着丝粒重复或参与体细胞重排的区域。在这个例子中,6号染色体上的片段被插入到19号染色体上的重复区域之间。注意19号染色体的第二个拷贝是倒置的,这是折回倒位的特点。

再有一个例子:MED1(红色)与几个伙伴基因(蓝色):ACSF2,USP32STXBP4形成基因融合。

image-20200523095547522

以Pair-end进行全基因组测序是目前检测基因融合最准确、最全面的工具,这些融合包括重复、倒位、通读和单碱基插入缺失。可以说Pair-end是检测融合基因成功与否的一个关键因素。高深度测序结合更长的读长可以分辨融合连接中微同源的单碱基。而且这种能力是测序独有的。

染色体碎裂

这是一个不希望发生的现象,染色体碎裂是一个一次性的细胞危机,在单次事件中发生数十次至数百次基因组重排。这种灾难性事件的后果是复杂的局部重排和拷贝数变异,其中染色体上2个(偶尔3个)拷贝的有限范围可被检测。这种单次灾难性事件的模式不同于癌症发展的逐步积累突变的典型模式。在突变积累的癌症发展模式中,拷贝数无上限,因此通常有一个较大的范围。据估计,在所有癌症及其不同亚型之间,染色体碎裂的发生概率约2-3%,而在骨癌中发生概率则大约25%

image-20200523175102203

拷贝数变异(CNV)

结构性变异影响基因量——可转录基因的功能拷贝数。肿瘤发展、药物反应及耐药性的发生通常是由基本的基因扩增和删除来驱动的。这些基因组上的改变可分成大的畸变和小的畸变。

  • 大的畸变包括整个染色体或部分染色体的丢失或重复,这被称为非整倍体。
  • 小的畸变可能只包含一个碱基,比如点突变和小片段的插入缺失。

与健康的基因组不同,这些基因表达的改变会受到转录因子的严格调控,癌症基因组则通过基因的重复和删除来适应和逃避这种调控。癌症耐药性的发生正是此反应的速度和效率的绝佳证明。

基因表达

基因表达分析测定基因转录、RNA加工和表观遗传控制的产物。基于mRNA-Seq的方法也可检测非常快的转录变化、剪接异构体、融合基因以及可变聚腺苷酸化位点。

大部分实验方案采用poly(A)富集的RNA制备方法来测定mRNA水平。然而,非编码RNA,如miRNA,也在细胞的生物学中发挥重要作用,并常常介导对肿瘤生长和存活很关键的过程。

选择性剪接

癌症特异的选择性剪接是个普遍存在的现象,也是个主要的转录后调控机制,涉及到许多癌症类型。

Seo J. S., Ju Y. S., Lee W. C., Shin J. Y., Lee J. K., et al. (2012) The transcriptional landscape and mutational profile of lung adenocarcinoma. Genome Res 22: 2109-2119 作者分析了韩国200个肺腺癌。他们在LMTK2、ARID1A、NOTCH2和SMARCA4中发现了新的驱动突变。他们还发现了45个融合基因,其中8个是嵌合的络氨酸激酶。在17个反复发生的选择性剪接事件中,原癌基因MET中的第14号外显子跳过可能是癌症驱动因素

Thompson-Wicking K., Francis R. W., Stirnweiss A., Ferrari E., Welch M. D., et al. (2012) Novel BRD4-NUT fusion isoforms increase the pathogenic complexity in NUT midline carcinoma. Oncogene 这篇文章发现了PER-624中一种新的BRD4-NUT基因融合编码了一种功能蛋白,它对这些细胞的致癌机制很关键。BRD4-NUT融合转录本是通过易位后的RNA剪接而产生的,这似乎是这些癌症的一个共同特征。这种现象以及促进融合基因的可变异构体表达的机制,过去一直未被发现。

RNA编辑

最频繁的RNA编辑类型是通过腺苷脱氨酶作用于RNA(ADAR)从而实现由腺苷到肌苷的转换。然后紧接着,剪接和翻译机制会将肌识别为鸟苷。在一些肿瘤基因组比正常基因组有着更高比例的RNA-DNA差异。

MicroRNA和非编码RNA

MicroRNA(miRNA)的长度很短,大小集中在17bp-25bp之间,属于非编码RNA(ncRNA)家族的成员。它们调控多种不同的生物学功能,包括发育、细胞增殖、细胞分化、信号转导、凋亡、代谢和细胞寿命。

miRNA的一个主要作用是抑制基因的转录后表达。在多种癌症中,许多miRNA位于存在序列缺失删除或扩增的基因组区域。RNA编辑和miRNA介导的调控之间可能存在着关联。miRNA的测定简单、相对稳定,并且在大量mRNA的控制上起作用,这就让miRNA成为癌症诊断以及治疗期间的检测和分期过程中极具吸引力的标志物。

在设计miRNA的测序深度时,要时刻记住miRNA控制基因表达,因而miRNA水平的小变化可能影响许多编码蛋白。新发现的miRNA应当通过功能分析(如Ago2结合或敲除实验)来确认。

为了要进行严格的分析,应当有足够多的样品量,从而能够充分代表每个肿瘤亚型。而miRNA的表达会随着肿瘤的发展而变化,因此在实验设计时应建立肿瘤分期和分级。

RNA-蛋白结合(CLIP-Seq)

在人类细胞中,大多数mRNA(或前体mRNA)与核不均一性核糖蛋白(hnRNP)相结合,形成大的hnRNP-RNA复合物。hnRNA蛋白在RNA加工的所有关键环节中都发挥重要作用,包括前体mRNA剪接以及mRNA出核、定位、翻译和稳定性。几十种RNA结合蛋白(RBP)和基因的hnRNP蛋白与癌症相关联。

可通过交联免疫沉淀测序(CLIP-Seq)来测定,细胞经过紫外线处理,让RBP与RNA复合物共价交联。细胞随后被裂解,RBP-RNA复合物被免疫共沉淀,从而测序相应的RNA。

表观遗传和甲基化

表观遗传上的改变可能在癌症 起始中 发挥作用 表观遗传的控制是通过多个不同过程进行介导的,包括DNA修饰(甲基化或乙酰化)、组蛋白修饰和核小体重塑

DNA修饰

不同技术的选择取决于所需的通量和分辨率

image-20200523180336653

每种组织和细胞类型都有着独特的甲基化模式;癌症研究中,肿瘤组织-癌旁正常组织的配对可简化分析。

组蛋白修饰

饰通常指的是甲基化和乙酰化。组蛋白H3K9、H3K27和H4K20的甲基化与基因转录的抑制相关,而H3K4和H3K36的三甲基化与活性转录的染色质相关。组蛋白乙酰化几乎总是与染色质可接近性和转录活性水平的增高相关。

组蛋白修饰可以通过各种ChIP-Seq方法进行检测,原理是通过抗体与目标甲基化组蛋白进行特异结合。

染色质结构与重排

染色体重排需要DNA双链断裂的形成和连接。这些事件的发生,会破坏基因组的完整性,并经常在白血病、淋巴瘤和肉瘤中观察到。

特定基因间的反复的基因融合在不同的个体中均观察到,这表明这些基因一定在细胞周期中的某个阶段他们之间的物理位置非常接近。

综合分析(多组学分析)

所有的生物过程都是相互关联的,而在癌细胞发生过程的任何一个变化都会影响其他所有过程。

突变可能影响所表达的活性,继而又影响DNA甲基化,再就影响其他许多基因的表达等等一连串的反应。

癌症中的实验设计面临一些独特的挑战。典型的肿瘤样本包含两个基因组:遗传自父母的生殖细胞系(germline)和在疾病发展过程中积累的体细胞突变(somatic mutations)。每一个肿瘤中又可能同时包含几个克隆亚型。

一般建议为正常基因组最低为40倍的覆盖深度,而癌症基因组需要80倍以上的覆盖深度。在肿瘤高度异质时,可能需要肿瘤不同部位的多次活检,才能包含所有的细胞类型。

检测癌症基因组中的体细胞突变通常有三种方法:全基因组测序、全外显子组测序和靶向基因测序。

  • 在比较多发性骨髓瘤的全基因组和外显子组测序时,半数的蛋白编码突变通过染色体畸变(如易位)而存在,其中大部分不能单独被外显子组测序而发现。全基因组测序无疑是最好的肿瘤分子鉴定方法
  • 靶向重测序是一种有用的技术,可收录超大队列中已知癌症相关基因的突变。短期内,靶向基因测序可为患者匹配出市场上已有的药物,让他们立刻受益。

image-20200523181054958

Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next