101-我的日常记录—背景知识大全(偏健康领域)

复杂的背景知识是一个大坑,阻碍了刘小泽看文献的脚步,于是打算一点点积累背景,从名词解释开始。始于19.4.9,每天都会更新

[TOC]

名词解释

异质性

癌症异质性是恶性肿瘤重要特征之一

  • inter-patient:病人与病人之间的异质性,这也是精准医疗的前提
  • inter-tumor:病人体内的多处tumor不同,比如肿瘤转移、复发
  • intra-tumor(ITH):随着癌细胞的不断生长,其分裂后的子代细胞呈现出与同代细胞或者父细胞的不同,从而使得其各个方面有了较大的差异。【虽然是同一个tumor,利用显微切割的方法把tumor切成好几块,所以肉眼看是一个tumor,但继续细分还可以分成多种tumor】

为了解释异质性,目前有两种模型:clonal evolution model和cancer stem cell model

克隆进化模型认为:肿瘤起源于正常细胞,这些细胞突变并产生了异常的后代,而后代细胞又发生突变,形成大量的变异癌细胞。认为微环境选择压力导致了连续突变的积累,出现了肿瘤 癌症干细胞模型认为:能发育成肿瘤的变异细胞称为癌症干细胞(Cancer Stem Cells,CSCs)。肿瘤是被一个单一的、成体干细胞异常型所引发和驱动。而且正常干细胞行使功能几个重要途径和基因在癌细胞中被活化,在肿瘤 形成过程中起到关键作用。极个别能促进癌症形成的自我更新干细胞很难被杀死,并且它们顽强的生命力可以解释为什么肿瘤常常在成功治疗后仍然会复发。癌症干细胞位于这一层级的顶端,具有肿瘤起始和扩散的能力。

另外异质性还根据不同形式分为:

  • 时间和空间异质性 spatial and temporal heterogeneity 反映在实验中就是:空间上一般一个病人取多个样,时间上就是培养不同代的细胞
  • 临床和组织病理学异质性 clinical and histopathologic heterogeneity

类器官Organoids

类器官属于三维(3D)细胞培养物,与对应的器官拥有类似的空间组织,包含其代表器官的一些关键特性并能够重现对应器官的部分功能,从而提供一个高度生理相关系统。这个技术始于2009年荷兰Hubrecht研究所的Clevers团队将肠干细胞培养成了小肠的隐窝和绒毛结构,2013年”Science十大突破”,2017“Nature Methods年度技术”

http://www.biodiscover.com/news/research/728891.html

  • 患者衍生的类器官(PDOs)可以补充现有的方法来确定癌症的敏感性从而改善治疗方法:如果药物对PDOs有效,则88%对患者有效;如果药物对PDOs无效,则100%对患者无效。PDOs表现出100%的敏感性,93%的特异性,88%的阳性预测值和100%的阴性预测值
  • 类器官可以避免患者遭受无效抗癌药物的可怕的副作用
  • 缺乏精密可靠的培养条件控制,并且无法提供符合生理条件的培养环境,3D培养的类器官更具有生理学意义
  • Xcell Biosciences的Avatar“个体化细胞精准控制系统”,可提供“类器官”培养的完整解决方案(包括:提供个性化的培养条件,通过模拟细胞在体内的微环境,让原代来源的免疫细胞、干细胞、肿瘤细胞、类器官等很难成功培养的珍贵细胞得到稳定培养)。传统类器官的培养需要耗费数个月,它可以至少提高八倍时间

4种胃癌分子亚型

分型一般按照突变或表达进行区分

  • 病毒(EBV:爱泼斯坦-巴尔Epstein-Barr)阳性型肿瘤:约占胃癌的9%,表现为较高频率的PIK3CA基因突变 和DNA极度超甲基化,以及JAK2、CD274(又称PD-L1)和PDCD1LG2(又称PD-L2)基因扩增

    EB病毒是Epstein和Barr于1964年在伯奇氏淋巴瘤病人的细胞所发现。此后被认为和许多疾病有关,全世界有超过90%的人口受到EBV的感染。

  • 微卫星不稳定(MSI)型:约占22%,表现为重复DNA序列突变增加,包括编码靶向致癌信号蛋白的基因突变

  • 基因稳定**(GS**)型:约占20%,组织学变异丰富且范围广,RHOA基因突变或RHO家族GTP酶活化蛋白基因融合现象多见

  • 染色体不稳定(CIN)型:占胃癌比例近一半,表现为显著异倍体及受体酪氨酸激酶的局部扩增

每种分型的分子特性不一样,分子特性就是:这种分型有哪些基因容易突变,另一种又有哪些基因

  • enrichment of RNF43 and ARID1 mutations in MSI
  • ARID1 and PIK3CA mutations in EBV
  • TP53 mutation and oncogenic amplification in intestinal type (CIN)
  • CDH1, RHOA mutation, or ARHGAP fusion in diffuse type (GS) GCs.

肿瘤纯度 Tumor purity

肿瘤存在异质性,肿瘤组织中会包括围绕在肿瘤细胞周围的各种免疫细胞,还有肿瘤微环境其它细胞,肿瘤样本中癌细胞所占的比例为肿瘤纯度。手术不太可能将肿瘤和正常细胞分区太开【如果要更好地区分,一般要用带荧光的肿瘤细胞marker,然后上流式细胞仪】。一般介于**30~60%**之间。如果发现肿瘤纯度很低,说明病人本身没有多少肿瘤细胞,这样后续分析不好得到结果。

许多软件可以进行评价:

一篇2015年的 Systematic pan-cancer analysis of tumour purity 采用gene expression profiles (RNA-seqV2), DNA methylation profiles (HumanMethylation450) and immunohistochemistry (IHC) 方法,分析了TCGA计划21种癌症的9,364 tumour samples + 1,958 adjacent normal samples的肿瘤纯度,它的结果得到肿瘤纯度平均值在0.8左右。文中采用了4种方法评价

  • **RNA层次-ESTIMATE:**发表于2013( Inferring tumour purity and stromal and immune cell admixture from expression data),方法全称是Estimation of STromal and Immune cells in MAlignant Tumor tissues using Expression data。这个算法基于单个样本的GSEA,生成3个分数:

    • stromal score (that captures the presence of stroma in tumor tissue)
    • immune score (that represents the infiltration of immune cells in tumor tissue)
    • estimate score (that infers tumor purity)
  • DNA层次-ABSOLUTE:利用肿瘤样本的CNV和SNV等信息,对肿瘤纯度进行估计

    install.packages("numDeriv")
    install.packages("ABSOLUTE_1.0.6.tar.gz")
    # 测试数据
    http://software.broadinstitute.org/cancer/software/genepattern/modules/docs/absolute/2#exampledata
    
  • 甲基化层次-LUMP:leukocytes unmethylation for purity

  • 实验层次-IHC:immunohistochemistry

  • 另外还有PyClone:推断肿瘤纯度及肿瘤内部亚克隆结构[文章:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4891103/]

头颈部鳞状细胞癌HNSCC

  • HNSCC是最常见的十大癌症之一,与酒精、烟草密切相关的异质性上皮肿瘤。每年患者约50万,往往在晚期出现淋巴结转移(LN),患者中超过80%是口腔鳞状细胞癌(OSCC)。5年存活率为50%(也就是说,100个患者中,5年后仍然存活的不足50人),是存活率最低的癌症之一,近30年没有改善。
  • TCGA分析了数百个HNSCC肿瘤表达谱,将它们分成4个亚型:基础性(basal, 31%),间充质型(mesenchymal,27%),经典型(classical,18%)和非典型型(atypical,24%)

结肠直癌 CRC

  • 消化道恶性肿瘤之一,2018年 Cancer Stats统计显示:结直肠癌在男性中发病率第2死亡率第3,女性发病率第4,死亡率第3;
  • 典型的分子特征:基因组不稳定性、表观遗传性异常、基因表达紊乱;
  • 高度异质性,目前有4个分子亚型:CMS1占到14%,以超突变,MSI和强免疫系统激活为特征,BRAF可能作为驱动基因;CMS2占到37%,主要以表皮WNT和Myc信号通路激活为主要特征,APC基因可能作为驱动基因;CMS3占到13%,主要以代谢异常为主,KRAS可能是驱动基因;CMS4占到23%,以EMT和血管生成为主,具有较高的体细胞拷贝数变异性,而在约13%的情况出现混合CMS的情况
  • 肝脏是结直肠癌 血行转移最主要的靶器官,结直肠癌肝转移(colorectal cancer liver metastases ,CRCLM)极为常见,有15-25%初次确诊的CRC患者会产生同时性肝转移,有20%患者在切除原发性肿瘤后会产生异时性肝转移。结直肠癌确诊时同时发现的或在结直肠癌原发灶根治性切除术后 6 个月内发生的肝转移定义为同时性肝转移(synchronous metastases);结直肠癌根治术后 6 个月后发生的肝转移,称为异时性肝转移(meta chronous metastases);距离原发瘤诊断时间隔不足 12 个月的异时性转移瘤称为近期异时性转移;反之称为远期异时性转移。肝转移CRC患者的5年总生存率仅为25-40%,相比非肝转移患者(69.5-95.7%)显著降低。
  • 大约25%的患者可以通过肿瘤切除手术治愈,目前也是唯一的治疗方法(肝切除手术方法可使5年生存率达到50%以上,而保守治疗仅为5%左右)(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5769309/)

Merkel细胞癌 Merkel cell carcinoma

又称神经内分泌皮肤癌(neuroendocrine carcinoma of the skin or trabecular cancer),特点是罕见、快速扩散,常见于白种老年人,平均诊断年龄为 75 岁。Merkel 细胞癌也会影响免疫系统虚弱的年轻人。

皮肤癌是最常见的一种癌症,基底细胞癌,鳞状细胞癌以及黑素瘤是皮肤癌的三种主要类型,其多少与长期的日光照射有关。

  • a very rare disease in which malignant (cancer) cells form in the skin
  • a single painless lump on sun-exposed skin
  • a weak immune system can affect the risk

免疫检查点抑制剂 immune checkpoint inhibitors(ICIs)

https://www.cancer.org/treatment/treatments-and-side-effects/treatment-types/immunotherapy/immune-checkpoint-inhibitors.html

免疫系统可以在保留正常细胞的同时攻击外来细胞,但是免疫反应的启动需要免疫细胞上的分子被激活/灭活,这个分子就是"检查点“。

比较值得关注的就是PD-1和PD-L1,PD-1和PD-L1是人体内细胞上发现的蛋白质。PD-1是免疫细胞-T细胞上的的检查点蛋白,它通常作为一种“关闭开关”,帮助防止T细胞攻击体内的其他细胞;而PD-L1存在于一些正常细胞和癌细胞上当PD-1与PD-L1结合时,这基本上是告诉T细胞单独离开另一个细胞,不要攻击它。一些癌细胞含有大量的PD-L1,这有助于它们逃避免疫攻击。

靶向PD-1或PD-L1的单克隆抗体可以阻断它们结合并帮助防止癌细胞隐藏,从而增强针对癌细胞的免疫应答。

PD-1抑制剂

1、派姆单抗 Pembrolizumab(Keytruda)

2、纳武单抗 Nivolumab(纳武单抗)

3、Cemiplimab (Libtayo)

PD-L1抑制剂

1、阿特朱单抗 Atezolizumab (Tecentriq)

2、Avelumab (Bavencio)

3、Durvalumab (Imfinzi)

CTLA-4抑制剂:

CTLA-4是一些T细胞上存在的另一种蛋白质,伊匹单抗Ipilimumab(Yervoy)是一种附着于CTLA-4上的单克隆抗体,可以阻止其起作用,从而达到增强身体对抗癌细胞的免疫反应。用于治疗皮肤黑色素瘤。事实上,与针对PD-1或PD-L1的药物相比,ipilimumab更可能出现严重的副作用。


数据库

CCLE - Cancer Cell Line Encyclopedia

课题方向上的突变基因的选择以及合适细胞系的采取是很重要的 如果想知道某个基因在某个细胞系的表达情况,一般要去查文献,甚至自己PCR才可以获得结果,但是癌症细胞系百科全书 可以提供帮助

https://portals.broadinstitute.org/ccle

它是Broad研究所与诺华研究基金会联合开发的癌症细胞系的数据库,已经收录1400多种细胞系的基因信息,并实现了可视化,包含基因表达,染色体拷贝数和大规模平行测序数据,可以用于鉴定基于遗传、谱系和基因表达的药物敏感性预测因子。TCGA等大型肿瘤测序计划中,很多研究都采用了CCLE细胞系的数据,是肿瘤研究必不可少的公开数据之一。

方框里可输入基因或细胞名,结果得到:

  • 各个细胞系中的Copy number拷贝数数据
  • RNA-seq(转录组测序)数据
  • DNA甲基化数据

TCGA

美国癌症基因组图谱计划TCGA ( The Cancer Genome Atlas ) 是由美国国家癌症研究所National Cancer Institute (NCI) 与 国家人类基因组研究所National Human Genome Research Institute (NHGRI) 从2005年开始共同合作的一个大型研究计划

包含6种组学数据:DNA测序相关(WES、WGS=》得知每个样本的每个基因的突变与否,即somatic mutation)、

包含癌症的简称:https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/tcga-study-abbreviations


简称

以下来自胃癌类器官研究

AO, organoid from normal antrum

AF, normal antrum frozen tissue

BO, organoids from normal body

TO, tumor organoids

TOL, tumor organoids in long-term culture

TF, paired tumor frozen tissue

T2O, tumor organoids from a second region

肿瘤领域常用

Adenocarcinoma:腺管上皮;腺癌。是肺癌的一种,是腺上皮恶性肿瘤。它的发生与吸烟关系最小,占肺原发肿瘤的40%

**cfDNA (cell free DNA):**血液中游离的自身DNA,这类DNA多是从身体的细胞或者白血球破裂释放出来的,这基本都是无害的,会被自身清理掉。

**ctDNA (circulating tumor DNA):**循环肿瘤DNA,是一种来自肿瘤细胞的游离DNA,存在于血液、滑膜液和脑脊液等体液中。

**CTCs (circulating tumor cells):**循环肿瘤细胞,是从原发肿瘤或转移形成的新肿瘤上掉落,并且进入到患者的外周血循环系统中的恶性肿瘤细胞。

CPE(consensus measurement of purity estimations): 不同肿瘤纯度方法的归一化. CPE is the median purity level after normalizing levels from all methods to give them equal means and s.d.’s (75.3±18.9%).

Driver:驱动基因。肿瘤的发生发展是一个复杂的生物学过程,是许多突变基因共同作用的结果,驱动基因主导了肿瘤的发生,有利于肿瘤的生长扩散

ICIs(immune checkpoint inhibitors)/ICB(immune checkpoint blockade): 免疫检查点抑制剂。T淋巴细胞是抗肿瘤免疫应答中的主要效应细胞,通过识别肿瘤特异性抗原(比如致癌病毒、分化抗原,表观遗传调控分子, 以及致癌过程中产生的新抗原等)产生细胞毒性反应。正常状态下, T淋巴细胞通过表达一系列激活性(促进T细胞分化增殖)和抑制性(抑制T细胞分化增殖)受体来调控免疫平衡,既可以调控生理性免疫应答, 又不会过度激活免疫系统而造成机体自我损伤。

但是肿瘤微环境中,随着肿瘤抗原对T细胞的持续刺激, T细胞表面的一系列抑制性受体表达水平升高,同时配体在癌细胞或抗原呈递细胞表面表达水平增高,将抑制T细胞活化增殖并诱导T细胞凋亡,从而导致免疫抑制性肿瘤微环境形成,造成免疫逃逸。

T细胞表面表达的抑制性受体主要包括CTLA-4、PD-1、Tim-3、LAG-3、KIR、CD47、TIGIT、CEACAM1、A2AR、IDO1、BTLA、VISTA、CD276、VTCN1等,这些抑制性受体所对应的抑制性信号通路称为免疫检查点

(来自 https://www.wjgnet.com/1009-3079/full/v25/i19/1714.htm

IHC(immunohistochemistry):免疫组化。利用抗原抗体反应来确定组织细胞内抗原和对蛋白定位、定性的实验技术,可以对数十种免疫组化指标分析,帮助确定肿瘤及分类,了解肿瘤恶性程度,识别浸润和分化程度,识别微小转移,预后判断及预测,指导用药(如耐药)等

LOH:(Loss of heterozygosity)杂合性丢失。即:某个allel突变或者缺失,导致一对等位基因只剩下了一个allel, 就丧失了成为杂合的可能性。有研究表明LOH会导致抑制基因的失活。有两种模型:第一种是一个等位基因缺失,即染色体缺失; 第二种是染色体重组,导致原本杂合的基因变成了纯合子。常用分析软件:Control-Freec、SNVMix、CLImAT

Mutation signature:简称“特征”。来自文章 Signatures of mutational processes in human cancer。解释如下:Different mutational processes often generate different combinations of mutation types, termed ‘signatures’。就是不同的突变过程可以产生不同的突变类型的组合

SMG (significantly mutated genes):高频突变基因。突变频率显著高于背景突变频率(Background mutationrate,BMR)的基因,对肿瘤的发生和发展具有重要作用,在分析的过程中会综合考虑体细胞SNP/InDel的突变情况

Somatic mutation

  • 体细胞突变是指除生殖细胞外的体细胞后天性所发生的变异,如发生在器官和组织的变异。这些变异是肿瘤样品所特有的,其并不来源于父母,也不会传递给后代,却可以通过细胞分裂,遗传给子代细胞。
  • 它下面又包括CNV、SNV
  • 目前NGS检测体细胞变异存在几个挑战:样本降解、覆盖度不足、遗传异质性、组织污染等。目前使用Varscan、SomaticSniper、MuTect2、MuSE、Strelka、Lancet 可以检测(前四个是TCGA使用的;Lancet是2018年发表,在精确度和回归曲线方面的表现优于其他体细胞突变检测工具,包括MuTect,MuTect2,LoFreq,Strelka和Strelka2。它能更精确的记录体细胞突变,尤其是插入缺失突变)。软件基本是直接对肿瘤-正常样本的每个位点进行比较,对肿瘤样本中明显高于正常样本的次等位基因标记,作为体细胞变异,同时**排除germline 变异和杂合性丢失(LOH)**情况。

TMB(Tumor Mutational Burden):肿瘤突变负荷,是癌症样本全基因组中去除胚系DNA变异后体细胞突变数目。TMB是最早发现与 免疫检查点(PD-1和CTLA-4)抑制剂反应相关的生物标志物之一,在有免疫应答的肿瘤患者中 TMB 值会更高。Lawrence,MS团队在Nature上发表的研究中,将超过100个突变/Mb称之为高TMB

Tumor ploidy:倍性。由染色体结构和数目异常导致的肿瘤样本中癌细胞的真正含量。估计肿瘤的纯度和倍性有利于癌症基因组进化和肿瘤内的异质性研究。

Tumor infiltrating:肿瘤浸润。肿瘤细胞通过各种可能的途径和方式,对原有及周围正常组织结构造成破坏,并最终脱离原发肿瘤,不同程度地分散于周围组织中的这一过程。恶性肿瘤的浸润是其发生各种部位远处转移的前提条件。另外,非浸润性的肿瘤虽然当下不扩散,但在未来也可能成长或发展成浸润性的肿瘤。浸润程度是恶性肿瘤危险程度的重要标志之一

Tumor grading:分化/分级:癌细胞与正常细胞的(大小,形状和染色特性)相似性。肿瘤细胞看起来更像正常细胞,则称为高分化(G1),也成低级别,其分裂速度较慢。癌细胞级别越低或分化越高,说明癌细胞越像正常细胞,预后也越好。

肿瘤疗效评定标准

Qol(Quality of life):生活质量

PS(Performance staus ):病人生存质量

RFS(Recurrence free survival):无复发生存期

PFS(Progression free survival):无进展生存期

MST(Median survival time):中位生存期

OS(Overall surviva):总生存期

TTP(Time-to-time):病情进展时间

SD(stable disease):病情稳定

PD(progression disease):病情进展

CR(Complete remission):完全缓解

PR(Partial remission):部分缓解

RR(Remissionrate)=CR+PR:缓解率

ORR(Overall remission rate):总缓解率

统计学相关

NMF:non-negative matrix factorization非负矩阵分解。矩阵中所有元素均为非负数约束条件之下的矩阵分解方法


经验数字

  • 一般肿瘤突变数为300-700,如果寻找的不在这个范围,那么说明可能是一些特殊肿瘤;
  • 肿瘤纯度一般介于**30~60%**之间。如果发现肿瘤纯度很低,说明病人本身没有多少肿瘤细胞,这样后续分析不好得到结果。
  • 人类外显子平均长度310,中位数142,总长度约35M,侧翼长度(加上前后50bp:54M;加上前后100bp:73M;加上前后150bp:90M) [外显子组测序可鉴定约8万个变异,全基因组测序可鉴定300万个变异]
  • 文章中使用的测序仪型号到文章发表中间要间隔4-8年,中间需要分析团队磨合数据。比如2018年的文章中使用2014年的Hiseq X10就好理解了。目前最新的是2016年的Novaseq测序仪,因此预计2020年左右才有大量的文章使用
  • 为了提高体细胞突变的检测性能,需要有足够的测序深度,一般推荐全基因组测序的覆盖度为30-60X,全外显子测序为100-150X,而目标区域的靶向测序则通常在200-2000X的覆盖度下进行 [from Garraway LA, Lander ES. Lessons from the cancer genome. Cell. 2013 Mar 28; 153(1):17-37.]
Yunze Liu
Yunze Liu
Bioinformatics Sharer

Co-founder of Bioinfoplanet(生信星球)

Next
Previous

Related