伯豪生物多组学研究策略!

时间:2017-06-21 16:52:01 点击: 【字体: 收藏

       上海伯豪生物技术有限公司(以下简称“伯豪生物”)2008年12月成立,是一家以科技服务、疾病与健康检测服务、分子检测产品的开发和生产为主营业务的高新技术企业,并于2016年成立上海市院士专家工作站;并入选国家发展和改革委员会第一批基因检测技术应用示范中心,以及“高发肿瘤及遗传性疾病基因检测示范中心”。伯豪生物建立了国内最齐全的生物技术服务平台,能够应用生物芯片基因测序、生物标志物筛选验证、分子检测、基因编辑等技术平台在基因组转录组及表观遗传等组学层面提供优质服务,并具有多年生物信息分析经验。

       生命现象的发生和调控过程是极其复杂的,在肿瘤、自身免疫疾病、代谢疾病等复杂疾病的发生发展过程中,在干细胞分化、胚胎发育与物种进化等生命现象中,会涉及到基因组、转录组、蛋白质组及表观遗传等多层面的变化及调控。在大数据时代,将多个组学数据结合起来的整合研究——多组学(Multi-omics)研究,是一大趋势。

       对于一个复杂的疾病或生命现象的研究,要综合考虑其表型以及生理生化指标以及基因组、转录组、蛋白质组、表观遗传及代谢组等多层面的变化。将上述多组学的数据整合分析,以掌握其全局的变化过程,为研究其调控机制和精准医疗提供综合解决方案


组学数据的可靠性是多组学数据的质量基础

       伯豪生物具备14年的芯片服务与8年的测序服务经验,同时是Affymetrix与Agilent公司在中国首家认证的服务供应商,以及Illumina的认证服务供应商,以可靠而优质的数据质量深受客户推崇。真实而可靠的数据质量是多组学数据分析的质量基础。 


多年积累的数据库和生信分析经验是多组学数据的分析基础

       多组学的数据分析中涉及到甲基化对mRNAlncRNA乃至miRNA的转录前调控作用;lncRNA对mRNA的转录前及转录后调控作用;miRNA对mRNA的转录后降解和抑制的调控作用;内源竞争性RNA(ceRNA)通过对miRNA的结合而对mRNA的调控作用;CNV对基因表达的剂量效应;SNV对基因功能的影响以及对信号通路基因的激活和抑制作用。伯豪生物多年的数据分析中,建立了多组学不同分子间的相互作用模式,以及多组学数据库,积累了丰富的组学数据分析经验,为多组学的联合分析,提供了数据库和生信分析保证。


多组学项目方案设计策略

一、技术的选择与实验设计

       多组学项目的方案设计需对研究的疾病与现象深入了解与分析,根据不同疾病的内在特点,在基因组、转录组和表观层面侧重合理选择适合技术。例如通过对3299份来自于12种实体瘤样本的研究表明,肿瘤可以分为M class (mutation-driven,突变驱动) 和C class (copy number-driven,拷贝数变异驱动) 两类,其中C class的肿瘤主要有卵巢癌、乳腺癌、肺(鳞)癌及头颈癌等,此类肿瘤可以把重点放在拷贝数的研究中。所以根据疾病是否涉及基因组层面的变异或变异的侧重点,在基因组层面上选择外显子测序或CNV芯片技术,另外可以根据疾病是否有可能影响到DNA甲基化、组蛋白修饰,以确定是否加入表观层面的分析。


       另外,还要根据疾病发病机制、以及样本取材的不同部位,标本总量等特点,选择合适的技术平台;根据疾病的复杂程度,异质性以及个体差异选择好样本分组、入组数目与分析设计。伯豪多年的科研服务中建立了全面的多组学技术平台并积累了丰富的多组学实验设计及分析经验。


二、多组学数据的整体展示

       多组学的数据分析,不是单独对几个组学数据的罗列和展示,关键是整合分析项目中涉及到的基因组、转录组或表观遗传等层面的数据,展示出不同层面的相互作用与调控关系,以帮助研究者全局上把握疾病发展中的内在变化,进而聚焦到关键的通路及基因。

(1) 热图展示

       在下图中将甲基化、mRNA与lncRNA三种数据整合成一张热图,图中的每一行不但代表了一个特定的基因的表达以及此基因对应的甲基化修饰,还体现了数据库中有调控关系的lncRNA与mRNA的相互关系。在图中,能够看到甲基化对mRNA与lncRNA的转录前的负调控作用,以及lncRNA对mRNA的转录前及转录后的正调控及负调控作用。同时,在图中还可以看到单个样本在的甲基化和转录上的个性特征。直观的展示了不同层面的差异表达基因和差异修饰位点的相互关系,同时为进一步的数据挖掘提供了指导。

(2) 染色体图展示

       在多组学的分析中,不但可以根据靶基因的相互作用将不同层面的数据整合分析,也可以单纯地通过位置关系将不同组学的数据相结合。如下图中,通过CNV、基因表达与甲基化修饰的位置关系,将三个组学的数据有机的结合起来,分析CNV对于表达的剂量效应,以及甲基化对于基因表达的调控作用。

(3) 圈图展示(Circos plot)

       也可以用Circos plot以圈图从整体上展示全基因组水平上的甲基化水平及基因表达差异,也可以将CNV甚至是SNV也同时展示出来。


三、多组学数据的分型及整合分析

       多组学的数据分析,会得到多个层面的数据,这些数据都可以分别用非监督聚类的办法对疾病的亚型分型。但分别针对不同分子层面的聚类会得到不同的聚类结果,而且有些样本在不同的聚类中会分配到不同的亚型,所以推荐将多组学的数据整合考虑,得到综合的分型结果。在理想的联合分析中不但要综合考虑到不同层面的分子变异还要考虑到不同变异间的相互关系,进而分析不同层面分子的上调、下调或激活、抑制等相互作用。例如,CNV的增加可能会增加基因的表达,DNA的甲基化可能会抑制基因表达,SNV对AA编码的改变或终止密码子的出现会不同程度地影响蛋白的功能,虽然mRNA水平上没有改变,但功能的失活会影响pathway中的下游基因。不同层面的整合分型以及基因通路激活抑制的联合分析构成了多组学数据挖掘的核心。可以采用的分析方法包括:基于已经发表文献知识数据库的Integrated Pathway Activities(IPA)分析;基于网络分析的PAthway Recognition Algorithm using Data Integration on Genomic Models (PARADIGM) ,PARADIGM可实现不同层次表达以信号通路展示;此外常用的方法还有基于模型独立的随机样本计算的双向聚类方法(consensus clustering)以及基于每个不用平台数据的协方差而整合聚类的Integrative clustering方法等。


四、多组学数据的进一步挖掘与展示

       多组学数据分析中的另一大难点是在错综复杂的数据中寻找到最核心的通路与驱动基因。伯豪在多年的分析中建立了从基础的GO与pathway富集分析到共表达网络与ceRNA调控网络分析,以及GSEA与WGCNA分析,到利用收费数据库的IPA分析,为客户提供了一整套分析方案和思路去挖掘各个组学中的关键基因与通路。同时利用多个层面数据间的相互关系,寻找相互具有调控关系的位点或基因。再通过复杂的网络图,将基因组变异、基因表达差异,甲基化修饰差异以及基因间的相互作用在同一张图上展示出来。

       多组学的数据分析中,最后会得到一些关键的基因,如果是以基因组为侧重点的分析,得到的关键基因除了用网络图展示外,还可以通过变异总览图(compact visualization of genomic alerations)将不同层面变异的基因及其在不同样本中的变异情况整体展示。

       此外还可以对于关键通路以及基因表达水平、甲基化修饰或基因组水平变异的联合展示。通过热图与网络图相结合等形式,将差异的表达、甲基化修饰或基因组变异与关键的变化通路整合展示。集中展示关键基因、关键通路及其相互关系。

TAG: 多组学
相关文章