基于机器学习与统计推断的癌症合成致死基因组合的预测及分析

癌症严重威胁了人类的生命健康,全球癌症发病和死亡负担正在迅速增加,迫切需要开发更安全有效的精准治疗策略。合成致死(Synthetic lethality,SL)作为一种新型抗癌思路越来越受到重视,它指的是一对基因中单个基因受损对细胞不致命,两个基因同时受损可导致细胞死亡。基于合成致死理念的抗癌药物研selleck发有望克服传统靶向治疗存在的毒副作用、耐药性及靶点局限性等问题,已成为一种更加安全有效的精准医疗策略。针对合成致死的应用潜力,系统性地获得合成致死基因显得尤为重要。为此,本文首先开发了一种基于机器学习和统计推断的预测方法,以获取一大批高质量的癌症特异性合成致死基因,为后续抗癌药物研发等相关研究提供高质量的数据参考,进而对预测结果展开深入分析及验证,以充分探究合成致死基因在癌症发生发展中的可能作用并评估其临床应用潜力。最后构建了癌症特异性合成致死数据库,为相关研究提供数据参考与分析平台。本文的主要研究内容如下:1.为实现癌症无偏的合成致死基因预测,收集已公开的实验验证的合成致死基因组合作为训练数据,使用机器学习实施分类任务和奇异值检测任务,解决了合成致死预测中的负样本缺失问题。整合基因依赖性、蛋白质互作网络以及功能相似性评分等数据,全面表征了合成致死基因,并借助模型拟合特征数据中蕴含的合成致死的深层机制,最终输入来自其他计算预测研究的结果进行二次预测并将不同模型的预测结果进行整合,实现了高精确度的癌症无偏的合成致死预测,获得了49,669对潜在的合成致死基因组合,为后续筛选特定癌症相关的具合成致死效应的基因提供数据参考;2.针对合成致死的癌症特异性问题,进一步对上述机器学习结果在33种癌症类型中进行统计推断,以获得特定癌症中的预测结果。利用基因表达、突变及拷贝数变异等多组学数据,基于合成致死的互斥性和表达差异性进行分析,并设计了两种统计推断策略,实现了癌症特异性的合成致死预测。最终,在33种癌症中共获得14,582对合成致死基因组合,不同癌症的预测结果间具有较大差异,大部分基因对仅出现在特定癌症中,这些结果可为后续相关研究的开展提供数据支撑和方法学参考;3.为了解合成致死基因在癌症发生发展中的可能作用及在预后中的可能价值,基于上述预测结果展开深入分析,并开展生物实验以验证预测结果的可靠性。分析从热点突变、互作网络、功能富集、药物敏感性和预后等多个角度进行,结果表明,APC、TP53及TTN等基因是多种癌症中的热点突变基因,它们与癌症的发生发展及预后密切相关;出现频率较高的合成致死基因主要参与细胞周期通路并涉及DNA复制及ATP酶激活等功能;药物分析结果表明,TP53合成致死搭档突变的细胞对MIRA更多-1的敏感性显著增强,这可能与合成致死作用导致细胞失活有关,揭示出其在癌症治疗中的应用潜力;发生基因对共失活的患者在乳腺癌等癌症中表现出更好的预后,可能是由于基因共失活导致合成致死效应的发生,从而抑制了肿瘤细胞的活性。此外,本文在结肠癌细胞中进行了实验验证,证实了TP53与USP1存在合成致死效应,进一步证明了预测结果的准确性;4.为公布本文的分析预测结果,开发了界面友好的癌症特异性合成致死数据库CSSLDB(Cancer Specific Synthetic Lethality Database,http://www.tmliang.cn/CSSL),并提供了多种分析功能。用户可以在数据库中查询癌症中特定基因的预测结果,并对相关基因组合进行互作网络分析、互斥性分析、差异表达分析、生存分析及药物敏感性分析等。CSSLDB的功能与合成致死研究的要点相契合,为相关研究提供了有力的工具。综上,为了在各类型癌症中获得高质量的合成致死基因,本研究首先应用机器学习方法进行了癌症无偏的合成致死预测,然后在多种癌症中应用基于互斥性和表达差异性的统计推断策略实现了精准预测,获得了特定癌症的合成致死相互作用。进而,从多个角度对预测结果展开了分析及验证,深入探究合成致死基因在癌症发生发展中的可能作用及应用潜力。最后,建立在线数据库以公布相关研究结果并开发在线分析工具,为相关研究提供一个针对合成致死基因组合的查询及分析平台。这些结果可为合成致Bioinformatic analyse死相关研究提供数据支撑和方法学参考,从而促进基于合成致死理念的精准医疗的发展。