翻译后修饰(Post-translation modifications,PTMs)是蛋白质行www.selleck.cn/products/carfilzomib-pr-171使生物学功能的基础。作为广受关注的重要PTMs之一,蛋白质磷酸化在许多细胞行为中发挥着关键作用,如DNA损伤修复、转录调节、信号转导、细胞凋亡等。此外,异常的磷酸化修饰会引起蛋白质功能紊乱,与癌症等重大疾病密切相关。参与磷酸化过程的多种激酶与磷酸酶己成为备受关注的潜在药物靶点。精确识别磷酸化位点有Pullulan biosynthesis助于更深层地揭示蛋白质的多样性和活性状态,为全面阐明磷酸化对蛋白质功能及调控机制的影响提供重要依据,促进基因组序列数据的注释和新型药物的开发。在过去的几十年里,鉴定蛋白质磷酸化位点的实验方法得到广泛研究,但受限于成本因素,难以在全蛋白组水平上开展。计算生物学和机器学习已成为进一步了解细胞过程的有效工具,正不断提高磷酸化位点预测的效率和可靠性。然而,由于所涉及的分子过程的复杂性和训练模型所需数据的局限性,磷酸化位点预测仍然是一项具有挑战性的任务。为此,本研究基于胶囊网络与无监督学习提出新的磷酸化位点预测框架,主要工作如下:(1)针对原核生物磷酸化位点鉴定工具应用范围窄、准确度低的问题,提出了一种基于自注意力胶囊网络的原核生物蛋白磷酸化位点预测模型(EcapsP)。为解决胶囊网络动态路由过程扩展性差、参数量大的问题,参考自注意力机制,设计捕获输入序列全局信息的路由算法。这是一种更可靠的一致性学习方法,在丰富网络表示能力的同时减少了计算量。针对模型鲁棒性较弱的问题,EcapsP通过引入快捷方式和无条件重构提高了预测精度和稳定性。在独立测试集上,EcapsP表现出了比其他深度学习工具更为优异的性能,特别是在马修斯相关系数方面,相较于其他工具提升至少7%。其次,EcapsP在小样本预测问题上展现出了显著的鲁棒性。此外,EcapsP是第一个提供原核生物磷酸化酪氨酸位点预测的计算工具。(2)为进一步提升预测性能,针对蛋白质磷酸化位点预测问题中正负样本不平衡现象,从数据层面出发,以生成对抗模型为蓝图结合Wasserstein距离和近端策略优化设计蛋白质序列数据增强模块PSGAN。首先,该方法利用Wasserstein距离取代Jensen-Shannon散度作为生成器的动作奖励反馈,结合近端策略优化设计对抗模型的目标函数,克服模式崩溃和训练不稳定问题。其次,鉴于自注意力确认细节机制对序列中数据的长距离依赖关系具有良好建模能力,采用GPT(Generative Pre-training Transformer)模型作为生成器架构,将其与生成对抗网络结合。最后,利用迁移学习克服生成对抗学习在小数据问题上的缺陷。实验结果显示,PSGAN显著优于多种不平衡数据处理策略且通过对抗性迁移学习提取到了激酶特异性序列的内在规律。在与现有磷酸化位点预测工具的比较中,基于PSGAN构建的EcapsP模型表现出了显著的性能增强。(3)针对磷酸化底物缺乏对应激酶信息的问题,开发了基于对比学习的多标签激酶预测器(SMPcaps)。与执行单标签分类的机器学习方法不同,SMPcaps将激酶-基序对应定义为多标签问题,通过一个基序分类模型执行预测任务,而不是为每一个已知激酶家族单独训练模型。其次,基于Siamese网络,通过引入空间角度信息的对比损失函数构建有助于区分磷酸化底物的序列嵌入表示。随后,为防止嵌入过程丢失序列位置信息,将理化信息编码与Siamese嵌入一起输入到多标签分类模型。最后,以激酶系统进化损失函数将激酶家族间的联系引入预测模型。实验结果表明,Siamese嵌入和激酶系统进化损失函数均可有效提升预测精度;相较于其他特异性磷酸化预测工具,SMPcaps的性能有明显提升。