细胞色素P450酶是自然界最大的一类氧化还原酶超家族,广泛参与药物代谢、植物次生代谢以及环境污染物转化等重要生物过程。为了生成具有高保真度和多样性的人工P450酶序列,本研究提出了一种基于扩散模型的P450酶序列生成方法——P450Di...细胞色素P450酶是自然界最大的一类氧化还原酶超家族,广泛参与药物代谢、植物次生代谢以及环境污染物转化等重要生物过程。为了生成具有高保真度和多样性的人工P450酶序列,本研究提出了一种基于扩散模型的P450酶序列生成方法——P450Diff2。该模型基于参数量达6.4亿的EvoDiff-Seq框架进行构建,并以来自NCBI、GMind注释、RNA-Seq组装和宏基因组数据库的1041254条非冗余P450蛋白序列作为训练数据。基于训练完成的模型进行序列生成评估,结果显示,P450Diff2在氨基酸组成分布、序列特征空间、序列相似性分布以及结构合理性等多个维度均优于此前提出的P450Diffusion模型,其所生成序列的平均局部预测置信度(predicted local distance difference test,pLDDT)达到72.29。实验结果进一步表明,所生成的序列中有60%能够正确折叠为具有生物活性的P450酶,表明本方法不仅有效保留了天然序列的结构特征,同时具备一定的功能性序列生成可能性。结合大规模序列生成与筛选流程,有望快速设计生成高效新酶序列,降低实验筛选的时间与成本,为新酶的高效、可扩展设计提供了全新的参考。展开更多
文摘细胞色素P450酶是自然界最大的一类氧化还原酶超家族,广泛参与药物代谢、植物次生代谢以及环境污染物转化等重要生物过程。为了生成具有高保真度和多样性的人工P450酶序列,本研究提出了一种基于扩散模型的P450酶序列生成方法——P450Diff2。该模型基于参数量达6.4亿的EvoDiff-Seq框架进行构建,并以来自NCBI、GMind注释、RNA-Seq组装和宏基因组数据库的1041254条非冗余P450蛋白序列作为训练数据。基于训练完成的模型进行序列生成评估,结果显示,P450Diff2在氨基酸组成分布、序列特征空间、序列相似性分布以及结构合理性等多个维度均优于此前提出的P450Diffusion模型,其所生成序列的平均局部预测置信度(predicted local distance difference test,pLDDT)达到72.29。实验结果进一步表明,所生成的序列中有60%能够正确折叠为具有生物活性的P450酶,表明本方法不仅有效保留了天然序列的结构特征,同时具备一定的功能性序列生成可能性。结合大规模序列生成与筛选流程,有望快速设计生成高效新酶序列,降低实验筛选的时间与成本,为新酶的高效、可扩展设计提供了全新的参考。