以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等...以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等是大模型技术的主要特征。预训练数据类别及参数量一定程度上决定了大模型所具备的能力强弱,而不同的模型架构则可支撑不同类别的下游任务。近两年,围绕DNA/RNA/蛋白质等生物序列与单细胞表达图谱等组学数据分析挖掘、大分子结构预测、新型药物设计和功能机制解析等多种应用场景,涌现了多种通用或专用大模型,展示出其在生物医学研究及转化应用等领域的巨大潜力。本文旨在结合不同类别的生物数据特点和研究应用需求,概述生物数据特征及其用于生物大模型训练的技术方法,并进一步综述现有大模型在生物医学研究及疾病诊疗中的应用进展,为提升生物大模型能力、拓展应用范围提供新的思路。展开更多
TMEM43基因编码的跨膜蛋白43(transmembrane protein 43,TMEM43)是TMEM蛋白家族成员之一,该蛋白质约为400个氨基酸,包括4个跨膜结构域和1个膜内结构域。TMEM43在许多物种中都存在表达,并且遗传相似性很高,特别是4个跨膜结构在不同物种...TMEM43基因编码的跨膜蛋白43(transmembrane protein 43,TMEM43)是TMEM蛋白家族成员之一,该蛋白质约为400个氨基酸,包括4个跨膜结构域和1个膜内结构域。TMEM43在许多物种中都存在表达,并且遗传相似性很高,特别是4个跨膜结构在不同物种中都表现为高度保守。近年来有研究者发现,TMEM43与听神经病谱系障碍(auditory neuropathy spectrum disorder,ANSD)的发生可能相关,推测其可能为一种新的听力损伤相关基因。本文就现阶段TMEM43基因与听力损伤的关系展开综述,分析TMEM43在耳发育与声传导方面的作用,探讨TMEM43基因变异对听力损伤产生的影响,以期为TMEM43后续研究和精准医疗提供新思路。展开更多
文摘以基因、转录、蛋白质等生命组学为主体的生物大数据快速积累和以深度学习为代表的人工智能技术迅猛发展,催生出各种类别的生物大模型(biological large models)。复杂的深度学习架构、巨大的参数量和算力需求、以及海量的预训练数据等是大模型技术的主要特征。预训练数据类别及参数量一定程度上决定了大模型所具备的能力强弱,而不同的模型架构则可支撑不同类别的下游任务。近两年,围绕DNA/RNA/蛋白质等生物序列与单细胞表达图谱等组学数据分析挖掘、大分子结构预测、新型药物设计和功能机制解析等多种应用场景,涌现了多种通用或专用大模型,展示出其在生物医学研究及转化应用等领域的巨大潜力。本文旨在结合不同类别的生物数据特点和研究应用需求,概述生物数据特征及其用于生物大模型训练的技术方法,并进一步综述现有大模型在生物医学研究及疾病诊疗中的应用进展,为提升生物大模型能力、拓展应用范围提供新的思路。