影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与...影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与昂贵的标注成本,构建能够利用多模态数据的无监督学习方法十分必要。为了满足上述需求,提出了一种基于影像与基因多模态表格数据对比学习的表征学习方法(multimodal tabular data with contrastive learning,MTCL),该模型利用了静息态功能磁共振成像(rs-fMRI)和单核苷酸多态性(single nucleotide polymorphisms,SNP)数据,无需数据的任何标签信息。为了增强可解释性,模型先通过特征提取模块将rs-fMRI和SNP数据转换为表格类型结构,再通过多模态表格数据对比学习模块对多模态数据进行融合,并获得融合后的数据表征。在重度抑郁症(major depression disorder,MDD)数据上,文中提出的方法能够有效提升MDD诊断性能。此外,MTCL方法结合了模型归因方法挖掘与MDD相关的影像和遗传生物标记物,提高了模型的可解释性,有助于研究人员对疾病发病机制的理解。展开更多
Saraikistan (South Punjab and surrounding) area of Pakistan is located in the central Pakistan. This area represents Triassic-Jurassic to Recent sedimentary marine and terrestrial strata. Most of the Mesozoic and Earl...Saraikistan (South Punjab and surrounding) area of Pakistan is located in the central Pakistan. This area represents Triassic-Jurassic to Recent sedimentary marine and terrestrial strata. Most of the Mesozoic and Early Cenozoic are represented by marine strata with rare terrestrial deposits, while the Late Cenozoic is represented by continental fluvial deposits. This area hosts significant mineral deposits and their development can play a significant role in the development of Saraikistan region and ultimately for Pakistan. The data of recently discovered biotas from Cambrian to Miocene age are tabulated for quick view. Mesozoic biotas show a prominent paleobiogeographic link with Gondwana and Cenozoic show Eurasian. Phylogeny and hypodigm of Poripuchian titanosaurs from India and Pakistan are hinted at here.展开更多
样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vici...样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.展开更多
为解决临床医学量表数据类别不均衡容易对模型产生影响,以及在处理量表数据任务时深度学习框架性能难以媲美传统机器学习方法问题,提出了一种基于级联欠采样的Transformer网络模型(layer by layer Transformer,LLT)。LLT通过级联欠采样...为解决临床医学量表数据类别不均衡容易对模型产生影响,以及在处理量表数据任务时深度学习框架性能难以媲美传统机器学习方法问题,提出了一种基于级联欠采样的Transformer网络模型(layer by layer Transformer,LLT)。LLT通过级联欠采样方法对多数类数据逐层删减,实现数据类别平衡,降低数据类别不均衡对分类器的影响,并利用注意力机制对输入数据的特征进行相关性评估实现特征选择,细化特征提取能力,改善模型性能。采用类风湿关节炎(RA)数据作为测试样本,实验证明,在不改变样本分布的情况下,提出的级联欠采样方法对少数类别的识别率增加了6.1%,与常用的NEARMISS和ADASYN相比,分别高出1.4%和10.4%;LLT在RA量表数据的准确率和F 1-score指标上达到了72.6%和71.5%,AUC值为0.89,mAP值为0.79,性能超过目前RF、XGBoost和GBDT等主流量表数据分类模型。最后对模型过程进行可视化,分析了影响RA的特征,对RA临床诊断具有较好的指导意义。展开更多
文摘影像基因组学认为神经影像与基因之间存在着一定程度的相关性,利用遗传变异与影像数据进行疾病分析愈发受研究人员重视。在实践中,临床医生拥有的数据规模往往较小,但仍然希望使用深度学习来解决现实问题。考虑到不断扩大的数据规模与昂贵的标注成本,构建能够利用多模态数据的无监督学习方法十分必要。为了满足上述需求,提出了一种基于影像与基因多模态表格数据对比学习的表征学习方法(multimodal tabular data with contrastive learning,MTCL),该模型利用了静息态功能磁共振成像(rs-fMRI)和单核苷酸多态性(single nucleotide polymorphisms,SNP)数据,无需数据的任何标签信息。为了增强可解释性,模型先通过特征提取模块将rs-fMRI和SNP数据转换为表格类型结构,再通过多模态表格数据对比学习模块对多模态数据进行融合,并获得融合后的数据表征。在重度抑郁症(major depression disorder,MDD)数据上,文中提出的方法能够有效提升MDD诊断性能。此外,MTCL方法结合了模型归因方法挖掘与MDD相关的影像和遗传生物标记物,提高了模型的可解释性,有助于研究人员对疾病发病机制的理解。
文摘Saraikistan (South Punjab and surrounding) area of Pakistan is located in the central Pakistan. This area represents Triassic-Jurassic to Recent sedimentary marine and terrestrial strata. Most of the Mesozoic and Early Cenozoic are represented by marine strata with rare terrestrial deposits, while the Late Cenozoic is represented by continental fluvial deposits. This area hosts significant mineral deposits and their development can play a significant role in the development of Saraikistan region and ultimately for Pakistan. The data of recently discovered biotas from Cambrian to Miocene age are tabulated for quick view. Mesozoic biotas show a prominent paleobiogeographic link with Gondwana and Cenozoic show Eurasian. Phylogeny and hypodigm of Poripuchian titanosaurs from India and Pakistan are hinted at here.
文摘样本有限的表格型数据缺乏不变性结构和足够样本,使得传统数据增强方法和生成式数据增强方法难以获得符合原始数据分布且具有多样性的数据.为此,文中依据表格型数据的特点和邻域风险最小化原则,提出基于邻域分布的去噪扩散概率模型(Vicinal Distribution Based Denoising Diffusion Probabilistic Model,VD-DDPM)及相应算法.首先,分析样本有限表格型数据的特征,通过先验知识选择弱相关特征,并构建样本的邻域分布.然后,利用邻域分布采样数据构建VD-DDPM模型,并使用VD-DDPM数据生成算法生成符合原始数据分布且具有多样性的数据集.在多个数据集上针对数据生成质量、下游模型性能等进行实验,验证VD-DDPM的有效性.
文摘为解决临床医学量表数据类别不均衡容易对模型产生影响,以及在处理量表数据任务时深度学习框架性能难以媲美传统机器学习方法问题,提出了一种基于级联欠采样的Transformer网络模型(layer by layer Transformer,LLT)。LLT通过级联欠采样方法对多数类数据逐层删减,实现数据类别平衡,降低数据类别不均衡对分类器的影响,并利用注意力机制对输入数据的特征进行相关性评估实现特征选择,细化特征提取能力,改善模型性能。采用类风湿关节炎(RA)数据作为测试样本,实验证明,在不改变样本分布的情况下,提出的级联欠采样方法对少数类别的识别率增加了6.1%,与常用的NEARMISS和ADASYN相比,分别高出1.4%和10.4%;LLT在RA量表数据的准确率和F 1-score指标上达到了72.6%和71.5%,AUC值为0.89,mAP值为0.79,性能超过目前RF、XGBoost和GBDT等主流量表数据分类模型。最后对模型过程进行可视化,分析了影响RA的特征,对RA临床诊断具有较好的指导意义。