针对现有医学影像合成技术在准确捕捉复杂解剖结构和病理状态方面存在不足,从而生成低质量且与实际情况不符的胸片问题,文中提出了一种创新性的医学潜在扩散模型Chest-Chat。基于先前研究结果改进了所提模型,引入一种多模态文本编码器Me...针对现有医学影像合成技术在准确捕捉复杂解剖结构和病理状态方面存在不足,从而生成低质量且与实际情况不符的胸片问题,文中提出了一种创新性的医学潜在扩散模型Chest-Chat。基于先前研究结果改进了所提模型,引入一种多模态文本编码器MedA-BERT(Medical Attention Strategy Pre-training of Deep Bidirectional Transformers for Language Understanding)。采用跨模态视觉-语言预训练策略构建该编码器并强化胸片影像与对应文本报告间的深刻语义联系,结合双向交叉注意力机制和对比学习显著增强了模型对医学影像报告语义的理解和处理能力。将MedA-BERT与潜在扩散模型的视觉模块相结合,使Chest-Chat能够生成具有详细解剖和病理描述的高质量胸片。在CheXpert和MIMIC-CXR(Chest X-ray)两个公开数据集上进行了广泛评估。实验结果表明,Chest-Chat的FID InceptionV3(Fréchet Inception Distance)、FID XRV和MS-SSIM(Multi-Scale Structural Similarity)分别为58.38、3.69和0.12±0.11,其表现优于现有方法。展开更多
文摘针对现有医学影像合成技术在准确捕捉复杂解剖结构和病理状态方面存在不足,从而生成低质量且与实际情况不符的胸片问题,文中提出了一种创新性的医学潜在扩散模型Chest-Chat。基于先前研究结果改进了所提模型,引入一种多模态文本编码器MedA-BERT(Medical Attention Strategy Pre-training of Deep Bidirectional Transformers for Language Understanding)。采用跨模态视觉-语言预训练策略构建该编码器并强化胸片影像与对应文本报告间的深刻语义联系,结合双向交叉注意力机制和对比学习显著增强了模型对医学影像报告语义的理解和处理能力。将MedA-BERT与潜在扩散模型的视觉模块相结合,使Chest-Chat能够生成具有详细解剖和病理描述的高质量胸片。在CheXpert和MIMIC-CXR(Chest X-ray)两个公开数据集上进行了广泛评估。实验结果表明,Chest-Chat的FID InceptionV3(Fréchet Inception Distance)、FID XRV和MS-SSIM(Multi-Scale Structural Similarity)分别为58.38、3.69和0.12±0.11,其表现优于现有方法。