基于预训练扩散模型的图像实例语义与视觉和谐化

Image instances semantics and visual harmonization using pretrained diffusion model

下载PDF

导出

摘要近年来,图像实例和谐化作为图像生成领域中的重要分支得到了迅速发展。然而,如何确保前景实例与背景图像中的各个元素在语义上具备合理的逻辑关系,并使组合后的图像内容和谐一致,仍是当前研究面临的难点。此外,受限于高成本和设备要求,收集大规模的和谐化训练数据存在诸多困难。为解决这些问题,本文提出一种基于大规模预训练扩散模型的图像和谐化方法。该方法基于预训练的Stable Diffusion 2.0模型,采用自然语言引导图像填充任务,使模型能够在自然语言描述和待填充区域图像的条件下生成符合语义需求的和谐图像。本方法将实例图像的高频信息与低频信息分别作为控制条件,对预训练模型进行微调,以确保生成结果尽可能保留实例图像的关键内容,最终生成和谐的组合图像。实验结果表明,本方法在生成实例阴影、调节光照等方面均表现出优异的效果,有效提升了图像语义与视觉的和谐化质量。 Recent advancements in image generation have led to significant progress in image instance harmonization.However,maintaining semantic consistency between foreground and background elements and achieving visually plausible combinations remain a challenging task.Additionally,the scarcity of large-scale harmonization datasets limits the development of effective methods.To address these challenges,the paper proposes a novel image harmonization approach based on a large-scale pretrained diffusion model.Leveraging the powerful capabilities of Stable Diffusion 2.0,the paper formulates image harmonization as a text-guided image inpainting task.By providing natural language descriptions and specifying target regions,the proposed model can generate harmonized images that seamlessly blend with the background.To further enhance the quality of the generated images,the paper incorporates high-frequency and low-frequency information from the foreground instance as control conditions,ensuring that the essential features of the instance are preserved.Experimental results demonstrate that the proposed approach significantly improves image harmonization quality,especially in terms of generating realistic shadows and adjusting lighting effects.

作者刘鹏举石宇鹏张宏志姜峰左旺孟 LIU Pengju;SHI Yupeng;ZHANG Hongzhi;JIANG Feng;ZUO Wangmeng(School of Medicine and Health,Harbin Institute of Technology,Harbin 150001,China;Zhengzhou Research Institute,Harbin Institute of Technology,Zhengzhou 450000,China;Faculty of Computing,Harbin Institute of Technology,Harbin 150001,China)

机构地区哈尔滨工业大学医学与健康学院哈尔滨工业大学郑州研究院医学健康研究院哈尔滨工业大学计算学部

出处《智能计算机与应用》 2025年第3期7-17,共11页 Intelligent Computer and Applications

基金国家自然科学基金面上项目(6237011159) 中国博士后基金项目(2024M754208)。

关键词图像实例和谐化预训练扩散模型自然语言引导高频信息与低频信息 image instance harmonization pretrained diffusion model natural language descriptions high-frequency and lowfrequency information

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：5
2谈馨悦,何小海,王正勇,罗晓东,卿粼波.基于Transformer交叉注意力的文本生成图像技术[J].计算机科学,2022,49(2):107-115. 被引量：6
3龚颖,许文韬,赵策,王斌君.生成对抗网络在图像修复中的应用综述[J].计算机科学与探索,2024,18(3):553-573. 被引量：15

二级参考文献18

1顾广华,曹宇尧,李刚,赵耀.基于语义标签生成和偏序结构的图像层级分类[J].软件学报,2020,31(2):531-543. 被引量：8
2莫建文,徐凯亮,林乐平,欧阳宁.结合互信息最大化的文本到图像生成方法[J].西安电子科技大学学报,2019,46(5):180-188. 被引量：7
3孙钰,李林燕,叶子寒,胡伏原,奚雪峰.多层次结构生成对抗网络的文本生成图像方法[J].计算机应用,2019,39(11):3204-3209. 被引量：15
4陈明举,林国军,韩强,董林鹭.一种非对称非局部变分图像复原模型[J].重庆理工大学学报（自然科学）,2020,34(2):127-132. 被引量：1
5黄宏宇,谷子丰.一种基于自注意力机制的文本图像生成对抗网络[J].重庆大学学报（自然科学版）,2020,43(3):55-61. 被引量：11
6陈健,白琮,马青,郝鹏翼,陈胜勇.面向细粒度草图检索的对抗训练三元组网络[J].软件学报,2020,31(7):1933-1942. 被引量：4
7徐峰,马小萍,刘立波.基于生成对抗网络的甲状腺超声图像文本跨模态检索方法[J].生物医学工程学杂志,2020,37(4):641-651. 被引量：5
8许一宁,何小海,张津,卿粼波.基于多层次分辨率递进生成对抗网络的文本生成图像方法[J].计算机应用,2020,40(12):3612-3617. 被引量：5
9陈佛计,朱枫,吴清潇,郝颖明,王恩德,崔芸阁.生成对抗网络及其在图像生成中的应用研究综述[J].计算机学报,2021,44(2):347-369. 被引量：115
10杜鹏飞,李小勇,高雅丽.多模态视觉语言表征学习研究综述[J].软件学报,2021,32(2):327-348. 被引量：39

共引文献23

1乐飞,宋亚林,李小艳.基于改进部分卷积的瑕疵布匹图像生成算法[J].计算机系统应用,2022,31(12):187-194. 被引量：2
2孙泽龙,杨国兴,温静远,费楠益,卢志武,文继荣.基于多域VQGAN的文本生成国画方法研究[J].软件学报,2023,34(5):2116-2133. 被引量：3
3赵宏,李文改.基于扩散生成对抗网络的文本生成图像模型研究[J].电子与信息学报,2023,45(12):4371-4381. 被引量：7
4余凯,宾燚,郑自强,杨阳.基于条件语义增强的文本到图像生成[J].软件学报,2024,35(5):2150-2164. 被引量：4
5马迎辉,郝莉萍,李晓丹.基于深度学习与随机森林的人脸图像年龄估计方法[J].信息与电脑,2024,36(6):35-37.
6刘真光,朱玉佳,王勇,傅湘玲,赵一姣,陈晋鹏.基于点云处理网络的三维颜面正中矢状面预测模型[J].山东大学学报（工学版）,2024,54(3):30-35.
7吕周澍.基于深度强化学习算法的全视角人脸纹理图像生成方法[J].湖南邮电职业技术学院学报,2024,23(2):34-38. 被引量：1
8张鹤,雷浩鹏,王明文,张尚昆.基于注意力和动态记忆模块的文本图像生成方法[J].计算机工程与应用,2024,60(17):224-232. 被引量：2
9周红,周莉,汤世隆,黄文.基于跨模态技术的地铁施工风险对策生成方法研究[J].工程管理学报,2024,38(4):95-100.
10查安秦,杨斌.基于生成对抗网络的运动模糊车牌图像复原方法[J].现代信息科技,2024,8(20):153-158.

1谢作如,王国芳.借助大模型设计交互式课件[J].中国信息技术教育,2025(7):95-97.
2刘静,卢杰.交往理性与生活世界——哈贝马斯市民社会理论的现代性批判维度[J].中南财经政法大学研究生论丛,2024(5):52-58.
3康正明,武辰升,杨国栋,武迪生,王瑞飞,杨湘雨,甘伟.生成对抗网络算法在电成像测井裂缝空白条带填充中的应用[J].煤田地质与勘探,2025,53(3):197-207. 被引量：1

智能计算机与应用

2025年第3期

浏览历史

内容加载中请稍等...

基于预训练扩散模型的图像实例语义与视觉和谐化

参考文献3

二级参考文献18

共引文献23

相关作者

相关机构

相关主题

浏览历史