基于大语言模型双向协同的跨模态交互式图像编辑方法

Cross-Modal Interactive Image Editing Based on Bidirectional Collaboration with Large Language Models

下载PDF

导出

摘要扩散模型在图像生成任务中表现出较高的视觉保真度,但在图像编辑方面仍面临用户意图理解偏差、局部细节控制不足、交互响应滞后等的问题.为此,文中提出基于大语言模型双向协同的跨模态交互式图像编辑方法(Cross-Modal Interactive Image Editing Method Based on Bidirectional Collaboration between Large Language Models and User Interaction,BiC-LLM),其核心是一种双向协同控制机制,将大语言模型自顶向下的高级语义引导与用户直接参与的自底向上底层视觉控制有机融合,通过语义增强、特征解耦与动态反馈机制提升图像编辑的可控性与精度.首先,设计层次化语义驱动模块,使用大语言模型对用户输入文本进行语义解耦与推理,生成细粒度语义向量,精准理解用户意图.然后,构建视觉-结构解耦的动态控制模块,结合多层视觉特征提取器与对象级建模,实现图像全局结构与局部风格的独立控制.最后,引入实时交互机制,支持掩膜标注与参数调节,实现图像编辑过程的动态优化.在LSUN、CelebA-HQ、COCO数据集上的实验表明,BiC-LLM在文本一致性、结构稳定性与交互控制方面均较优,能实现复杂场景下的多对象语义编辑,并保持非编辑区域的内容一致性,由此验证其在图像编辑任务中的有效性与鲁棒性. Diffusion models exhibit high visual fidelity in image generation tasks.However,they are confronted with critical challenges in image editing,such as ambiguity in user intent interpretation,insufficient control over local details,and lag in interactive response.To address these issues,a cross-modal interactive image editing method based on bidirectional collaboration with large language models(BiC-LLM)is proposed.A bidirectional collaboration mechanism is introduced as its core.The top-down semantic guidance from large language models is combined synergistically with bottom-up direct interaction from users.Therefore,controllability and precision in image editing are fundamentally enhanced by employing semantic enhancement,feature decoupling and a dynamic feedback mechanism.First,a hierarchical semantic-driven module is designed.The user-input text is decoupled and reasoned by the large language model,and fine-grained semantic vectors are generated to interpret user intent precisely.Second,a dynamic control module for vision-structure decoupling is constructed.Multi-level visual feature extractors and object-level modeling are combined to achieve independent control over global structure and local appearance.Finally,a real-time interaction mechanism is introduced to enable users to dynamically intervene in the editing process through mask annotations and parameter adjustments,thereby supporting iterative optimization.Experiments on LSUN,CelebA-HQ,and COCO datasets demonstrate that BiC-LLM significantly outperforms baseline models in terms of textual consistency,structural stability,and interactive controllability.Moreover,BiC-LLM effectively enables multi-object semantic editing in complex scenes while preserving the integrity of unedited regions,demonstrating its robustness and effectiveness in image editing tasks.

作者石慧金聪慧 SHI Hui;JIN Conghui(School of Computer Science and Artificial Intelligence,Liaoning Normal University,Dalian 116029)

机构地区辽宁师范大学计算机与人工智能学院

出处《模式识别与人工智能》北大核心 2025年第7期596-612,共17页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金项目(No.61601214,61976109) 辽宁省教育厅项目(No.JYTMS20231039) 辽宁省教育科学规划项目(No.JG22CB252)资助。

关键词交互式图像编辑跨模态语义引导大语言模型(LLM) 视觉-结构解耦动态控制 Interactive Image Editing Cross-Modal Semantic Guidance Large Language Model(LLM) Vision-Structure Decoupling Dynamic Control

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1黄金杰,刘彬.基于双重优化稳定扩散模型的文本生成图像方法[J].模式识别与人工智能,2025,38(4):359-373. 被引量：2
2吴福祥,程俊.基于自编码器生成对抗网络的可配置文本图像编辑[J].软件学报,2022,33(9):3139-3151. 被引量：9
3夏垚铮,郝蕾,郑宛露,潘成伟,王少荣.基于语义分离和特征融合的人脸编辑方法[J].计算机辅助设计与图形学学报,2025,37(3):414-426. 被引量：3

二级参考文献5

1杨婉香,严严,陈思,张小康,王菡子.基于多尺度生成对抗网络的遮挡行人重识别方法[J].软件学报,2020,31(7):1943-1958. 被引量：25
2陈佛计,朱枫,吴清潇,郝颖明,王恩德,崔芸阁.生成对抗网络及其在图像生成中的应用研究综述[J].计算机学报,2021,44(2):347-369. 被引量：118
3余凯,宾燚,郑自强,杨阳.基于条件语义增强的文本到图像生成[J].软件学报,2024,35(5):2150-2164. 被引量：5
4岳忠牧,张喆,吕武,赵瑞祥,马杰.De-DDPM:可控、可迁移的缺陷图像生成方法[J].自动化学报,2024,50(8):1539-1549. 被引量：2
5刘子健,王兴梅,陈伟京,张万松,张天姿.基于硬负样本对比学习的水下图像生成方法[J].模式识别与人工智能,2024,37(10):887-909. 被引量：3

共引文献11

1杨百冰,陈泯融,叶勇森.结合生成对抗网络及多角度注意力的图像翻译模型[J].计算机系统应用,2023,32(4):283-292. 被引量：2
2李宗霖,张盛平,刘杨,张兆心,张维刚,黄庆明.基于多级残差映射器的文本驱动人脸图像生成和编辑[J].软件学报,2023,34(5):2101-2115. 被引量：6
3孙长春,黄晓凡,苏令印,徐金陵,汤效平,王兹尧,林泽东.井下险情模糊位置辨析方法[J].软件导刊,2023,22(8):99-103.
4余凯,宾燚,郑自强,杨阳.基于条件语义增强的文本到图像生成[J].软件学报,2024,35(5):2150-2164. 被引量：5
5张鹤,雷浩鹏,王明文,张尚昆.基于注意力和动态记忆模块的文本图像生成方法[J].计算机工程与应用,2024,60(17):224-232. 被引量：2
6瞿治国,陈韦龙,孙乐,刘文杰,张彦春.ECG-QGAN:基于量子生成对抗网络的心电图生成式信息系统[J].计算机研究与发展,2025,62(7):1622-1638.
7吴飞,马永恒,邓哲颖,王银杰,季一木,荆晓远.基于映射融合嵌入扩散模型的文本引导图像编辑方法[J].数据采集与处理,2025,40(4):1035-1045. 被引量：1
8刘耀晖,刘佳鑫,孙鹏,沈喆,郎宇博.分层梯度约束与潜码编辑融合的年龄化模拟[J].小型微型计算机系统,2025,46(12):2949-2956.
9刘耀晖,刘佳鑫,孙鹏,沈喆,郎宇博.全局-局部协同嵌入与语义掩码驱动的年龄化方法[J].电子与信息学报,2025,47(11):4535-4548.
10宁方伟,鲁嘉星,王一轩,马玉山,黎磊,李赫然,石岩.智能生成式设计——一种新的机械设计理念[J].机械工程学报,2025,61(24):267-284. 被引量：1

1杨东.基于大模型对话增强技术的水稻疾病问答系统[J].软件,2025,46(8):87-89.
2陆言炎,王博宇,王喜,夏欣.基于点击-边界双分支协同引导的交互式图像分割方法[J].无线互联科技,2025,22(16):1-9.
3王颖.基于人工智能的视频新闻编辑系统设计[J].电视技术,2025,49(5):56-59. 被引量：1
4冯晓.文化守望者的使命[J].现代艺术,2025(8):85-85.
5龙建武,李继豪.自适应核学习的交互式图像分割算法[J].通信学报,2025,46(7):249-261.
6周鑫,张思童,王玉鹏.基于STM32单片机的智能垃圾拾取机器小车设计[J].物联网技术,2025,15(18):95-98.
7王献忠,孙杰,涂仕豪,李志远.含内部基座锥-柱组合壳声振特性研究[J].华中科技大学学报(自然科学版),2025,53(8):168-174. 被引量：1
8何志武,王蕾,任红梅,刘一,刘岩岩.民航智能客服应用的前瞻性研究[J].中国民用航空,2025(9):87-89.
9黄赓,杨东超,陶铂,陈晨.利用伪光轴的点约束的机械臂运动学标定方法[J].机械设计与制造,2025(9):293-298.
10汤文婷,楼雯,刘彦希.我国医学随机对照试验偏倚风险一致性评估[J].医学信息学杂志,2025,46(8):37-44.

模式识别与人工智能

2025年第7期

浏览历史

内容加载中请稍等...

基于大语言模型双向协同的跨模态交互式图像编辑方法

参考文献3

二级参考文献5

共引文献11

相关作者

相关机构

相关主题

浏览历史