基于多层次去噪的水电厂监控视频跨模态语义检索

Cross-modal semantic retrieval for hydropower plant surveillance videos based on multi-level denoising

下载PDF

导出

摘要【目的】为了将跨模态检索机制应用于水电视频监控系统中的人员安防、设施保护、仪器状态监控等场景,通过构建文本图像之间的多模态数据映射,实现基于文本描述的灵活语义内容搜索。【方法】提出多层次去噪的多模态融合技术,以解决现有跨模态方法中单流模型推理速度慢和双流模型缺乏模态融合的问题。该技术基于双流预训练模型,结合掩码语言建模和细粒度跨模态语义对齐的思想,在神经网络的多个层次上设计了“先加噪、再去噪”的任务,以促进图像和文本之间的细粒度交互。【结果】通过大量试验验证,在不同设置下,相比基线模型CLIP微调后的R@1,在Flickr30K数据集上,图像检索和文本检索任务的召回率分别提高了4.1%和2.7%;在MS-COCO数据集上,这两者分别提高了4.3%和3.2%;在自己收集的水电系统监控场景数据上,针对坝区漂浮人员、设备运行状态、仪表仪器异常等工况的检索进行了测试并取得了较好的效果。【结论】通过试验验证了多层次去噪算法在跨模态语义检索任务中的优越性,证明了其在水电厂监控视频场景的适用性。 [Objective]To apply the cross-modal retrieval mechanisms to scenarios such as personnel security,facility protection,and equipment status monitoring in hydropower video surveillance systems,a multi-modal data mapping between texts and images is developed to enable flexible semantic content search through textual descriptions.[Methods]In order to address issues of the slow inference speed of single-stream models and the lack of modal fusion in dual-stream models in existing cross-modal method,a multi-level denoising multimodal fusion technology was proposed.Based on a dual-stream pre-trained model,this technology integrated masked language modeling with fine-grained cross-modal semantic alignment.A“noise addition followed by denoising”task was designed at multiple levels of the neural network to promote fine-grained interactions between texts and images.[Results]Through extensive experiments,it was validated that under different settings,compared with the fine-tuned CLIP baseline model,the R@1 recall rates for image and text retrieval tasks were increased by 4.1%and 2.7%,respectively,on the Flickr30K dataset.On the MS-COCO dataset,the recall rates were increased by 4.3%and 3.2%,respectively.In a selfcollected dataset of hydropower system surveillance scenarios,retrieval tests for personnel in dam areas,equipment operating status,and instrument anomalies were conducted,achieving satisfactory result.[Conclusion]Experiments verify the advantages of the multi-level denoising algorithm in cross-modal semantic retrieval tasks and prove its applicability in hydropower plant surveillance video scenarios.

作者胡晓连唐佳庆杨志周文黄坤曹亮亮莫益军凌贺飞史宇轩李建博 HU Xiaolian;TANG Jiaqing;YANG Zhi;ZHOU Wen;HUANG Kun;CAO Liangliang;MO Yijun;LING Hefei;SHI Yuxuan;LI Jianbo(Huanglongtan Hydropower Plant of State Grid Hubei Electric Power Co.,Ltd.,Shiyan 442005,Hubei,China;School of Computer Science and Technology,Huazhong University of Science and Technology,Wuhan 430074,Hubei,China;Faculty of Artificial Intelligence in Education,Central China Normal University,Wuhan 430079,Hubei,China)

机构地区国网湖北省电力有限公司黄龙滩水力发电厂华中科技大学计算机科学与技术学院华中师范大学人工智能教育学部

出处《水利水电技术(中英文)》北大核心 2025年第11期179-188,共10页 Water Resources and Hydropower Engineering

基金国家自然科学基金(61972169,62302186) 国家电网有限公司管理科技项目(521531230001)。

关键词跨模态检索图像文本检索视觉语言预训练对比学习去噪 cross-modal retrieval image-text retrieval vision-language pre-training contrastive learning denoising

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献12

1熊自强.自动化监控系统在水电厂中的应用[J].集成电路应用,2024,41(1):182-183. 被引量：4
2杜梦盈,张召,李谷涵,雷晓辉.大型水利工程梯级泵站短期优化调度方案[J].排灌机械工程学报,2024,42(2):194-200. 被引量：9
3黄荣敏,黄钰铃,曾月,张烨,雷蕊菡.长江大保护试点城市某污水处理厂尾水湿地净化效果研究[J].中国水利水电科学研究院学报（中英文）,2024,22(2):169-178. 被引量：12
4徐小蓉,金峰,廖仕信,周虎,张全意,骆华攀.堆石混凝土坝信息化施工管理研究[J].水利水电技术（中英文）,2023,54(7):150-160. 被引量：11
5任英杰,李传奇,王薇,葛召华.改进YOLOv3的轻量化漂浮物检测算法[J].水利水电技术（中英文）,2023,54(10):170-179. 被引量：6
6牛子厚,吴鑫淼,秦增乐,郄志红.梯级拦水堰与曲线槽岸组合的河道水流特性与过鱼效果研究[J].中国水利水电科学研究院学报（中英文）,2023,21(2):183-193. 被引量：2
7徐文婉,周小平,王佳.跨模态检索技术研究综述[J].计算机工程与应用,2022,58(23):12-23. 被引量：8
8武建.人工智能技术在水利行业中的应用实践与展望[J].水利发展研究,2024,24(8):44-49. 被引量：8
9张文韬,郭穗,王本红,邢本福,严玉明,徐长明,谭佳文,黄鹏辉,李文馨.计算机视觉技术在水电厂的应用及前景分析[J].水电站机电技术,2023,46(12):50-53. 被引量：3
10郭贵彬,宋达田.水电厂电力监控系统安全防护建设[J].水电站机电技术,2023,46(10):109-110. 被引量：3

二级参考文献119

1陈娜,蔺志刚,刘瑾程,董珊,包闯.基于智能视频监控系统的河湖四乱巡检技术研究[J].水利水电技术（中英文）,2022,53(S02):455-462. 被引量：9
2张庆龙,安再展,刘天云,张兆省,皇甫泽华,李庆斌.土石坝压实的智能控制理论[J].水力发电学报,2020(7):34-40. 被引量：21
3樊启祥,陆佑楣,张超然,李果.金沙江溪洛渡水电站工程建设的技术和管理创新与实践[J].水力发电学报,2020(7):21-33. 被引量：36
4桂鹍鹏,蒋鑫,宋欣,丁益.5G通信技术在智慧水利中的应用前景分析[J].人民长江,2021,52(S02):283-288. 被引量：19
5孙亚平,周品成,袁敏忠,王跃昌,崔理华.水力负荷对改良型垂直流人工湿地降解模拟污水厂尾水效果的影响[J].环境工程学报,2019,13(11):2629-2636. 被引量：16
6邓志平.水电厂电力监控系统的安全防护措施研究[J].大众标准化,2020(10):182-183. 被引量：1
7宾小杰.水电站机电设备维修检修管理探究[J].中文科技期刊数据库(全文版)工程技术,2022(12):172-174. 被引量：1
8ZHONG DengHua,CUI Bo,LIU DongHai,TONG DaWei.Theoretical research on construction quality real-time monitoring and system integration of core rockfill dam[J].Science China(Technological Sciences),2009,52(11):3406-3412. 被引量：64
9吴保生,陈红刚,马吉明.美国基西米河生态修复工程的经验[J].水利学报,2005,36(4):473-477. 被引量：39
10马井泉,周怀东,董哲仁.水生植物对氮和磷去除效果的试验研究[J].中国水利水电科学研究院学报,2005,3(2):130-134. 被引量：38

共引文献85

1杜锦丰,王海荣,梁焕,王栋.基于表示学习的跨模态检索方法研究进展[J].广西师范大学学报（自然科学版）,2022,40(3):1-12. 被引量：4
2刘颖,王哲,房杰,朱婷鸽,李琳娜,刘继明.基于图文融合的多模态舆情分析[J].计算机科学与探索,2022,16(6):1260-1278. 被引量：11
3洪惠群,沈贵萍,黄风华.表情识别技术综述[J].计算机科学与探索,2022,16(8):1764-1778. 被引量：9
4曾素佳,庞善民,郝问裕.基于深度监督学习的零样本跨模态检索方法[J].西安交通大学学报,2022,56(11):156-166. 被引量：2
5杨慧,施水才.基于内容的图像检索技术研究综述[J].软件导刊,2023,22(4):229-244. 被引量：8
6李颖婷.生成式人工智能给图书馆带来的机遇、挑战及应对策略[J].图书与情报,2023(2):42-48. 被引量：67
7张知奇,袁鑫攀,曾志高.单向句法依存关系指导下的跨模态检索[J].现代信息科技,2023,7(10):74-79.
8吴石松,徐少勇.广电内容管理中视音频AI跨模态检索技术的应用研究[J].电声技术,2023,47(4):14-16. 被引量：1
9段建涛,王记涛.绿色低碳背景下水中墩信息化施工技术应用[J].中国公路,2023(14):103-105.
10王鸿,葛红.基于注意力机制和语义相似度的跨模态哈希检索[J].计算机与现代化,2023(8):44-53.

1杜娟,杨怡,王欢.基于深度学习的跨模态图像与文本检索系统设计与实现[J].电脑知识与技术,2025,21(27):26-28.
2孙丹阳.燃气管道第三方破坏事故原因分析及防控对策[J].煤气与热力,2025,45(10):69-72. 被引量：1
3阮文强.基于DCS的水电厂监控系统国产化改造研究[J].消费电子,2025(13):83-85.
4陈良水.语音识别在广播电视交互服务中的应用[J].电声技术,2025,49(4):79-81.
5涂创业.军事设施保护军地协同治理问题及对策[J].中国军转民,2025(20):47-48.
6肖栋.基于MS-CNN算法的防坠安全器表面缺陷检测[J].建筑机械化,2025,46(12):63-67.
7汤颖,江银,熊丽荣,梅建萍.基于RAG的数据挖掘课程智能教学助手[J].计算机技术与发展,2025,35(12):141-148.
8姚金楠,杨新健,刘立磊.基于大模型RAG应用的特种设备科普AI问答数字人的研发[J].中国特种设备安全,2025,41(S1):93-97.
9余忠,邱海慧,蒋卓钰.“数智”赋能城市轨道交通设施保护管理水平提升[J].建设监理,2025(11):78-81.

水利水电技术(中英文)

2025年第11期

浏览历史

内容加载中请稍等...

基于多层次去噪的水电厂监控视频跨模态语义检索

参考文献12

二级参考文献119

共引文献85

相关作者

相关机构

相关主题

浏览历史