基于多模态大模型的井下视频语义提取与描述生成技术

Underground video semantic extraction and description generation technology based on multimodal large model

下载PDF

导出

摘要随着煤矿智能化建设的推进,井下作业视频数据量突增,目前视频信息处理与保存方法大多采用单场景视频分析和视频原格式存储技术,存在视频场景模型单一导致信息描述不全面、存储空间受限导致信息保存时间短等应用难题。针对井下视频全信息、低成本语义分析的实际需求,提出一种基于工况复杂度指标赋值的关键帧自适应提取方法与多模态语义建模的煤矿井下视频描述生成方法,实现对井下视频的最优计算解析与自然语言描述。首先根据井下工况特点设计复杂度指标赋值方法,提出基于工况复杂度的视频动态抽帧频度计算方法,实现最低计算成本的视频关键信息捕获;然后设计了基于MLLMs的井下视频描述生成技术框架,开发了关键帧自适应提取、大模型视觉语义特征提取、Prompt设计与文本编码、多模态融合与文本解码等关键技术模块,实现高效低成本化的井下视频全场景信息自然语言描述生成;最后将本文视频描述方法以及抽帧策略与传统方法进行了对比试验,试验结果表明:本文方法在确保高达95.4%的关键信息捕获率的同时,将计算资源消耗降低至传统密集抽帧方法的1.5%,为井下视频全信息、低成本语义分析提供了可行的技术路径。 With the rapid advancement of intelligent coal mine construction,the volume of underground operational video data has surged dramatically.Current video processing and storage methods predominantly rely on single-scene video analysis and raw-format storage techniques,which face critical limitations:monolithic scene models lead to incomplete information descriptions,and constrained storage capacity results in short data retention periods.To address the practical need for comprehensive yet low-cost semantic analysis of underground videos,this paper proposes a novel coal mine video captioning method integrating working-condition complexity metric-based adaptive keyframe extraction and multimodal semantic modeling,achieving optimal computational parsing and natural language description of underground video content.First,a complexity metric assignment method is designed based on the distinctive features of underground working conditions.Building on this,a dynamic frame-sampling frequency algorithm is proposed to minimize computational overhead while ensuring robust key information capture.Subsequently,a Multimodal Large Language Model(MLLM)-based technical framework is developed,incorporating four core modules:adaptive keyframe extraction,large-model-driven visual-semantic feature extraction,prompt engineering and text encoding,and multimodal fusion and text decoding.This framework enables efficient,low-cost generation of natural language descriptions for full-scene underground video information.Comparative experiments demonstrate that the proposed method achieves a key information capture rate of 95.4%while reducing computational resource consumption to 1.5%of traditional dense-sampling approaches.These results validate its viability as a technical solution for high-fidelity,cost-effective semantic analysis of underground videos.

作者付翔王主丰秦一凡闫明张智星王然风贾一帆 FU Xiang;WANG Zhufeng;QIN Yifan;YAN Ming;ZHANG Zhixing;WANG Ranfeng;JIA Yifan(College of Mining Engineering,Taiyuan University of Technology,Taiyuan 030024,China;State Key Laboratory of Intelligent Mining Equipment Technology,Taiyuan 030024,China;Post-doctoral Workstation,Shanxi Coking Coal Group Co.,Ltd.,Taiyuan 030024,China)

机构地区太原理工大学矿业工程学院智能采矿装备技术全国重点实验室山西焦煤集团有限责任公司博士后工作站

出处《煤炭科学技术》北大核心 2025年第11期216-228,共13页 Coal Science and Technology

基金国家自然科学基金资助项目(52274157,52574199) 山西省基础研究计划联合资助项目(202403011241002)。

关键词井下视频描述工况复杂度评估自适应关键帧提取多模态大模型语义融合 underground video captioning working-condition complexity assessment adaptive keyframe extraction multimodal large model semantic fusion

分类号 TD76 [矿业工程—矿井通风与安全]

引文网络
相关文献

参考文献32

1程德强,钱建生,郭星歌,寇旗旗,徐飞翔,顾军,高亚超,赵金升.煤矿安全生产视频AI识别关键技术研究综述[J].煤炭科学技术,2023,51(2):349-365. 被引量：116
2刘孝军,王飞.基于AI的煤矿视频智能分析技术[J].煤炭科学技术,2022,50(S02):260-264. 被引量：15
3王国法,赵国瑞,任怀伟.智慧煤矿与智能化开采关键核心技术分析[J].煤炭学报,2019,44(1):34-41. 被引量：468
4谢嘉成,王学文,郝尚清,李娟莉,葛星,史恒波.工业互联网驱动的透明综采工作面运行系统及关键技术[J].计算机集成制造系统,2019,25(12):3160-3169. 被引量：24
5程德强,郑珍,姜海龙.一种煤矿井下图像增强算法[J].工矿自动化,2015,41(12):31-34. 被引量：30
6张立亚,郝博南,孟庆勇,温良,吴文臻.基于HSV空间改进融合Retinex算法的井下图像增强方法[J].煤炭学报,2020(S01):532-540. 被引量：54
7范伟强,刘毅.基于自适应小波变换的煤矿降质图像模糊增强算法[J].煤炭学报,2020,45(12):4248-4260. 被引量：40
8唐守锋,史可,仝光明,史经灿,李华烁.一种矿井低照度图像增强算法[J].工矿自动化,2021,47(10):32-36. 被引量：12
9程德强,王雨晨,寇旗旗,付新竹,陈亮亮,赵凯.基于改进深度残差网络的矿井图像分类[J].计算机应用研究,2021,38(5):1576-1580. 被引量：14
10华同兴,邢存恩,赵亮.基于Faster R-CNN的煤岩识别与煤层定位测量[J].矿山机械,2019,47(8):4-9. 被引量：20

二级参考文献300

1谈咏东,王永雄,陈姝意,缪银龙.(2+1)D多时空信息融合模型及在行为识别的应用[J].信息与控制,2019,48(6):715-722. 被引量：3
2刘浩,刘海滨,孙宇,王竞陶,黄辉.煤矿井下员工不安全行为智能识别系统[J].煤炭学报,2021,46(S02):1159-1169. 被引量：50
3张立亚,郝博南,孟庆勇,温良,吴文臻.基于HSV空间改进融合Retinex算法的井下图像增强方法[J].煤炭学报,2020(S01):532-540. 被引量：54
4陈相蒙,王恩标,王刚.煤矿电机车无人驾驶技术研究[J].煤炭科学技术,2020,48(S02):159-164. 被引量：13
5张华,李靖锋,魏红磊,刘真.基于智能视频识别技术的智能化煤矿安全管理研究与应用[J].工矿自动化,2021,47(S01):10-13. 被引量：28
6樊占文,刘波.基于改进的Retinex低照度图像自适应增强技术研究[J].工矿自动化,2021,47(S01):126-130. 被引量：7
7杨金锋,杨国庆,吴仁彪.减少光照影响的自适应Gamma矫正方法[J].信号处理,2005,21(z1):261-264. 被引量：14
8胡韦伟,汪荣贵,方帅,胡琼.基于双边滤波的Retinex图像增强算法[J].工程图学学报,2010,31(2):104-109. 被引量：56
9Sun Jiping,Li Chenxin.In-pit coal mine personnel uniqueness detection technology based on personnel positioning and face recognition[J].International Journal of Mining Science and Technology,2013,23(3):357-361. 被引量：11
10章毓晋.数字图像直方图处理中的映射规则——评“用于数字图像直方图处理的一种二值映射规则”一文[J].中国图象图形学报（A辑）,2004,9(10):1265-1268. 被引量：2

共引文献964

1崔永乐.基于AI+3D技术的智能皮带分析和预警系统应用研究[J].中国矿业,2024,33(S01):230-233. 被引量：6
2王晗.基于数字孪生的钻机运行安全状态监测技术研究[J].中国安全科学学报,2024,34(S01):134-139.
3建中华,南静,刘鑫,代伟.基于时空张量融合的人体骨架行为自适应识别方法[J].仪器仪表学报,2023,44(6):74-85. 被引量：6
4张旭辉,杨红强,白琳娜,张超,杨文娟.基于改进RANSAC特征提取的掘进装备视觉定位方法研究[J].仪器仪表学报,2022,43(12):168-177. 被引量：11
5汪雪君.智能化矿用摄像仪测试方法中约束条件的研究[J].中国测试,2023,49(S01):86-90. 被引量：1
6庞洵.煤矿机电设备健康管理系统关键技术分析[J].中国设备工程,2019,0(24):23-25. 被引量：3
7吴艳娟,王健,王云亮.基于骨架提取算法的作物茎秆识别与定位方法[J].农业机械学报,2022,53(11):334-340. 被引量：4
8孙林,陈圣,姚旭龙,张艳博,陶志刚,梁鹏.矿井智能监控目标识别的图像增强方法与应用[J].煤炭学报,2024,49(S01):495-504. 被引量：10
9高毅楠,姚顽强,蔺小虎,郑俊良,马柏林,冯玮,高康洲.煤矿井下多重约束的视觉SLAM关键帧选取方法[J].煤炭学报,2024,49(S01):472-482. 被引量：9
10薛霜思,曹晖,贾立新,李欢,谭浚楷,石天卓.矿用电机分布式远程智能在线监测系统设计[J].煤炭学报,2023,48(S01):368-380. 被引量：3

1王亮亮,王凤颖,于娜,李秀龙,袁乃伟.无人机技术在风力发电机组巡检视频信息处理中的应用[J].自动化应用,2025,66(14):18-20. 被引量：1
2张璋,李喆,何菲,先春,张季,赵亮,唐取来,吴德光,赵腾飞.乙醇对白酒四种关键酯类挥发性抑制作用的理论计算解析[J].中国酿造,2025,44(10):164-170.
3石姝莉,张灵琳.基于场景可供性的古籍推广创新策略[J].新闻世界,2025(9):111-114.
4张弘,杨一帆,袁丁,陈浩,李亚伟.复杂环境自主成像感知关键技术及应用[J].中国科技成果,2025,26(20):61-61.
5田芳,杨欣垚,孙楠清,高行,陈俊轶,覃章念,庹兴敏,陈李溶,何垒.基于改进YOLO 11n-EWL的大鲵检测模型研究[J].农业机械学报,2025,56(10):110-118.
6焦军.警惕网络“心理诊断”陷阱[J].政工导刊,2025(11):54-55.
7范瑞龙,达虎,李洋,崔娟,金瑞欣.基于大模型敏感数据泄露风险的量化评估方法改进[J].科技创新与应用,2025,15(34):123-127.
8张强,吴凯.面向档案管理的区块链存证模型设计及安全机制[J].山西档案,2025(12):152-154.
9余辉,夏文蕾,程钰,王骏阳.基于生成式人工智能的课堂教学实验设计与实践[J].实验室研究与探索,2025,44(11):121-125.
10王琰娟,焦华杰,杨光飞,韩涛,王福霞.CBL和MDT翻转课堂在乳腺超声教学中的应用效果[J].临床医学研究与实践,2025,10(33):165-168.

煤炭科学技术

2025年第11期

浏览历史

内容加载中请稍等...

基于多模态大模型的井下视频语义提取与描述生成技术

参考文献32

二级参考文献300

共引文献964

相关作者

相关机构

相关主题

浏览历史