期刊文献+
共找到151篇文章
< 1 2 8 >
每页显示 20 50 100
Multiscale Feature Fusion for Gesture Recognition Using Commodity Millimeter-Wave Radar 被引量:1
1
作者 Lingsheng Li Weiqing Bai Chong Han 《Computers, Materials & Continua》 SCIE EI 2024年第10期1613-1640,共28页
Gestures are one of the most natural and intuitive approach for human-computer interaction.Compared with traditional camera-based or wearable sensors-based solutions,gesture recognition using the millimeter wave radar... Gestures are one of the most natural and intuitive approach for human-computer interaction.Compared with traditional camera-based or wearable sensors-based solutions,gesture recognition using the millimeter wave radar has attracted growing attention for its characteristics of contact-free,privacy-preserving and less environmentdependence.Although there have been many recent studies on hand gesture recognition,the existing hand gesture recognition methods still have recognition accuracy and generalization ability shortcomings in shortrange applications.In this paper,we present a hand gesture recognition method named multiscale feature fusion(MSFF)to accurately identify micro hand gestures.In MSFF,not only the overall action recognition of the palm but also the subtle movements of the fingers are taken into account.Specifically,we adopt hand gesture multiangle Doppler-time and gesture trajectory range-angle map multi-feature fusion to comprehensively extract hand gesture features and fuse high-level deep neural networks to make it pay more attention to subtle finger movements.We evaluate the proposed method using data collected from 10 users and our proposed solution achieves an average recognition accuracy of 99.7%.Extensive experiments on a public mmWave gesture dataset demonstrate the superior effectiveness of the proposed system. 展开更多
关键词 Gesture recognition millimeter-wave(mmWave)radar radio frequency(RF)sensing human-computer interaction multiscale feature fusion
在线阅读 下载PDF
IMM/MHT FUSING FEATURE INFORMATION IN VISUAL TRACKING
2
作者 Li Shuangquan Sun Shuyan Jiang Sheng Huang Zhipei Wu Jiankang 《Journal of Electronics(China)》 2009年第6期765-770,共6页
In multi-target tracking,Multiple Hypothesis Tracking (MHT) can effectively solve the data association problem. However,traditional MHT can not make full use of motion information. In this work,we combine MHT with Int... In multi-target tracking,Multiple Hypothesis Tracking (MHT) can effectively solve the data association problem. However,traditional MHT can not make full use of motion information. In this work,we combine MHT with Interactive Multiple Model (IMM) estimator and feature fusion. New algorithm greatly improves the tracking performance due to the fact that IMM estimator provides better estimation and feature information enhances the accuracy of data association. The new algorithm is tested by tracking tropical fish in fish container. Experimental result shows that this algorithm can significantly reduce tracking lost rate and restrain the noises with higher computational effectiveness when compares with traditional MHT. 展开更多
关键词 Multiple Hypothesis Tracking (MHT) interacting Multiple Model (IMM) feature information fusion Data association
在线阅读 下载PDF
Identify drug-drug interactions via deep learning:A real world study
3
作者 Jingyang Li Yanpeng Zhao +6 位作者 Zhenting Wang Chunyue Lei Lianlian Wu Yixin Zhang Song He Xiaochen Bo Jian Xiao 《Journal of Pharmaceutical Analysis》 2025年第6期1249-1263,共15页
Identifying drug-drug interactions(DDIs)is essential to prevent adverse effects from polypharmacy.Although deep learning has advanced DDI identification,the gap between powerful models and their lack of clinical appli... Identifying drug-drug interactions(DDIs)is essential to prevent adverse effects from polypharmacy.Although deep learning has advanced DDI identification,the gap between powerful models and their lack of clinical application and evaluation has hindered clinical benefits.Here,we developed a Multi-Dimensional Feature Fusion model named MDFF,which integrates one-dimensional simplified molec-ular input line entry system sequence features,two-dimensional molecular graph features,and three-dimensional geometric features to enhance drug representations for predicting DDIs.MDFF was trained and validated on two DDI datasets,evaluated across three distinct scenarios,and compared with advanced DDI prediction models using accuracy,precision,recall,area under the curve,and F1 score metrics.MDFF achieved state-of-the-art performance across all metrics.Ablation experiments showed that integrating multi-dimensional drug features yielded the best results.More importantly,we obtained adverse drug reaction reports uploaded by Xiangya Hospital of Central South University from 2021 to 2023 and used MDFF to identify potential adverse DDIs.Among 12 real-world adverse drug reaction reports,the predictions of 9 reports were supported by relevant evidence.Additionally,MDFF demon-strated the ability to explain adverse DDI mechanisms,providing insights into the mechanisms behind one specific report and highlighting its potential to assist practitioners in improving medical practice. 展开更多
关键词 Drug-drug interactions Deep learning Health care Multi-dimensional feature fusion
暂未订购
Research on Human-Robot Interaction Technology Based on Gesture Recognition
4
作者 Ming Hu 《Journal of Electronic Research and Application》 2025年第6期452-461,共10页
With the growing application of intelligent robots in service,manufacturing,and medical fields,efficient and natural interaction between humans and robots has become key to improving collaboration efficiency and user ... With the growing application of intelligent robots in service,manufacturing,and medical fields,efficient and natural interaction between humans and robots has become key to improving collaboration efficiency and user experience.Gesture recognition,as an intuitive and contactless interaction method,can overcome the limitations of traditional interfaces and enable real-time control and feedback of robot movements and behaviors.This study first reviews mainstream gesture recognition algorithms and their application on different sensing platforms(RGB cameras,depth cameras,and inertial measurement units).It then proposes a gesture recognition method based on multimodal feature fusion and a lightweight deep neural network that balances recognition accuracy with computational efficiency.At system level,a modular human-robot interaction architecture is constructed,comprising perception,decision,and execution layers,and gesture commands are transmitted and mapped to robot actions in real time via the ROS communication protocol.Through multiple comparative experiments on public gesture datasets and a self-collected dataset,the proposed method’s superiority is validated in terms of accuracy,response latency,and system robustness,while user-experience tests assess the interface’s usability.The results provide a reliable technical foundation for robot collaboration and service in complex scenarios,offering broad prospects for practical application and deployment. 展开更多
关键词 Gesture recognition Human-robot interaction Multimodal feature fusion Lightweight deep neural network ROS Real-time control
在线阅读 下载PDF
多模态特征交互与语义引导融合的RGB-T人群计数
5
作者 陈永 张娇娇 董珂 《北京航空航天大学学报》 北大核心 2026年第1期28-37,共10页
RGB-T模态人群计数旨在利用可见光RGB和热红外图像的互补性实现人群计数。针对RGB-T多模态人群计数方法在特征提取时,存在模态间信息交互不足、特征融合不充分,导致人群计数结果不准确的问题,提出了一种多模态特征交互与语义引导融合的R... RGB-T模态人群计数旨在利用可见光RGB和热红外图像的互补性实现人群计数。针对RGB-T多模态人群计数方法在特征提取时,存在模态间信息交互不足、特征融合不充分,导致人群计数结果不准确的问题,提出了一种多模态特征交互与语义引导融合的RGB-T人群计数方法。设计堆叠小尺度卷积核作为主干网络分支,提取各单模态的粗特征;提出多模态特征交互模块,对RGB和热红外各模态进行特征精细提取,实现模态间信息交互,克服信息交互不足的缺点;设计语义引导融合模块,通过全局与局部特征引导融合,增强多模态人群特征语义相关性,以充分融合多元上下文信息,提高人群目标的识别能力;利用回归头生成人群密度图,并输出计数结果。实验结果表明:所提方法在公开RGBT-CC数据集上各评价指标均优于对比方法,相较于CMCRL方法,所提方法的均方根误差降低了31.12%,对不同场景下人群计数具有更高的准确率。 展开更多
关键词 深度学习 RGB-T 人群计数 多模态特征交互 语义引导融合
原文传递
STDA-Net:基于时空特征融合和双重注意力交互网络的热带气旋强度估计
6
作者 郑小妹 方巍 +2 位作者 付海燕 万仕全 丁从慧 《气象学报》 北大核心 2026年第1期118-134,共17页
热带气旋强度估计对于防灾、减灾具有重要的现实意义,然而现有方法在估计精度、时空信息利用率及通道特征提取能力等方面仍存在一定的局限。为解决上述问题,以西北太平洋为研究海域,提出了一种基于时空特征融合和双重注意力交互网络的... 热带气旋强度估计对于防灾、减灾具有重要的现实意义,然而现有方法在估计精度、时空信息利用率及通道特征提取能力等方面仍存在一定的局限。为解决上述问题,以西北太平洋为研究海域,提出了一种基于时空特征融合和双重注意力交互网络的热带气旋强度估计模型—STDA-Net。该模型由3个核心模块构成:空间特征提取模块用于捕捉热带气旋的空间特性,时间特征提取模块旨在提取其变化过程中的时间特征,空间-通道交互模块则通过交互空间和通道注意力来增强对关键信息的提取。试验结果表明,STDA-Net模型在估计西北太平洋热带气旋强度方面的表现均优于对比的其他深度学习方法,均方根误差(RMSE)为9.42 knot,平均绝对误差(MAE)为7.22 knot,并在2019—2021年多个热带气旋事件中表现出较强的估计性能。从而表明STDA-Net在估计西北太平洋热带气旋强度任务中性能良好,证实了其准确度和优越性。 展开更多
关键词 热带气旋 强度估计 时空特征融合 双重注意力交互 通道特征
在线阅读 下载PDF
PFTransCNN:基于CNN-Transformer双分支融合的病理图像分割
7
作者 张恩珲 林帅 +3 位作者 陈金令 莫琳 朱创创 陈宇 《微电子学与计算机》 2026年第3期88-97,共10页
针对临床诊断中病理图像结构复杂、病变区域与正常组织边界模糊且对比度低所导致的分割精度受限问题,提出了一种基于卷积神经网络(CNN)与Transformer的双分支融合模型PFTransCNN(Parallel Fusion Transformer and CNN)。该模型旨在充分... 针对临床诊断中病理图像结构复杂、病变区域与正常组织边界模糊且对比度低所导致的分割精度受限问题,提出了一种基于卷积神经网络(CNN)与Transformer的双分支融合模型PFTransCNN(Parallel Fusion Transformer and CNN)。该模型旨在充分利用病理图像中空间和通道之间的相关性,实现对边界模糊且平滑的癌变组织的精准分割。具体而言,模型以ResNet34作为CNN分支的骨干网络,并结合Transformer模块提取多层次特征,捕获局部相关性与远程依赖信息。通过Fusion模块对两分支特征进行交互融合,增强了语义依赖关系,有效避免了边界特征的丢失。此外,采用上采样特征调制模块UFM(Upsample Feature Modulator)处理上采样分支中的特征信息,成功捕获低层次空间特征与高层次语义信息,从而实现了精准的分割结果。在GlaS、SEED和MoNuSeg数据集上的实验结果表明:该模型的Dice系数分别达到了91.61%、90.32%和81.37%,显著优于现有方法,验证了其在复杂病理图像分割任务中的有效性与泛化能力。 展开更多
关键词 病理图像 卷积神经网络 双分支融合 交互融合 上采样特征调制
在线阅读 下载PDF
改进YOLOv10的复杂场景人体跌倒检测方法
8
作者 郭莉 张雪松 +1 位作者 李萌萌 金花 《电子测量技术》 北大核心 2026年第3期204-212,共9页
针对复杂场景中高动态人体运动引发的跌倒特征判别性下降、小目标难以识别、关键部位遮挡等问题,提出了一种基于改进YOLOv10的人体跌倒检测算法ICI-YOLO。通过引入上下文锚点注意力替换骨干网络中的部分自注意力机制,实现了全局上下文... 针对复杂场景中高动态人体运动引发的跌倒特征判别性下降、小目标难以识别、关键部位遮挡等问题,提出了一种基于改进YOLOv10的人体跌倒检测算法ICI-YOLO。通过引入上下文锚点注意力替换骨干网络中的部分自注意力机制,实现了全局上下文依赖与细粒度空间融合表征;融合了迭代注意力机制对骨干网络C2f进行重构,强化关键区域语义表达能力;并提出融合交互卷积和跨尺度特征融合的交互式特征融合网络,提升了模型多尺度特征融合能力。实验表明,改进后的ICI-YOLO模型在自制人体跌倒行为检测数据集FALL上召回率和mAP@0.5分别提升了4.3%和2.2%,在公开数据集DiverseFALL10500上准确率和mAP@0.5:0.95分别提升了2.0%和1.5%,且在与主流实时检测算法的对比中展现出更优的检测性能。 展开更多
关键词 人体跌倒检测 YOLOv10 上下文锚点注意力 迭代注意力 交互卷积
原文传递
基于R(2+1)D时空特征融合与注意力的行为识别方法
9
作者 李林玉 陈淑荣 《计算机应用与软件》 北大核心 2026年第2期248-254,共7页
针对3D卷积在人体行为识别任务中,连续视频帧图像的时空信息提取不足且跨通道交互信息关注度不够,导致识别准确率不高的问题,提出一种基于R(2+1)D网络的多分路时空信息融合与注意力的行为识别方法。提取视频帧图像进行数据增强;以R(2+1)... 针对3D卷积在人体行为识别任务中,连续视频帧图像的时空信息提取不足且跨通道交互信息关注度不够,导致识别准确率不高的问题,提出一种基于R(2+1)D网络的多分路时空信息融合与注意力的行为识别方法。提取视频帧图像进行数据增强;以R(2+1)D网络为基础框架并融入Inception思想,对输入的视频帧图像进行多路时空特征卷积并融合,利用ECA通道注意力对融合特征筛选跨通道交互信息,以提取更抽象的高层特征;进行分类,输出人体行为识别结果。该方法充分利用视频的时空特征和跨通道交互信息,在UCF101数据集上准确率达到94.71%,比基础R(2+1)D网络提高4.53百分点;且模型参数由原来的33.3×106减小为26.9×10^(6)。实验表明,该方法能有效提高人体行为识别的准确率。 展开更多
关键词 R(2+1)D 时空卷积 特征融合 高效通道注意力 跨通道交互
在线阅读 下载PDF
融合门控机制与对比学习的化合物—蛋白质相互作用预测模型
10
作者 贾晓田 柳楠 荆昊 《软件导刊》 2026年第2期46-51,共6页
化合物与特定蛋白质的结合情况为确定药物疗效提供了有效参考,在药物发现中化合物—蛋白质相互作用(CPI)预测具有重要的应用价值。为了解决预测CPI在特征提取、信息融合方面的局限性,提出了融合门控机制与对比学习的化合物—蛋白质相互... 化合物与特定蛋白质的结合情况为确定药物疗效提供了有效参考,在药物发现中化合物—蛋白质相互作用(CPI)预测具有重要的应用价值。为了解决预测CPI在特征提取、信息融合方面的局限性,提出了融合门控机制与对比学习的化合物—蛋白质相互作用预测模型。首先,利用门控机制有效融合化合物与蛋白质特征,以准确捕捉二者之间的相互作用;其次,通过对比学习增强化合物与蛋白质的特征表示,提升模型区分相似与非相似样本的能力。实验表明,所提模型相较于GraphDTA、GNN-CPI及TransformerCPI等方法,在多个评价指标上提升显著。 展开更多
关键词 化合物—蛋白质相互作用 对比学习 门控机制 特征融合 预测模型
在线阅读 下载PDF
基于红外和可见光图像融合的多光谱行人检测
11
作者 项靖 姜明新 +1 位作者 周清清 张宇恒 《传感技术学报》 北大核心 2026年第2期377-385,共9页
针对目前多光谱行人检测算法在恶劣环境下对行人检测精度较低,且计算复杂度和参数量大的问题,提出一种基于红外和可见光图像融合的多光谱行人检测算法CMDFT-YOLOv8。利用差异增强模块保留和增强不同模态特定的特征,并提出了跨模态特征... 针对目前多光谱行人检测算法在恶劣环境下对行人检测精度较低,且计算复杂度和参数量大的问题,提出一种基于红外和可见光图像融合的多光谱行人检测算法CMDFT-YOLOv8。利用差异增强模块保留和增强不同模态特定的特征,并提出了跨模态特征交互来有效地融合来自不同模态的输入;另外使用部分卷积改进双路特征提取网络的BottleNeck结构,减少骨干网络的冗余信息和计算复杂度,更有效地提取空间特征。与基准方法相比,所提出的多光谱行人检测算法在弱光环境下的mAP达到了67.3%,相较于基准模型提升了5.8%,模型参数量下降80.2%,模型计算复杂度下降33.2%。所提出的算法可有效提高弱光环境下检测模型的精度和降低模型参数量。 展开更多
关键词 多光谱行人检测 模态特征差分增强 跨模态特征交互 YOLOv8 多模态图像融合
在线阅读 下载PDF
基于注视引导的复杂环境视频人-物交互检测模型
12
作者 钱政华 林剑峰 +4 位作者 潘星 陈辉 陈静霖 林宜轩 王玉琛 《自动化与信息工程》 2026年第1期67-74,共8页
针对基于视频的人-物交互检测存在的鲁棒性不足问题,提出基于注视引导的复杂环境视频人-物交互检测模型。该模型利用基于特征相似度的头身匹配算法,提高了头身匹配准确率;设计特征融合模块,将图像、文本和注视热力图特征进行有效融合。... 针对基于视频的人-物交互检测存在的鲁棒性不足问题,提出基于注视引导的复杂环境视频人-物交互检测模型。该模型利用基于特征相似度的头身匹配算法,提高了头身匹配准确率;设计特征融合模块,将图像、文本和注视热力图特征进行有效融合。在VidHOI数据集上,本文模型全部类的mAP比性能最好的对比模型HOIGF提高了0.84;在Action Genome数据集上,本文模型全部类的Rec@10比性能最好的对比模型HOIGF提高了0.7。该模型提升了复杂环境下视频人-物交互检测的准确性,具有较好的鲁棒性。 展开更多
关键词 人-物交互检测 注视引导 特征融合 特征相似度匹配
在线阅读 下载PDF
DCF-UNet:基于动态自适应多分辨率交互机制的冠脉造影图像血管分割方法
13
作者 胡雨辰 杨韫华 +2 位作者 韩晓鑫 刘庆晨 王建林 《中国医学物理学杂志》 2026年第2期162-171,共10页
提出一种基于动态自适应多分辨率交互机制的渐进式优化网络DCF-UNet。该模型通过协同轻量化主感知模块、动态自适应多尺度特征融合,降低参数复杂度的同时,又缓解血管断裂和小血管丢失问题。针对边缘模糊问题,模型结合残差连接与多输出... 提出一种基于动态自适应多分辨率交互机制的渐进式优化网络DCF-UNet。该模型通过协同轻量化主感知模块、动态自适应多尺度特征融合,降低参数复杂度的同时,又缓解血管断裂和小血管丢失问题。针对边缘模糊问题,模型结合残差连接与多输出监督机制,有效补偿边界细节。使用公共数据集CHUAC与DCA1,并通过数据集预处理对数据集分别扩充,DCF-UNet模型在CHUAC与DCA1数据集的准确率分别为0.983 1和0.978 4,F1分别为0.780 9和0.798 9,交并比分别为0.6413和0.666 5。实验结果表明该模型优于传统UNet及主流改进UNet模型,验证DAMI机制及模块协同的有效性。 展开更多
关键词 冠脉造影 图像分割 多分辨率交互机制 局部特征增强 多尺度特征融合 残差连接 UNet
暂未订购
ST-SIGMA:Spatio-temporal semantics and interaction graph aggregation for multi-agent perception and trajectory forecasting 被引量:6
14
作者 Yang Fang Bei Luo +3 位作者 Ting Zhao Dong He Bingbing Jiang Qilie Liu 《CAAI Transactions on Intelligence Technology》 SCIE EI 2022年第4期744-757,共14页
Scene perception and trajectory forecasting are two fundamental challenges that are crucial to a safe and reliable autonomous driving(AD)system.However,most proposed methods aim at addressing one of the two challenges... Scene perception and trajectory forecasting are two fundamental challenges that are crucial to a safe and reliable autonomous driving(AD)system.However,most proposed methods aim at addressing one of the two challenges mentioned above with a single model.To tackle this dilemma,this paper proposes spatio-temporal semantics and interaction graph aggregation for multi-agent perception and trajectory forecasting(STSIGMA),an efficient end-to-end method to jointly and accurately perceive the AD environment and forecast the trajectories of the surrounding traffic agents within a unified framework.ST-SIGMA adopts a trident encoder-decoder architecture to learn scene semantics and agent interaction information on bird’s-eye view(BEV)maps simultaneously.Specifically,an iterative aggregation network is first employed as the scene semantic encoder(SSE)to learn diverse scene information.To preserve dynamic interactions of traffic agents,ST-SIGMA further exploits a spatio-temporal graph network as the graph interaction encoder.Meanwhile,a simple yet efficient feature fusion method to fuse semantic and interaction features into a unified feature space as the input to a novel hierarchical aggregation decoder for downstream prediction tasks is designed.Extensive experiments on the nuScenes data set have demonstrated that the proposed ST-SIGMA achieves significant improvements compared to the state-of-theart(SOTA)methods in terms of scene perception and trajectory forecasting,respectively.Therefore,the proposed approach outperforms SOTA in terms of model generalisation and robustness and is therefore more feasible for deployment in realworld AD scenarios. 展开更多
关键词 feature fusion graph interaction hierarchical aggregation scene perception scene semantics trajectory forecasting
在线阅读 下载PDF
基于时空交互网络的人体行为检测方法研究 被引量:1
15
作者 田青 张浩然 +2 位作者 楚柏青 张正 豆飞 《计算机应用与软件》 北大核心 2025年第4期156-165,共10页
针对现有的人体行为检测方法中,存在特征融合能力较差、时序信息相关性不强和行为边界不明确等问题,提出一种基于时空交互网络的人体行为检测方法。重新设计了双流特征提取模块,在空间流和时空流两个网络之间添加连接层;分别在空间流和... 针对现有的人体行为检测方法中,存在特征融合能力较差、时序信息相关性不强和行为边界不明确等问题,提出一种基于时空交互网络的人体行为检测方法。重新设计了双流特征提取模块,在空间流和时空流两个网络之间添加连接层;分别在空间流和时间流网络中引入改进的空间变换网络和视觉注意力模型;设计基于像素筛选器的特征融合模块,用于重点区域时序信息相关性的计算和两类不同维度特征的聚合;对网络的损失函数进行了优化。在AVA数据集上的实验结果表明该方法在检测精度、速度以及泛化能力上具有优越性。 展开更多
关键词 时空交互网络 人体行为检测 视觉注意力 特征融合 损失函数
在线阅读 下载PDF
基于跨模态特征交互和多尺度重建的红外与可见光图像融合 被引量:1
16
作者 姚睿 王凯 +2 位作者 郭浩帆 胡文涛 田祥瑞 《红外与激光工程》 北大核心 2025年第8期259-270,共12页
针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CF... 针对弱光环境下红外与可见光图像融合存在的纹理细节丢失、视觉效果和实时性差等问题,提出了一种基于跨模态特征交互和多尺度重建(Cross-modal Feature Interaction and Multi-scale Reconstruction,CFIMR)的红外与可见光图像融合算法CFIMRFusion。该算法构建了包括卷积注意力增强模块、编码器网络、跨模态特征交互融合模块和基于多尺度重建的解码器网络的四阶段融合框架。首先,设计卷积注意力增强模块提升弱可见光图像的对比度和纹理可见性,并利用编码器网络从红外图像和增强后的可见光图像中提取深层多尺度特征。然后,提出基于通道-空间注意力的跨模态特征交互融合模块,对红外显著特征和可见光细节特征进行互补融合。最后,为解决使用普通解码器重建图像时出现特征消失等问题,将融合得到的多尺度特征以跳跃连接的方式输入到解码器各级,重建高保真的融合图像。实验结果表明,CFIMRFusion融合图像的细节特征和整体视觉效果优于对比算法;且与最优对比算法相比,融合图像在TNO数据集中平均梯度、边缘强度分别提升了15.8%、18.2%,在LLVIP数据集中互信息、标准差分别提升了11.5%、9.5%,在MSRS数据集中边缘强度提升了10.1%;三个数据集上的融合速度分别为最快对比算法的24.1%、23.86%和25.2%。 展开更多
关键词 图像融合 图像增强 注意力机制 自编码网络 跨模态特征交互
原文传递
面向煤矿井下场景的安全帽佩戴检测算法 被引量:3
17
作者 苗作华 李苗苗 +3 位作者 徐厚友 王梦婷 严蔚涵 陈勇 《安全与环境学报》 北大核心 2025年第5期1743-1751,共9页
煤矿井下弥漫着粉尘和雾气且多数区域为狭长巷道,仅依赖矿灯照明会导致视频监控图像出现细节模糊、局部过曝及目标尺寸多变等问题。这些因素增加了井下安全帽目标检测的难度,现有目标检测算法直接应用于煤矿井下场景时,通常面临精度不... 煤矿井下弥漫着粉尘和雾气且多数区域为狭长巷道,仅依赖矿灯照明会导致视频监控图像出现细节模糊、局部过曝及目标尺寸多变等问题。这些因素增加了井下安全帽目标检测的难度,现有目标检测算法直接应用于煤矿井下场景时,通常面临精度不足的挑战。针对这些问题,研究提出一种基于YOLOv8n(You Only Look Once version 8n)的煤矿井下安全帽检测算法。首先,采用空间到深度机制将YOLOv8n主干网络中的Conv模块重新构建为空间到深度卷积(Space-to-Depth Convolutional,SPDConv)模块,以便从特征图中充分提取浅层细节信息,提高模型对细节模糊图像中小目标安全帽的检测精度;其次,引入基于注意力机制的尺度内特征交互模块,减少局部过曝对安全帽特征提取的干扰,增强模型对目标区域的关注能力;最后,借鉴高层次筛选特征融合金字塔对YOLOv8n的颈部网络进行重设计,改善模型对不同尺寸安全帽的检测能力,进一步提升检测精度。试验结果显示,该算法在CUMT-Helme T数据集上的平均精度均值达91.7%,相较于YOLOv8n提升了3.2百分点,同时模型参数量减少了1.9×10^(5)。与单次多边框检测(Single Shot MultiBox Detector,SSD)、快速区域卷积神经网络(Region-based Convolutional Neural Networks,Faster RCNN)、YOLOv5s、YOLOv6n、YOLOv7及YOLOv7-tiny等当前主流目标检测算法相比,该算法的平均精度均值最高,且参数量和浮点运算量较低,在实现较高检测精度的同时还具备一定的轻量化特性。 展开更多
关键词 安全工程 煤矿井下 安全帽检测 YOLOv8n 空间到深度机制 尺度内特征交互 多尺度特征融合
原文传递
结合CNN-Transformer特征交互的红外与可见光图像融合方法 被引量:1
18
作者 张德银 张裕尧 +1 位作者 李俊佟 吴章辉 《红外技术》 北大核心 2025年第7期813-822,共10页
针对CNN与Transformer提取的特征之间交互作用未充分挖掘而导致的融合图像易产生红外特征分布不均匀、轮廓不清晰以及重要背景信息丢失等问题,本文提出了一种新的结合CNN-Transformer特征交互的红外与可见光图像融合网络。首先,新融合... 针对CNN与Transformer提取的特征之间交互作用未充分挖掘而导致的融合图像易产生红外特征分布不均匀、轮廓不清晰以及重要背景信息丢失等问题,本文提出了一种新的结合CNN-Transformer特征交互的红外与可见光图像融合网络。首先,新融合网络设计了新的空间通道混合注意力机制以提升全局及局部特征的提取效率并得到混合特征块;其次,利用CNN-Transformer的特征交互获取融合混合特征块,并构建多尺度重构网络以实现图像特征重构输出;最后,使用TNO数据集将新融合网络与其它9种融合网络进行对比图像融合实验。实验结果表明,新融合网络获得的融合图像在视觉感知方面表现优异,既突出了红外特征和物体轮廓,又保留了丰富的背景纹理细节;网络在EN、SD、AG、SF、SCD以及VIF指标上相较于现有融合网络平均提高约64.73%、8.17%、69.05%、66.34%、15.39%和25.66%。消融实验证明了新模型的有效性。 展开更多
关键词 CNN-Transformer特征交互 全局特征 混合注意力 图像融合 局部特征
在线阅读 下载PDF
基于孪生网络的特征融合位移RGB-T目标跟踪 被引量:1
19
作者 李海燕 曹永辉 +1 位作者 郎恂 李海江 《湖南大学学报(自然科学版)》 北大核心 2025年第4期68-78,共11页
为解决现有目标跟踪算法深层次特征提取困难、不能充分利用跨模态信息以及目标特征表示较弱等问题,提出了基于孪生网络的特征融合位移RGB-T目标跟踪算法.首先,基于可见光模态SiameseRPN++的目标跟踪框架,扩展设计红外模态分支,以获得多... 为解决现有目标跟踪算法深层次特征提取困难、不能充分利用跨模态信息以及目标特征表示较弱等问题,提出了基于孪生网络的特征融合位移RGB-T目标跟踪算法.首先,基于可见光模态SiameseRPN++的目标跟踪框架,扩展设计红外模态分支,以获得多模态目标跟踪框架,设计了改进步长的ResNet50作为特征提取网络,有效挖掘目标的深层次特征.随后,设计特征交互学习模块,利用一种模态的判别信息引导另一种模态的目标外观特征学习,挖掘特征空间和通道中的跨模态信息,增强网络对前景信息的关注.然后,设计多模特征融合模块计算输入的可见光图像和红外图像的特征融合度,对不同模态的重要特征进行空间融合以去除冗余信息,并采用级联融合策略重建多模态图像,增强目标特征表示.最后,设计特征空间位移模块,分割红外模态分支的特征图并向四个不同方向移位,增强热源目标特征的边缘表示.在两个RGB-T数据集上的实验验证了提出算法的有效性,消融实验证明了设计的单个模块的优越性. 展开更多
关键词 RGB-T跟踪 多模特征融合模块 特征空间位移模块 特征交互学习模块
在线阅读 下载PDF
基于特征交互与表示增强的语音手机来源开集识别方法
20
作者 岳峰 彭洋 +4 位作者 苏兆品 张国富 廉晨思 杨波 方振 《计算机应用》 北大核心 2025年第12期3813-3819,共7页
基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与... 基于手机语音的多媒体取证任务一直都是研究热点,然而已有语音手机识别任务均局限于闭集模式,即训练集与测试集共享相同的类别集合,无法保证未知类别手机的识别精度,所以现有方法无法直接应用于未知手机。为此,提出一种基于特征交互与表示增强的语音手机来源开集识别方法(FireOSCI)。首先,设计基于多头注意力模块Fastformer的全局特征提取模块GlobalBlock,以更好地捕捉整个语音样本的全局信息,获得丰富的设备特征信息;其次,设计基于SE-Res2Block(Squeeze-Excitation Res2Block)的局部特征提取模块LocalBlocks,专注于增强跟手机信息相关的特征,抑制与手机来源识别无关的特征;随后,设计基于注意力机制的特征融合机制,将全局特征和多层局部特征深度融合;最后,设计基于注意力池化的手机来源确认网络,以提高开集模式下的识别准确率。在13个不同手机品牌、86种不同型号的手机语音数据集上的对比实验结果表明,所提方法可以实现未知类别手机的识别,为语音手机来源的开集识别提供可参考的技术方案。 展开更多
关键词 语音手机来源 开集识别 特征交互 表示增强 深度融合
在线阅读 下载PDF
上一页 1 2 8 下一页 到第
使用帮助 返回顶部