基于跨模态注意力与门控融合的声场景分类

Acoustic scene classification based on cross-modal attention and gating fusion

下载PDF

导出

摘要针对声场景分类任务中模态间关联获取不充分、特征融合效率低等问题,提出一种基于跨模态注意力与门控融合的声场景分类模型。该模型通过跨模态注意力模块实现声学与视觉模态的双向交互,动态捕捉模态间关联;同时设计门控融合模块动态调整声学与视觉模态权重,实现特征的自适应融合,并引入残差增强与双路池化策略提升特征的鲁棒性;从准确率、帧率和模型参数量3个维度对所提模型与同任务下的其他方法进行评估。仿真结果表明,所提模型在保持较高准确率的同时,整体分类效果优于其他方法,证明了其有效性与实用性。 Aiming at the problems of insufficient acquisition of correlation between modes and inefficient feature fusion in acoustic scene classification task,a acoustic scene classification model based on cross-modal attention and gating fusion is proposed.This model enables bidirectional interaction between acoustic and visual modalities via a cross-modal attention module,dynamically capturing their correlation.Meanwhile,the gating fusion module is designed to dynamically adjust the weights of acoustic and visual modes,realize the adaptive fusion of features,and the residual enhancement and dual-path pooling strategy are introduced to boost the robustness of features.The proposed model and the excellent methods with the same task are evaluated across accuracy,frame rate and model parameters.The simulation results show that the overall classification effect of the proposed model outperforms other methods while maintaining high accuracy,which proves its effectiveness and practicability.

作者韦娟周惠文宁方立 WEI Juan;ZHOU Huiwen;NING Fangli(School of Communication Engineering,Xidian University,Xi’an 710071,China;School of Mechanical Engineering,Northwestern Polytechnical University,Xi’an 710072,China)

机构地区西安电子科技大学通信工程学院西北工业大学机电学院

出处《系统工程与电子技术》北大核心 2025年第11期3543-3550,共8页 Systems Engineering and Electronics

基金国家自然科学基金(52475132) 陕西省重点研发计划(2024GX-ZDCYL-01-16) 航空科学基金(20200015053001) 西安市重点产业链技术攻关基金(23ZDCYJSGG0006-2023)资助课题。

关键词声场景分类跨模态注意力动态门控自适应融合 acoustic scene classification cross-modal attention dynamic gating adaptive fusion

分类号 TN912.3 [电子电信—通信与信息系统] TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1刘立芳,杨海霞,齐小刚.基于线性判别分析的时频域特征提取算法[J].系统工程与电子技术,2019,41(10):2184-2190. 被引量：21
2吕勤哲,全英汇,沙明辉,董淑仙,邢孟道.基于集成深度学习的有源干扰智能分类[J].系统工程与电子技术,2022,44(12):3595-3602. 被引量：8
3常月,侯元波,谭奕舟,李圣辰,邵曦.基于自注意力机制的多模态场景分类[J].复旦学报（自然科学版）,2023,62(1):46-52. 被引量：7
4黄天阳,侯元波,李圣辰,邵曦.互编码器辅助视频的多模态场景分类[J].南京邮电大学学报（自然科学版）,2023,43(1):104-110. 被引量：1
5Liguang Zhou,Yuhongze Zhou,Xiaonan Qi,Junjie Hu,Tin Lun Lam,Yangsheng Xu.Feature pyramid attention network for audio-visual scene classification[J].CAAI Transactions on Intelligence Technology,2025,10(2):359-374. 被引量：1

二级参考文献16

1张光义.提高雷达系统抗干扰能力的一些措施[J].现代雷达,2001,23(1):6-12. 被引量：32
2刘辉,杨俊安,王一.基于流形学习的声目标特征提取方法研究[J].物理学报,2011,60(7):437-443. 被引量：7
3周新,姚富强,牛英滔.一种线性扫频干扰信号的参数估计方法[J].通信技术,2016,49(12):1582-1587. 被引量：3
4王程,郑小燕,王海彬.基于短时傅里叶变换的干扰信号识别方法[J].装备环境工程,2018,15(3):67-70. 被引量：5
5陈曙辉,范玉顺.主题和时间特征融合下的服务消亡预测[J].计算机集成制造系统,2018,24(11):2676-2685. 被引量：3
6晁娇.基于短时傅里叶变换的雷达信号脉内特征自动识别研究[J].现代信息科技,2019,3(1):50-53. 被引量：7
7杨州,慕晓冬,王舒洋,马晨晖.基于多尺度特征融合的遥感图像场景分类[J].光学精密工程,2018,26(12):3099-3107. 被引量：34
8翟正利,梁振明,周炜,孙霞.变分自编码器模型综述[J].计算机工程与应用,2019,55(3):1-9. 被引量：78
9田艳玲,张维桐,张锲石,路纲,吴晓军.图像场景分类技术综述[J].电子学报,2019,47(4):915-926. 被引量：21
10张建中,穆贺强,文树梁,李彦兵.基于脉内步进LFM波形的抗间歇采样转发干扰方法[J].系统工程与电子技术,2019,41(5):1013-1020. 被引量：24

共引文献33

1刘茜,王瑜,付常洋,肖洪兵,邢素霞.基于特征选择的阿尔茨海默症辅助诊断[J].中国医学物理学杂志,2020,37(5):656-660. 被引量：4
2丁奥,张媛,朱磊,马路萍,黄磊.基于加速度分布特征的快递暴力分拣识别方法[J].包装工程,2020,41(23):162-171. 被引量：5
3李嘉莹,赵丽,边琰,郭芳青.基于LDA和KNN的下肢运动想象脑电信号分类研究[J].国外电子测量技术,2021,40(1):9-14. 被引量：11
4陈红,谢勤岚.基于分数阶Fourier变换的PD时频特征提取[J].计算机仿真,2021,38(4):343-347. 被引量：5
5闫琳.基于深度学习网络的舞蹈动作识别方法研究[J].电子设计工程,2021,29(11):30-34. 被引量：4
6李瑞俊,高霞,李俊芳.激光频域畸变数据非均匀采集[J].激光杂志,2021,42(6):134-138.
7刘珊,丛培杰,吴杰,肖百惠,曲德宇,杨淼.基于时频域转换的变压器油纸绝缘介质响应检测研究[J].自动化技术与应用,2021,40(6):112-116. 被引量：2
8陈红,高原,谢勤岚.非扫描激光主动成像的频域特征分析[J].激光杂志,2022,43(1):139-143.
9韦娟,杨皇卫,宁方立.基于NMF与CNN联合优化的声学场景分类[J].系统工程与电子技术,2022,44(5):1433-1438. 被引量：5
10汤春球,陈琳,刘天福.基于STM32的振动故障监测系统设计[J].自动化与仪表,2022,37(5):59-62.

1李月,吴梦牵.基于用户体验的非遗数字博物馆交互设计研究[J].艺术与设计(电子版),2024(7):0104-0106.
2张磊.配电系统中的智能电表关键技术应用[J].集成电路应用,2025,42(8):356-357.

系统工程与电子技术

2025年第11期

浏览历史

内容加载中请稍等...

基于跨模态注意力与门控融合的声场景分类

参考文献5

二级参考文献16

共引文献33

相关作者

相关机构

相关主题

浏览历史