一种多任务学习的跨模态视频情感分析方法被引量：5

Cross-Modal Video Emotion Analysis Method Based on Multi-Task Learning

下载PDF

导出

摘要针对现有跨模态视频情感分析模型中模态融合不充分、空间复杂度较高以及较少考虑说话人本身属性对情感影响等问题,提出了一种结合多头注意力与多任务学习的跨模态视频情感分析模型。对视频进行预处理,得到视频、音频、文本三个模态的特征表示。将得到的特征表示分别输入到GRU网络以提取时序特征。利用所提出的最大池化多头注意力机制,实现文本与视频、文本与音频的两两融合。将融合后的特征输入到情感分类与性别分类多任务网络得到说话人的情感极性与性别属性。实验结果表明,所提模型能够较好地利用模态间的差异信息与说话人性别属性,在有效提升情感识别准确率的同时降低了模型的空间复杂度。 To address the issues of insufficient modal fusion,high spatial complexity,and less consideration of speaker’s own attributes in existing cross-modal video emotion analysis models,this paper proposes a video emotion model combination of multi-head attention and multi-task learning.Firstly,the video is preprocessed to obtain feature representations of three modalities of video,audio,and text.Secondly,the feature representations are input to GRU network to extract timing features.After that,the proposed max-pooling multi-head attention mechanism is used to realize pairwise fusion of text and video,text and audio.Finally,the fused features are input into the emotion classification and gender classification multi-task network to obtain the emotional classification and gender of speaker.Experimental results show that the proposed model can make better use of the difference information between modalities and gender attributes of speaker,so as to effectively improve accuracy of emotion recognition as well as reducing spatial complexity of model.

作者缪裕青董晗张万桢周明蔡国永杜华巍 MIAO Yuqing;DONG Han;ZHANG Wanzhen;ZHOU Ming;CAI Guoyong;DU Huawei(School of Computer Science&Information Security,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China;Guangxi Key Laboratory of Image&Graphics Intelligent Processing,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China;Engineering Comprehensive Training Center,Guilin University of Aerospace Technology,Guilin,Guangxi 541004,China;College of Information Science and Technology,Zhongkai University of Agriculture and Engineering,Guangzhou 510225,China;Guilin Hivision Technology Company,Guilin,Guangxi 541004,China;Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin,Guangxi 541004,China)

机构地区桂林电子科技大学计算机与信息安全学院桂林电子科技大学广西图像图形与智能处理重点实验室桂林航天工业学院工程综合训练中心仲恺农业工程学院信息科学与技术学院桂林海威科技股份有限公司桂林电子科技大学广西可信软件重点实验室

出处《计算机工程与应用》 CSCD 北大核心 2023年第12期141-147,共7页 Computer Engineering and Applications

基金国家自然科学基金(61866007) 广西自然科学基金重点项目(2018GXNSFDA138006) 广西高校图像图形智能处理重点实验室研究项目(GIIP201706) 广西自然科学基金(2020GXNSFAA159094) 广西高校中青年教师科研基础能力提升项目(2021KY0799) 桂林电子科技大学研究生教育创新计划(2022YCXS066)。

关键词视频情感分析模态融合多头注意力多任务学习模型复杂度 video emotion analysis modal fusion multi-head attention multi-task learning model complexity

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1程艳,尧磊波,张光河,唐天伟,项国雄,陈豪迈,冯悦,蔡壮.基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J].计算机研究与发展,2020,57(12):2583-2595. 被引量：49
2沈瑞琳,潘伟民,彭成,尹鹏博.基于多任务学习的微博谣言检测方法[J].计算机工程与应用,2021,57(24):192-197. 被引量：11

二级参考文献8

1刘龙飞,杨亮,张绍武,林鸿飞.基于卷积神经网络的微博情感倾向性分析[J].中文信息学报,2015,29(6):159-165. 被引量：99
2首欢容,邓淑卿,徐健.基于情感分析的网络谣言识别方法[J].数据分析与知识发现,2017,1(7):44-51. 被引量：21
3陈珂,梁斌,柯文德,许波,曾国超.基于多通道卷积神经网络的中文微博情感分析[J].计算机研究与发展,2018,55(5):945-957. 被引量：78
4李力钊,蔡国永,潘角.基于C-GRU的微博谣言事件检测方法[J].山东大学学报（工学版）,2019,49(2):102-106. 被引量：23
5吴小华,陈莉,魏甜甜,范婷婷.基于Self-Attention和Bi-LSTM的中文短文本情感分析[J].中文信息学报,2019,33(6):100-107. 被引量：56
6袁和金,张旭,牛为华,崔克彬.融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究[J].中文信息学报,2019,33(10):109-118. 被引量：33
7尹鹏博,潘伟民,彭成,张海军.基于用户特征分析的微博谣言早期检测研究[J].情报杂志,2020,39(7):81-86. 被引量：30
8程艳,叶子铭,王明文,张强,张光河.融合卷积神经网络与层次化注意力网络的中文文本情感倾向性分析[J].中文信息学报,2019,33(1):133-142. 被引量：27

共引文献58

1郑杏冉,黄卫东.网民心理视角下突发公共事件情感主题研究[J].知识管理论坛,2024(1):93-107. 被引量：1
2余本功,朱晓洁,张子薇.基于多层次特征提取的胶囊网络文本分类研究[J].数据分析与知识发现,2021,5(6):93-102. 被引量：7
3朱海东,郑虹,侯秀萍.基于EBAP模型的中文情感分类[J].长春工业大学学报,2021,42(4):326-332. 被引量：3
4李建兰,潘岳,李小聪,刘子维,王天宇.基于CiteSpace的中文评论文本研究现状与趋势分析[J].计算机科学,2021,48(S02):17-21. 被引量：5
5曾劲松.人工智能在文本情感分析中的应用探究[J].计算机与数字工程,2021,49(12):2606-2610.
6韩普,张伟,张展鹏,王宇欣,方浩宇.基于特征融合和多通道的突发公共卫生事件微博情感分析[J].数据分析与知识发现,2021,5(11):68-79. 被引量：21
7张永成,王怀彬.基于Att-BiGRU-CRF模型的中文文本情感分析[J].天津理工大学学报,2021,37(6):31-35. 被引量：5
8陆恒杨,范晨悠,吴小俊.面向网络社交媒体的少样本新冠谣言检测[J].中文信息学报,2022,36(1):135-144. 被引量：9
9王颖洁,朱久祺,汪祖民,白凤波,弓箭.自然语言处理在文本情感分析领域应用综述[J].计算机应用,2022,42(4):1011-1020. 被引量：73
10陈可嘉,刘惠.基于改进BiGRU-CNN的中文文本分类方法[J].计算机工程,2022,48(5):59-66. 被引量：17

同被引文献34

1贾亚敏,安璐,李纲.城市突发事件网络信息传播时序变化规律研究[J].情报杂志,2015,34(4):91-96. 被引量：40
2陈彩华.基于语音、表情与姿态的三模态普通话情感识别[J].控制工程,2020,27(11):2023-2029. 被引量：3
3林子杰,龙云飞,杜嘉晨,徐睿峰.一种基于多任务学习的多模态情感识别方法[J].北京大学学报（自然科学版）,2021,57(1):7-15. 被引量：6
4王晟旻,宋英华,刘丹,陈洪州,方俊.基于社会燃烧理论的突发公共卫生事件网络情绪传播模型[J].中国安全科学学报,2021,31(2):16-23. 被引量：14
5董永峰,苏海洋,刘斌,陶建华.基于多头注意力机制的模型层融合维度情感识别方法[J].信号处理,2021,37(5):885-892. 被引量：10
6赵飞,廖永丰.突发自然灾害事件网络舆情传播特征及影响因素研究[J].地球信息科学学报,2021,23(6):992-1001. 被引量：28
7刘继明,张培翔,刘颖,张伟东,房杰.多模态的情感分析技术综述[J].计算机科学与探索,2021,15(7):1165-1182. 被引量：48
8徐元,毛进,李纲.面向突发事件应急管理的社交媒体多模态信息分析研究[J].情报学报,2021,40(11):1150-1163. 被引量：25
9宋云峰,任鸽,杨勇,樊小超.基于注意力的多层次混合融合的多任务多模态情感分析[J].计算机应用研究,2022,39(3):716-720. 被引量：23
10黄方楠,李明德.短视频舆情的非理性表达与互动分析[J].情报杂志,2022,41(3):152-158. 被引量：20

引证文献5

1张景浩,谷晓燕.基于特征融合的多任务视频情感识别模型[J].北京信息科技大学学报（自然科学版）,2023,38(6):88-94.
2晋良海,王抒情,王昕煜.基于暴雨灾害短视频的多模态情感特征研究[J].中国安全科学学报,2024,34(7):219-228. 被引量：4
3赵莲芬,潘正军,谭艳娴.注意力机制特征增强交互融合多模态情感分析[J].计算机工程与设计,2024,45(11):3368-3374.
4樊继冬,仲兆满,韩天乐,李梦晗,崔心如,徐瑾.基于多任务联合学习与自适应融合的多模态情感分析模型[J].计算机应用研究,2025,42(9):2583-2589. 被引量：2
5黄忠,张丹妮,任福继,胡敏,刘娟.关键点引导与显著帧增强的情感识别网络[J].计算机工程与应用,2025,61(18):142-156.

二级引证文献6

1林强.多模态深度学习在综合节目制作中的应用研究[J].电视技术,2025,49(3):66-68.
2吕明侠,王一博,高泽永.石羊河流域降水时空特征[J].三峡生态环境监测,2025,10(2):48-57.
3李莎莎,黄丽达,张晶,崔铁军.基于多模态数据流的系统故障演化过程研究[J].中国安全生产科学技术,2025,21(6):191-197.
4聂如欣,王洛,张紫玉.事件系统理论下基于三支决策的特大暴雨灾害舆情风险评价[J].中国安全科学学报,2025,35(8):227-235.
5侯韶宗.大模型驱动下的网络投诉自动化分类与智能响应系统设计[J].现代信息科技,2025,9(19):121-124.
6冯广,黄荣灿,周垣桦,项峰,杨燕茹,郑润庭,刘天翔,李伟辰.基于对抗训练与多模态自适应特征融合的情感分析[J].计算机应用研究,2025,42(12):3566-3573.

1陈诗汉,马洪江,王婷,何松泽.基于多模态融合的视频情感分析技术[J].成都信息工程大学学报,2022,37(6):656-661. 被引量：1
2王柯懿,康平,欧奕含,张小玲,汪可可,王安怡,冯浩鹏,王九胜.黄石市大气二氧化氮健康效应与人群暴露风险[J].中国环境科学,2023,43(1):383-393. 被引量：3
3杨洋,劳家辉,唐芳.老年人失能的性别差异及其影响因素研究[J].现代预防医学,2023,50(6):1146-1152. 被引量：8
4冯宇,杨笛.前进与停滞:脱口秀中女性言说实践与表达困境[J].东南传播,2023(1):144-148.
5王丽丽,董梦璐.“美男诱惑”真的奏效吗:男性代言女性产品对女性消费者产品评价的影响[J].复印报刊资料（市场营销）,2022(5):15-27.
6罗小艳,王远志,董小武,於晓平,徐敏敏,Sadman Monsur Jellani,朱馨蓓,路国涛,肖炜明.骨矿物质密度与结直肠息肉的相关性分析[J].中国医药,2023,18(6):864-867. 被引量：2
7曹苏娜.基于电视剧本的日语命令表达考察[J].花溪,2022(17):0131-0133.

计算机工程与应用

2023年第12期

浏览历史

内容加载中请稍等...

一种多任务学习的跨模态视频情感分析方法被引量：5

参考文献2

二级参考文献8

共引文献58

同被引文献34

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种多任务学习的跨模态视频情感分析方法 被引量：5

参考文献2

二级参考文献8

共引文献58

同被引文献34

引证文献5

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种多任务学习的跨模态视频情感分析方法被引量：5