基于无监督图对比学习的语音情感识别

Speech emotion recognition with unsupervised graph contrastive learning

下载PDF

导出

摘要针对多数语音数据集中有标签数据稀疏和高维语音特征建模困难的问题,提出基于无监督图对比学习的语音情感识别网络(SERUGCL).该方法使用无标签数据进行训练,基于特征相似性构建语音特征原始视图,利用图结构建模语音帧之间的依赖关系,从而缓解高维特征直接建模带来的计算压力;通过快速梯度符号方法(FGSM)和子图采样-边缘扰动组合生成2种增强视图.所有视图通过差异化编码器进行处理,并采用加权池化机制获取全局嵌入.使用支持向量机(SVM)进行情感分类.所提出的SERUGCL模型在IEMOCAP数据集上取得69.96%的未加权准确率(UA)和70.24%的加权准确率(WA),在EMO-DB数据集上取得91.04%的UA和90.29%的WA.相较于DSTCNet,SERUGCL在IEMOCAP数据集上的UA和WA提高了8.18个百分点和8.44个百分点,在EMO-DB数据集上的UA和WA提高了4.49个百分点和1.50个百分点.对比试验和消融实验结果也验证了模型的有效性. A speech emotion recognition network based on unsupervised graph contrastive learning(SERUGCL)was proposed to address the issues of sparse labeled data and difficulties in modeling high-dimensional speech features in most speech datasets.This method was trained using unlabeled data.Firstly,an original view of speech features was constructed based on feature similarity,and the graph structure was utilized to model the dependencies between speech frames,thereby alleviating the computational pressure caused by directly modeling high-dimensional features.Then,two enhanced views were generated through a combination of the fast gradient sign method(FGSM)and subgraph sampling-edge perturbation.All views were processed by a differentiated encoder,and a weighted pooling mechanism was adopted to obtain the global embedding.Finally,support vector machine(SVM)was used for emotion classification.The SERUGCL model achieved unweighted accuracy(UA)of 69.96%and weighted accuracy(WA)of 70.24%on the IEMOCAP dataset,and UA of 91.04%and WA of 90.29%on the EMO-DB dataset.Compared with DSTCNet,the UA and WA of SERUGCL improved by 8.18 and 8.44 percentage points on IEMOCAP and by 4.49 and 1.50 percentage points on EMO-DB datasets respectively.The results of comparative and ablation experiments also verified the effectiveness of the model.

作者张雪梅孙颖张雪英 ZHANG Xuemei;SUN Ying;ZHANG Xueying(College of Electronic Information Engineering,Taiyuan University of Technology,Taiyuan 030024,China)

机构地区太原理工大学电子信息工程学院

出处《浙江大学学报(工学版)》北大核心 2026年第4期782-790,共9页 Journal of Zhejiang University(Engineering Science)

关键词语音情感识别无监督学习图对比学习特征增强加权池化 speech emotion recognition unsupervised learning graph contrastive learning feature augmentation weighted pooling

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1孙颖,胡艳香,张雪英,段淑斐.面向情感语音识别的情感维度PAD预测[J].浙江大学学报（工学版）,2019,53(10):2041-2048. 被引量：7
2孙志,王冠.自监督对比学习的CNN-GRU语音情感识别算法[J].西安电子科技大学学报,2024,51(6):182-193. 被引量：2

二级参考文献9

1蒋海华,胡斌.基于PCA和SVM的普通话语音情感识别[J].计算机科学,2015,42(11):270-273. 被引量：10
2姚慧,孙颖,张雪英.情感语音的非线性动力学特征[J].西安电子科技大学学报,2016,43(5):167-172. 被引量：14
3梁宁,耿立艳,张占福,梁毅刚.基于GRA与SVM-mixed的货运量预测方法[J].交通运输系统工程与信息,2016,16(6):94-99. 被引量：23
4张雪英,张婷,孙颖,张卫,畅江.情感语音数据库优化及PAD情感模型量化标注[J].太原理工大学学报,2017,48(3):469-474. 被引量：16
5孙颖,宋春晓.相空间重构的情感语音特征提取及优化[J].西安电子科技大学学报,2017,44(6):162-168. 被引量：10
6李幼军,钟宁,黄佳进,栗觅,王东升.基于高斯核函数支持向量机的脑电信号时频特征情感多类识别[J].北京工业大学学报,2018,44(2):234-243. 被引量：12
7汪建新,吴永刚,陈肖洁.LSSVM的特征选择算法在烧结过程的应用[J].机械设计与制造,2018,0(3):75-77. 被引量：1
8王沛,欧阳传湘,陈宏生,陈向军.应用PCA和多元非线性回归快速预测储层敏感性[J].断块油气田,2018,25(2):232-235. 被引量：6
9You Zhao,Xing He,Mingliang Zhou,Tingwen Huang.Accelerated Primal-Dual Projection Neurodynamic Approach With Time Scaling for Linear and Set Constrained Convex Optimization Problems[J].IEEE/CAA Journal of Automatica Sinica,2024,11(6):1485-1498. 被引量：1

共引文献7

1尹旺,李惠媛.深度学习在脑电情感识别方面的应用研究进展[J].计算机时代,2020(8):14-17. 被引量：1
2韩永明,张明星,耿志强.基于心率变异性特征和PCA-SVR的PAD维度情感预测分析[J].北京化工大学学报（自然科学版）,2021,48(5):102-110. 被引量：5
3孙颖,马浩杰,张雪英.PAD维度下的深度情感关联模型研究[J].电子设计工程,2022,30(7):47-52. 被引量：1
4何立,庞善民.结合年龄监督和人脸先验的语音-人脸图像重建[J].浙江大学学报（工学版）,2022,56(5):1006-1016.
5方明月,冯早,朱雪峰.基于半监督聚类方法的管道运行状态识别研究[J].南京大学学报（自然科学版）,2023,59(3):435-445.
6孙颖,周雅茹,张雪英.融合功能性副语言比例系数的语音情感识别[J].东北大学学报（自然科学版）,2024,45(1):40-48. 被引量：1
7杨传德,李海军,王汝旭,刘聪.基于混合神经网络的多模态抑郁症检测算法[J].智能计算机与应用,2025,15(7):48-55.

1陈旭茹.融合噪声自适应建模与注意力机制的鲁棒语音情感识别[J].佳木斯大学学报(自然科学版),2026,44(3):72-76.
2任伟建,沈文旭,任璐,张永丰.基于改进YOLACT++的语义SLAM系统[J].吉林大学学报(信息科学版),2025,43(5):1006-1013.
3李轶哲,谢晨宇,刘书鸣,万子恒,魏鑫锬,董璐.多无人机系统安全感知协同决策优化算法[J].数据采集与处理,2026,41(1):66-88.
4刘闯.自然智能与人工智能机制差异对艺术创作的影响[J].人民论坛·学术前沿,2026(2):81-89.
5周凝,闵超,范涛,刘雨萱,张雯,袁勤俭.基于大语言模型的科学问题自动生成研究[J].现代情报,2026,46(3):3-17.
6刘传龙.基于时空注意力机制的小麦气象产量预测LSTM模型改进[J].计算机科学与应用,2026,16(2):439-447.
7沈琳桂.媒介多样化下电视新闻策划创新与传播工作探讨[J].新闻传播,2025(24):7-9.
8王志轩,张晶杰,石丽娜,冯田丰,王晨龙,杜歆欣,雷雨蔚,谷尔雪.基于非随机样本的煤电平均碳足迹量化方法[J].中国电力,2026,59(2):71-80.
9Issac Cheong,Pablo Martín Merlo,Francisco Marcelo Tamagnone.The utility of the trans-splenic retrocardiac view in supine critically ill patients[J].World Journal of Emergency Medicine,2026,17(2):205-206.
10王润辰,张健,宋文广,薛院红.金融领域的文本因果关系抽取方法研究[J].计算机应用文摘,2026,42(5):94-97.

浙江大学学报(工学版)

2026年第4期

浏览历史

内容加载中请稍等...

基于无监督图对比学习的语音情感识别

参考文献2

二级参考文献9

共引文献7

相关作者

相关机构

相关主题

浏览历史