面向说话人日志的多原型驱动图神经网络方法

Multi-prototype driven graph neural network for speaker diarization

下载PDF

导出

摘要最近,图神经网络在会话级建模中的应用,已显示出其在说话人日志任务上的有效性。然而,现有的大多数图神经网络变体仅依赖于局部结构信息,忽略了全局说话人信息的重要性,无法充分弥补说话人日志任务中说话人信息不足的问题。提出了面向说话人日志的多原型驱动图神经网络方法(MPGNN)用于表示学习,该方法在每个会话中有效地结合了局部和全局说话人信息,并同时将x-vector重新映射到一个更适合聚类的新的嵌入空间。此外,多原型学习模块的设计采用了动态自适应的方法,这一关键组件能够捕获更准确的全局说话人信息。实验结果表明,所提出的MPGNN方法显著优于基线系统,能在AMI_SDM和CALLHOME数据集上分别达到3.33%、3.52%、5.66%和6.52%的说话人日志错误率(DER)。 Recently,the utilization of graph neural network for session-level modeling has demonstrated its efficacy for speaker diarization.However,most of existing variants solely rely on local structure information,ignoring the importance of global speaker information,which cannot fully compensate for the lack of speaker information in the speaker diarization task.This paper proposed a multi-prototype driven graph neural network(MPGNN)for representation learning,which effectively combined local and global speaker information within each session and simultaneously remaps x-vector to a new embedding space that was more suitable for clustering.Specifically,the design of prototype learning with a dynamic and adaptive approach was a critical component,where more accurate global speaker information could be captured.Experimental results show that the proposed MPGNN approach significantly outperforms the baseline systems,achieving diarization error rates(DER)of 3.33%,3.52%,5.66%,and 6.52%on the AMI_SDM and CALLHOME datasets respectively.

作者毛青青贾洪杰朱必松 Mao Qingqing;Jia Hongjie;Zhu Bisong(School of Computer Science&Telecommunication Engineering,Jiangsu University,Zhenjiang Jiangsu 212013,China)

机构地区江苏大学计算机科学与通信工程学院

出处《计算机应用研究》北大核心 2025年第6期1778-1783,共6页 Application Research of Computers

基金江苏省自然科学基金资助项目(BK20190838)。

关键词说话人日志图神经网络局部结构信息全局说话人信息多原型学习 speaker diarization graph neural network local structure information global speaker information multiprototype learning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1朱必松,毛启容,高利剑,沈雅馨.基于时间分段和重组聚类的说话人日志方法[J].计算机应用研究,2024,41(9):2649-2654. 被引量：2

二级参考文献4

1曹洁,余丽珍.改进的说话人聚类初始化和GMM的多说话人识别[J].计算机应用研究,2012,29(2):590-593. 被引量：6
2吴志敏,刘珍,王若愚,陈洁桐.面向移动App流量的多特征集合集成聚类方法研究与应用[J].计算机应用研究,2019,36(10):3101-3106. 被引量：3
3韩光,葛亚鸣,张城玮.基于去相关高精度分类网络与重排序的行人再识别[J].计算机应用研究,2020,37(5):1587-1591. 被引量：2
4沈逸文,孙俊.结合Transformer的轻量化中文语音识别[J].计算机应用研究,2023,40(2):424-429. 被引量：14

共引文献1

1田丽萍,郑定昌,张帅,张演,王光明.基于分时窗速度扫描法计算高铁列车速度[J].地球物理学报,2026,69(1):322-335.

1孙海英,郑明辉,孔佳利.基于改进潜在低秩表示的红外和可见光图像融合[J].台州学院学报,2025,47(3):57-65.
2章璇,周正康,唐加山.基于注意力和域泛化的异常声音检测算法[J].科学技术与工程,2025,25(15):6310-6317.
3曹志民,刘鹏程,韩建,郝乐川.基于测井曲线异构特征多视重采样的元学习岩性识别方法[J].石油物探,2025,64(3):575-586.
4陈龙,郭法滨,黄小伟,陆亚师.一种用于机器声音异常检测的ARViTrans方法[J].计算机应用研究,2025,42(6):1807-1814.

计算机应用研究

2025年第6期

浏览历史

内容加载中请稍等...

面向说话人日志的多原型驱动图神经网络方法

参考文献1

二级参考文献4

共引文献1

相关作者

相关机构

相关主题

浏览历史