基于时间卷积网络的深度聚类说话人语音分离被引量：1

Deep clustering speaker speech separation based on temporal convolutional network

下载PDF

导出

摘要 “鸡尾酒会问题”在语音分离任务上一直是一个难题,主要因为这个问题属于一个说话人无关的语音分离问题,对于说话人事先不知道其先验信息。通过参考Jonathan等提出的深度聚类方法,在其基础上进行改进,提出基于时间卷及网络的深度聚类模型,以理想二值掩蔽作为分离目标并在公开中文语音数据集下进行实验。实验结果表明,相比传统深度聚类模型,所提模型在训练速度、分离后的语音质量和语音客观可懂度方面都得到了提升。 Cocktail party problem has always been a difficult problem in speech separation task,mainly because it belongs to a speaker-independent seech separation problem,and the speaker does not know its prior information.Referring to the deep clustering method proposed by Jonathan et al,by improving it,the deep clustering model based on temporal convolutional network was proposed.Ideal binary mask was taken as separation target,and experiments under the open Chinese voice data set were carried out.The results show that the proposed model improves the training speed,speech quality and speech intelligibility compared with the traditional deep clustering model.

作者王昕蒋志翔张杨寇金桥常新旭徐冬冬 WANG Xin;JIANG Zhi-xiang;ZHANG Yang;KOU Jin-qiao;CHANG Xin-xu;XU Dong-dong(Beijing Computer Technology and Application Institute,Second Academy of China Aerospace Science and Industry Corporation,Beijing 100854,China)

机构地区中国航天科工集团第二研究院北京计算机技术及应用研究所

出处《计算机工程与设计》北大核心 2020年第9期2630-2635,共6页 Computer Engineering and Design

基金装备发展部信息系统局“十三五”预研课题基金项目(31511040401) 装备预研领域基金项目(61400040201)。

关键词语音分离深度聚类模型时间卷积网络膨胀卷积因果卷积理想二值掩蔽 speech separation deep clustering model temporal convolutional network dilation convolutional causal convolutional ideal binary masking

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：74

二级参考文献66

1Kim G, Lu Y, Hu Y, Loizou P C. An algorithm that im- proves speech intelligibility in noise for normal-hearing lis- teners. The Journal of the Acoustical Society of America, 2009, 126(3): 1486-1494.
2Dillon H. Hearing Aids. New York: Thieme, 2001.
3Allen J B. Articulation and intelligibility. Synthesis Lectures on Speech and Audio Processing, 2005, 1(1): 1-124.
4Seltzer M L, Raj B, Stern R M. A Bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 2004, 43(4): 379-393.
5Weninger F, Erdogan H, Watanabe S, Vincent E, Le Roux J, Hershey J R, Schuller B. Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR. In: Proceedings of the 12th International Conference on Latent Variable Analysis and Signal Separation. Liberec, Czech Republic: Springer International Publishing, 2015.91 -99.
6Weng C, Yu D, Seltzer M L, Droppo J. Deep neural networks for single-channel multi-talker speech recognition. IEEE/ ACM Transactions on Audio, Speech, and Language Pro- cessing, 2015, 23(10): 1670-1679.
7Boll S F. Suppression of acoustic noise in speech using spec- tral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113-120.
8Chen J D, Benesty J, Huang Y T, Doclo S. New insights into the noise reduction wiener filter. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(4): 1218 -1234.
9Loizou P C. Speech Enhancement: Theory and Practice. New York: CRC Press, 2007.
10Liang S, Liu W J, Jiang W. A new Bayesian method incor- porating with local correlation for IBM estimation. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(3): 476-487.

共引文献73

1李艳生,刘园,张毅,杨美美.混响环境下移动机器人语音控制方法及系统实现[J].仪器仪表学报,2019,40(11):165-171. 被引量：15
2杨海龙,曾祥福,钟维良.多尺度时域单通道语音分离网络设计[J].电声技术,2021,45(10):96-99.
3黄张翼,周翊,舒晓峰,刘宏清.联合贝叶斯估计与深度神经网络的语音增强方法[J].小型微型计算机系统,2019,40(1):40-44. 被引量：5
4吕菲,夏秀渝.基于方位特征的听觉选择性注意计算模型研究[J].自动化学报,2017,43(4):634-644. 被引量：6
5支艳利,张云伟.基于环形麦克风阵列的远场语音识别系统[J].微型电脑应用,2017,33(4):62-64. 被引量：2
6王程,周婉,何军.面向自动音乐生成的深度递归神经网络方法[J].小型微型计算机系统,2017,38(10):2412-2416. 被引量：14
7袁文浩,孙文珠,夏斌,欧世峰.利用深度卷积神经网络提高未知噪声下的语音增强性能[J].自动化学报,2018,44(4):751-759. 被引量：39
8凌佳佳,袁晓兵.联合噪声分类和掩码估计的语音增强方法[J].电子设计工程,2018,26(17):30-34. 被引量：3
9袁文浩,梁春燕,夏斌,孙文珠.一种融合相位估计的深度卷积神经网络语音增强方法[J].电子学报,2018,46(10):2359-2366. 被引量：7
10时文华,倪永婧,张雄伟,邹霞,孙蒙,闵刚.联合稀疏非负矩阵分解和神经网络的语音增强[J].计算机研究与发展,2018,55(11):2430-2438. 被引量：10

同被引文献10

1刘文举,聂帅,梁山,张学良.基于深度学习语音分离技术的研究现状与进展[J].自动化学报,2016,42(6):819-833. 被引量：74
2梁尧,朱杰,马志贤.基于深度神经网络的单通道语音分离算法[J].信息技术,2018,42(7):24-27. 被引量：4
3李娟.基于ICA和波束形成的快速收敛的BSS算法[J].山西师范大学学报（自然科学版）,2018,32(4):52-56. 被引量：1
4崔建峰,邓泽平,申飞,史文武.基于非负矩阵分解和长短时记忆网络的单通道语音分离[J].科学技术与工程,2019,19(12):206-210. 被引量：4
5陈国良,黄晓琴,卢可凡.改进的快速独立分量分析在语音分离系统中的应用[J].计算机应用,2019,39(A01):206-209. 被引量：3
6潘超,黄公平,陈景东.面向语音通信与交互的麦克风阵列波束形成方法[J].信号处理,2020,36(6):804-815. 被引量：27
7陈修凯,陆志华,周宇.基于卷积编解码器和门控循环单元的语音分离算法[J].计算机应用,2020,40(7):2137-2141. 被引量：7
8李文杰,罗文俊,李艺文,苏成悦,陈玉怀,曹越.基于可分离卷积与LSTM的语音情感识别研究[J].信息技术,2020,44(10):61-66. 被引量：11
9朱训谕,潘翔.基于麦克风线阵的语音增强算法研究[J].杭州电子科技大学学报（自然科学版）,2020,40(5):30-33. 被引量：2
10黄雅婷,石晶,许家铭,徐波.鸡尾酒会问题与相关听觉模型的研究现状与展望[J].自动化学报,2019,45(2):234-251. 被引量：25

引证文献1

1兰朝凤,刘岩,赵宏运,刘春东.基于波束形成的长短时记忆网络语音分离算法研究[J].电子与信息学报,2022,44(7):2531-2538. 被引量：4

二级引证文献4

1彭佩,张美玲,郑东.融合CNN_LSTM的侧信道攻击[J].计算机工程与应用,2023,59(6):268-276. 被引量：2
2云涛,潘泉,郝宇航,徐蓉.基于HRRP时频特征和多尺度非对称卷积神经网络的目标识别算法[J].西北工业大学学报,2023,41(3):537-545. 被引量：17
3王洪水.基于人工智能和无线通信技术的智能照明系统研究与探讨[J].中国照明电器,2023(9):41-48. 被引量：20
4何勃毅,刘广良.基于Tas Net语音分离的教学系统人机交互方法[J].自动化与仪器仪表,2025(4):150-154.

1崔博智,崔博识,张深羿.基于CNN+LDA的图标聚类模型[J].中国科技投资,2020(11):19-22.
2在夜之城也说中国话——《赛博朋克2077》中文本地化团队专访[J].游戏机实用技术,2020(16):2-6.
3樊良辉,韩俊刚,王怡斐.基于条件生成对抗网络的语音增强[J].计算机与数字工程,2020,48(8):1939-1942. 被引量：3
4米捷,王旭辉.基于递归熵特征提取的层次化物联网数据检测[J].河南工程学院学报（自然科学版）,2020,32(3):67-71. 被引量：1
5吕辛福.《结构主义诗学》中的英译汉诗[J].读书,2020,4(9):99-99.
6李鹏,曾庆.基于随机森林算法的海洛因成瘾者美沙酮维持治疗剂量分类[J].系统医学,2020,5(12):111-114. 被引量：1
7范珍艳,庄晓东,李钟晓.基于变换域稀疏度量的多级FrFT语音增强[J].计算机工程与设计,2020,41(9):2574-2584. 被引量：2

计算机工程与设计

2020年第9期

浏览历史

内容加载中请稍等...

基于时间卷积网络的深度聚类说话人语音分离被引量：1

参考文献1

二级参考文献66

共引文献73

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于时间卷积网络的深度聚类说话人语音分离 被引量：1

参考文献1

二级参考文献66

共引文献73

同被引文献10

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于时间卷积网络的深度聚类说话人语音分离被引量：1