期刊文献+
共找到649篇文章
< 1 2 33 >
每页显示 20 50 100
基于噪声反馈的MVDR-MTGAN多通道语音增强
1
作者 王霄雪 刘拓 +1 位作者 江志健 郑能恒 《深圳大学学报(理工版)》 北大核心 2026年第1期93-100,I0003,I0004,共10页
目前主流的多通道语音增强系统大多采用波束形成-后滤波级联架构.在非稳态噪声场景下,波束形成因噪声估计偏差易导致空域滤波失效,而基于深度学习的后滤波虽能改善残留噪声抑制,但计算复杂度高.提出融合最小方差无畸变响应(minimum vari... 目前主流的多通道语音增强系统大多采用波束形成-后滤波级联架构.在非稳态噪声场景下,波束形成因噪声估计偏差易导致空域滤波失效,而基于深度学习的后滤波虽能改善残留噪声抑制,但计算复杂度高.提出融合最小方差无畸变响应(minimum variance distortionless response,MVDR)和多目标生成对抗网络(multi-target generative adversarial network,MTGAN)的闭环增强框架,采用噪声估计反馈机制实现空频域联合优化.通过构建MTGAN的双分支生成器架构同步实现后滤波和噪声估计,并将估计噪声动态反馈至MVDR的协方差矩阵更新过程,形成闭环迭代优化.基于公开的多环境多通道噪声数据集(diverse environments acoustic noise database,DEMAND)的仿真实验表明,噪声反馈机制能有效提升MVDR输出性能;与现有MVDR-CRUSE系统相比,所提MVDR+MTGAN方法保持较低模型复杂度(参数量减少10.5%)的同时,在语音质量评价指标上均获得显著提升,平均分段信噪比提高6.56 dB,整体效果预测得分提升了0.17.该方法为复杂声学场景下的多通道语音增强提供了高效的解决方案. 展开更多
关键词 语音处理 多通道语音增强 最小方差无畸变响应 多目标生成对抗网络 噪声反馈
在线阅读 下载PDF
低信噪比下多级特征深度融合的视听语音增强 被引量:1
2
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
《信号处理》智能语音信号感知与处理专刊编者按
3
作者 鲍长春 陈景东 +7 位作者 韩纪庆 黄公平 李军锋 卢晶 潘超 钱彦旻 陶建华 武执政 《信号处理》 北大核心 2025年第9期1463-1466,共4页
语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语... 语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语音增强、语音编码、情感识别、说话人日志、语音生成等多个关键任务,并在智能家居、车载系统、远程医疗、安防监控、虚拟助手等众多场景中发挥着日益重要的作用。 展开更多
关键词 语音信号处理 深度学习 人工智能
在线阅读 下载PDF
复频域注意力和多尺度频域增强驱动的语音增强网络
4
作者 吕景刚 彭绍睿 +1 位作者 高硕 周金 《计算机应用》 北大核心 2025年第9期2957-2965,共9页
现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE... 现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE)的复数域网络实现语音增强。该网络以U-Net为基本架构,首先,利用短时傅里叶变换(STFT)将语音时序含噪信号转换到复频域;其次,针对复频域特征,设计复数域多尺度频域增强模块,构建复频域条件下增强的含噪语音局部特征挖掘模块,从而增强频域干扰和识别期望信号特征的能力;再次,在ViT(Vision Transformer)的基础上设计基于复频域的自注意力算法,实现并行复频域特征的增强;最后,在基准数据集VoiceBank+Demand上进行对比实验和消融实验,并在使用Noise92加噪后的Timit数据集上进行迁移泛化实验。实验结果表明,在VoiceBank+Demand数据集上,相较于深度复卷积递归网络(DCCRN),所提网络在语音质量的感知评估(PESQ)、MOS信号失真(CSIG)、MOS噪声失真(CBAK)、MOS整体语音质量(COVL)指标上分别提升了16.6%、10.9%、44.4%和14.1%;在Timit+Noise92数据集上,相较于DCCRN模型,在babble噪声信噪比(SNR)为-5 dB的条件下,所提网络的PESQ和STOI(Short-Time Objective Intelligibility)分别提高了29.8%和5.2%。 展开更多
关键词 语音增强 复神经网络 U-Net 注意力机制 TRANSFORMER
在线阅读 下载PDF
考虑管制规则的分维多步航迹预测
5
作者 赵元棣 李科频 李征宇 《科学技术与工程》 北大核心 2025年第36期15582-15593,共12页
准确的航迹预测在未来空中交通的可持续管理中扮演重要角色。为提高长时航迹预测精度,从机载快速存储记录器(quick access recorder,QAR)航迹数据出发,提出了考虑管制规则的分维多步航迹预测方法。首先根据飞机运行特性对航迹特征进行... 准确的航迹预测在未来空中交通的可持续管理中扮演重要角色。为提高长时航迹预测精度,从机载快速存储记录器(quick access recorder,QAR)航迹数据出发,提出了考虑管制规则的分维多步航迹预测方法。首先根据飞机运行特性对航迹特征进行分类及针对性变换;然后基于分维特征选取不同组合的影响因素作为特征矩阵,并考虑实际管制规则,提出分阶段采样;最后利用长短时记忆(long short-term memory,LSTM)神经网络建立航迹预测模型来探究飞机位置变化和前序航迹点数据特征之间的关系。使用671条城市对航迹数据进行仿真实验,通过结果分析和泛化分析验证了所提模型在有效性、鲁棒性及可移植性方面的优势,研究成果为管制工作提供了参考。 展开更多
关键词 航空运输 多步航迹预测 分维特征 长短时记忆网络(LSTM)
在线阅读 下载PDF
基于深度复数门控扩张循环卷积网络的语音增强
6
作者 郭业才 周雪 +1 位作者 赵涵优 毛湘南 《中国电子科学研究院学报》 2025年第2期194-202,共9页
为了解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即深度复数门控扩张循环卷积网络(Deep Complex Gated Dilated Recurrent Convolutional Network,DCGDRCN)。该网络使用复数卷积和复数循环层处理复数域信... 为了解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即深度复数门控扩张循环卷积网络(Deep Complex Gated Dilated Recurrent Convolutional Network,DCGDRCN)。该网络使用复数卷积和复数循环层处理复数域信号,同时处理语音信号的幅度和相位信息,从而更精确地捕捉和还原语音信号。DCGDRCN由编码器、复数循环卷积层和解码器三部分组成,还在编码器中引入了有效通道注意力机制,增加了模型的非线性特征提取能力和参数效率,以更准确地分离出有用的语音信号,并抑制噪音和干扰信号。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于深度神经网络(Deep Neural Network,DNN)、卷积循环神经网络(Convolutional Recurrent Neural Network,CRN)、深度复数卷积循环网络(Reep Complex Convdution Recurrent Network,DCCRN)等网络,PESQ平均提高了0.68、0.47、0.3,STOI平均提高了0.14、0.08、0.05,在语音增强方面表现出色。 展开更多
关键词 语音增强 深度学习 复数卷积 扩张卷积 门控机制 循环卷积
在线阅读 下载PDF
基于改进小波阈值和优化VMD算法的语音增强方法 被引量:3
7
作者 张礼艳 刘增力 彭艺 《吉林大学学报(理学版)》 北大核心 2025年第2期608-621,共14页
针对语音信号传输过程中受噪声和回声等因素干扰,导致信号质量和可懂度下降的问题,提出一种基于优化的变分模态分解算法和改进小波阈值的语音信号增强方法.首先,采用麻雀搜索算法优化模态分解参数,并分解语音信号得到模态分量;其次,根... 针对语音信号传输过程中受噪声和回声等因素干扰,导致信号质量和可懂度下降的问题,提出一种基于优化的变分模态分解算法和改进小波阈值的语音信号增强方法.首先,采用麻雀搜索算法优化模态分解参数,并分解语音信号得到模态分量;其次,根据模态分量与原信号的相关系数和中心频率,消除高频噪声分量,保留接近原信号的模态分量作为纯语音,其他模态分量作为带噪语音,进行小波阈值处理;最后,重构纯语音和处理后的噪声模态分量,得到增强的语音信号.结果表明:该方法比单一方法具有更优的语音增强效果;优化的变分模态分解算法和改进的阈值与阈值函数实现了比传统方法更好的增强效果,适用于各种噪声环境,有效提升了语音信号的质量和可懂度. 展开更多
关键词 语音增强 麻雀搜索算法 变分模态分解 小波阈值 相关系数
在线阅读 下载PDF
基于参数化波束形成器的GSC语音增强方法 被引量:1
8
作者 张传营 赵景玉 +1 位作者 刘扬 卜凡亮 《电子测量与仪器学报》 北大核心 2025年第5期125-133,共9页
针对广义旁瓣相消器(GSC)中固定波束形成器在复杂环境下抑制旁瓣干扰和处理非平稳语音信号时存在局限性问题,提出了一种基于参数化波束形成器的改进GSC语音增强方法。该方法通过动态调节机制,在延迟求和波束形成器与超指向波束形成器之... 针对广义旁瓣相消器(GSC)中固定波束形成器在复杂环境下抑制旁瓣干扰和处理非平稳语音信号时存在局限性问题,提出了一种基于参数化波束形成器的改进GSC语音增强方法。该方法通过动态调节机制,在延迟求和波束形成器与超指向波束形成器之间进行灵活权衡与调节,有效抑制旁瓣干扰,增强了GSC在复杂声学环境中的鲁棒性与适应性。此外,引入互相关系数来调节自适应滤波器权重更新步长,有效应对语音信号变化导致的过减问题,提升了在非平稳语音信号中的处理精度。在MATLAB环境下开展仿真实验,针对Babble噪声、音乐噪声和白噪声环境,对比传统GSC和采用均方算法的GSC,从三维波束方向图、不同背景噪声及参数条件下的降噪效果、互相关系数作用效果等方面进行评估,并利用分段信噪比(SNR)和语音质量感知评估(PESQ)等指标量化分析。结果显示,改进方法在降噪性能和语音清晰度上优势显著。在Babble噪声、音乐噪声、白噪声环境中,分段信噪比分别提升至11.02、6.14和10.33 dB,PESQ值分别提升至3.65、3.20、3.25,并可通过调节参数实现不同噪声环境下的最佳降噪效果,有力验证了该方法在复杂声学环境中的有效性与优越性。 展开更多
关键词 麦克风阵列 波束形成器 广义旁瓣相消器 参数化 互相关系数
原文传递
基于三元线性麦克风阵列的语音增强算法 被引量:1
9
作者 曾仕霖 曾庆宁 +1 位作者 龙向前 陶静 《声学技术》 北大核心 2025年第4期575-582,共8页
传统广义旁瓣抵消算法在复杂噪声环境下,性能会急剧下降。为了提高广义旁瓣抵消算法的适用性,文章提出一种基于线性麦克风阵列的改进广义旁瓣抵消算法。该方法以最小方差无畸变响应波束形成器替代广义旁瓣抵消算法的固定波束形成器,更... 传统广义旁瓣抵消算法在复杂噪声环境下,性能会急剧下降。为了提高广义旁瓣抵消算法的适用性,文章提出一种基于线性麦克风阵列的改进广义旁瓣抵消算法。该方法以最小方差无畸变响应波束形成器替代广义旁瓣抵消算法的固定波束形成器,更好地增强目标语音信号,并抑制其余方向上的噪声干扰。使用了改进阻塞矩阵的自适应滤波算法,以获得更准确的参考噪声估计。最后使用最优修正对数谱幅度算法进一步消除残留噪声。通过实录不同噪声环境下的语音信号,并对其进行实验,实验结果表明,文中算法能获得比对比算法更优越的降噪性能和更高的语音质量。 展开更多
关键词 线性麦克风阵列 广义旁瓣抵消 最小方差无畸变响应 最优修正对数谱幅度
在线阅读 下载PDF
基于Dual-Path Skip-Transformer的轻量级语音增强网络 被引量:1
10
作者 琚吴涵 孙成立 +2 位作者 陈飞龙 丁碧云 郭桥生 《计算机工程与应用》 北大核心 2025年第15期209-217,共9页
解耦式语音增强方法将语音去噪任务解耦为幅度估计与复频谱估计两个子任务,可以获得比传统幅度谱语音增强更好的效果。Transformer由于其捕获长距离依赖关系的能力,成为解耦式语音增强模型的关键组件。然而,Transformer较高的计算复杂... 解耦式语音增强方法将语音去噪任务解耦为幅度估计与复频谱估计两个子任务,可以获得比传统幅度谱语音增强更好的效果。Transformer由于其捕获长距离依赖关系的能力,成为解耦式语音增强模型的关键组件。然而,Transformer较高的计算复杂度限制了其在边缘设备的应用。提出了一种解耦式语音增强网络DPST-SENet(dualpath skip-Transformer speech enhancement network)。具体而言,DPST-SENet能够在幅度分支中抑制主要噪声分量,同时在复频谱分支中消除残余噪声并隐式增强相位信息。该网络引入Dual-Path Skip-Transformer模块,它能有效重用Dual-Path Transformer模块建模的信息,在降低参数量和计算复杂度的同时保持出色的性能。实验结果表明,DPST-SENet在48 kHz全频带语音数据集VoiceBank+DEMAND上的语音质量感知评估(perceptual evaluation of speech quality,PESQ)得分为3.16,优于ICASSP 2022深度噪声抑制挑战赛冠军模型MTFAA,且模型参数更少。 展开更多
关键词 语音增强 全频带 双路径网络 并行去噪 轻量化
在线阅读 下载PDF
基于多维Kronecker积的低秩稳健超指向性波束形成方法 被引量:1
11
作者 朱瑜杰 赵坤龙 +3 位作者 罗雪琴 靳姬鲁 黄公平 陈景东 《信号处理》 北大核心 2025年第9期1478-1493,共16页
超指向性波束形成器凭借其高空间指向性,能够有效抑制空间各向同性噪声,在语音通信、远场拾音等场景中发挥了重要作用。然而,其稳健性较差,对阵元不一致性和自噪声的敏感性限制了实际应用。为提高稳健性,通常需在高指向性与稳健性之间... 超指向性波束形成器凭借其高空间指向性,能够有效抑制空间各向同性噪声,在语音通信、远场拾音等场景中发挥了重要作用。然而,其稳健性较差,对阵元不一致性和自噪声的敏感性限制了实际应用。为提高稳健性,通常需在高指向性与稳健性之间做出权衡,如使用对角加载因子约束白噪声增益。然而随着麦克风阵列规模的扩大,传统优化设计的波束形成器因参数冗余导致效率降低。基于Kronecker积的波束形成是一种计算高效的解决方案,能够在降低参数规模的同时,提高波束形成器的稳健性。但现有研究多局限于二维分解形式,对更高维度的分解结构的研究较少,尚未充分探讨比较不同的分解模式对波束形成器性能的影响。针对上述问题,本文将现有的二维Kronecker积方法推广至多维形式,提出了一种基于多维Kronecker积形式的低秩稳健超指向性波束形成方法。该方法通过将波束形成器分解为多组短滤波器的Kronecker积形式,提升设计灵活性。在不失真约束下,以最大化指向性因子为目标,交替迭代求解多组短滤波器。实验结果表明,对于不同阵列结构,所提方法在不同分解模式下均能以更少的参数(滤波器系数个数)和更低的矩阵求逆维度实现与传统方法相当的性能,因此在实际系统中具有更高的效率。进一步地,通过分析不同分解方式对波束形成性能的影响,验证了所提方法的有效性与计算优势。 展开更多
关键词 麦克风阵列 超指向性波束形成 低秩波束形成 白噪声增益 指向性因子
在线阅读 下载PDF
基于残差膨胀卷积与门控编解码网络的语音增强 被引量:1
12
作者 李珂 王雅静 +1 位作者 昝志辉 齐瑞洁 《电子测量与仪器学报》 北大核心 2025年第4期74-83,共10页
语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了... 语音信号的时序依赖性特征和上下文信息在语音增强任务中至关重要,针对编解码网络对其捕获不充分导致增强效果差的问题,构建了一种非对称的残差膨胀卷积与门控编解码网络(RD-EGN),该网络包含编码器、中间层和解码器3部分。编码器设计了一种因果卷积层结构,以时序特征建模,捕获语音序列中不同层的特征,并保持语音信号的因果性;中间层设计了残差膨胀卷积网络(RDCN),融合膨胀卷积、残差连接和级联的扩张块使网络拥有更高的感受野,以跨层的方式传递信息并提取语音长时依赖性特征,在此基础上将RDCN与长短时记忆网络相结合,捕获更广泛的上下文信息;解码器引入门控机制,动态调整信息流的门控程度,获得更丰富的全局特征并重建增强语音。分别在TIMIT、UrbanSound8k、VoiceBank及NOISE92数据集上进行消融及性能对照,实验结果表明,RD-EGN相较于卷积循环网络(CRN)、自编码器卷积神经网络(AECNN)、膨胀-密集自动编码器(DDAEC)等具有较少的训练参数和较高的SSNR得分、主观评价指标(CSIG,CBAK和COVL)得分,并且在客观评价指标方面,语音质量客观评价指标(PESQ)提高了2.5%~7.1%,短时客观可懂度(STOI)提高了1%~5.3%,具有较为突出的增强性能与泛化能力。 展开更多
关键词 语音增强 深度学习 编解码网络 膨胀卷积 门控机制
原文传递
跨模态双向注意力的视听双主导语音增强方法 被引量:1
13
作者 郭飞扬 张天骐 +1 位作者 沈夕文 高逸飞 《信号处理》 北大核心 2025年第9期1513-1524,共12页
针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频... 针对视听多模态语音增强中音频模态占据主导地位,视频模态无法充分发挥辅助作用问题,提出一种音视频双主导支路协同增强的编解码器结构。在编码层,视频主导支路为强化视频模态的辅助效能,采用随机维度音频掩码模拟低信噪比条件下的音频特征缺失,利用视频特征指导缺失音频特征的预测与重构。中间层采用跨模态双向交叉注意力机制建模视听模态的动态互补关系。解码层通过可学习的动态权重因子整合双支路特征,实现跨模态信息的高效融合。实验验证在GRID数据集上展开,结果表明所提方法有效提升低信噪比场景的语音增强性能。在语音感知质量评估(Perceptual Evaluation of Speech Quality,PESQ)和短时客观可懂度(Short-Time Objective Intelligibility,STOI)两项核心指标上分别实现0.123~0.156和1.78%~2.21%的提升,较现有主流模型在客观评估中均展现出优势。消融实验进一步证实双向注意力结构与视频引导掩码机制的有效性,证明该方法能够突破传统单模态主导的交互范式,实现跨模态特征的协同增强与鲁棒表征。 展开更多
关键词 视听语音增强 特征融合 掩码预测 交叉注意力
在线阅读 下载PDF
分布式加权功率最小化无失真响应联合去噪去混响波束形成器
14
作者 朱升伟 王杰 +2 位作者 厉剑 李晓东 郑成诗 《应用声学》 北大核心 2025年第4期955-970,共16页
在室内场景中,传声器拾取的语声会受到噪声和混响的严重影响。为了改善语声质量与可懂度,提出了一种适用于无线声传感网络的基于加权功率最小化无失真响应的分布式联合去噪去混响算法。该文首先推导了分布式阵列场景下基于加权功率最小... 在室内场景中,传声器拾取的语声会受到噪声和混响的严重影响。为了改善语声质量与可懂度,提出了一种适用于无线声传感网络的基于加权功率最小化无失真响应的分布式联合去噪去混响算法。该文首先推导了分布式阵列场景下基于加权功率最小化无失真响应约束的联合去噪去混响波束形成器的解析表达式,并且对该方法的收敛性进行分析。在所提方法中,各个节点首先将本地节点的多通道信号压缩为单通道信号,并将该压缩信号发送至其他所有节点。随后,根据加权功率最小化无失真准则,每个节点利用本地节点信号和其他节点的压缩信号计算滤波器权重,显著降低了节点间的传输带宽和节点内的计算复杂度。仿真实验结果表明,所提方法在各项评价指标中均优于其他分布式算法,可以在计算复杂度和传输带宽显著降低的条件下实现与集中式算法相当的去噪去混响效果。 展开更多
关键词 分布式阵列 去噪去混响 波束形成
在线阅读 下载PDF
融合双通道卷积和改进型Conformer的两阶段语音增强算法
15
作者 徐佳瑜 郑展恒 +1 位作者 曾庆宁 王健 《电子测量技术》 北大核心 2025年第4期149-157,共9页
针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息... 针对语音关键特征提取不充分、模型结构单一的问题,提出一种两阶段下融合多尺度特征和改进型门控Conformer的语音增强方法。首先,针对关键特征提取不充分的问题,提出双通道卷积融合模块,采用不同感受野的二维卷积多尺度提取语音关键信息,并结合门控机制增强网络的短期与长期序列相关性,从而提升模型在复杂环境下的语音增强效果;提出改进型Conformer,采用时间注意和频率注意分别在时域和频域上进行建模,并结合膨胀卷积模块高效提取局部与全局上下文信息,从而增强网络在语音序列建模中的表现能力。其次,针对模型结构单一的问题,采用两阶段处理结构,将复杂问题分步处理。在第一阶段首先接收噪声频谱的幅值,初步估计出干净语音的幅值,并与噪声相位进行重构,得到粗糙的复频谱。第二阶段在第一阶段得到粗谱的基础上进一步提取更精细的特征,增强语音信号的细节表现能力。最后,在VoiceBank+DEMAND数据集上进行测试,实验结果表明,所提算法相比带噪语音的语音感知质量和短时客观可懂度分别提升50.25%、3.26%,表明该网络能够更有效地提高语音的可懂度,同时改善语音信号的整体质量,具有较强的降噪能力。 展开更多
关键词 深度学习 语音增强 CONFORMER 多尺度特征提取 两阶段
原文传递
面向单传声器节点的分布式语音增强算法
16
作者 庞淑蓉 秦品乐 +1 位作者 曾建潮 畅瑞江 《华中科技大学学报(自然科学版)》 北大核心 2025年第3期99-108,共10页
在节点为单传声器的无线声学传感器网络(WASN)中,针对分布式语音增强时声学传递函数难以获取及节点间频繁交换数据的问题,提出了一种基于单传声器节点的分布式语音增强算法.具体地,首先针对全连接WASN,提出了基于最大输入信噪比节点的... 在节点为单传声器的无线声学传感器网络(WASN)中,针对分布式语音增强时声学传递函数难以获取及节点间频繁交换数据的问题,提出了一种基于单传声器节点的分布式语音增强算法.具体地,首先针对全连接WASN,提出了基于最大输入信噪比节点的语音失真加权分布式维纳滤波(SDW-DWF)算法.该算法通过计算获得最大输入信噪比节点,并由该节点接收其他节点发送的多帧信号信息,来分布式实现加权维纳滤波语音增强.该算法在节点间仅需交换少量数据,且不依赖于声学传递函数.此外,提出了一种无拓扑约束的比较一致性算法,来获得最大输入信噪比节点,以使得SDW-DWF方法可用于无网络拓扑约束的移动说话人场景.仿真和实际实验验证了本文方法在无需先验约束情况下,具有较高的分布式语音增强性能. 展开更多
关键词 分布式语音增强 分布式维纳滤波 加权维纳滤波 一致性算法 无线声学传感器网络
原文传递
复数双路径Conformer和深度复数卷积循环神经网络结合的语声增强方法
17
作者 郝鑫语 伍忠东 +1 位作者 杨充六合 楚秦 《应用声学》 北大核心 2025年第6期1652-1661,共10页
针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称... 针对现有语声增强网络在处理语声信号特征时,无法有效地捕捉到较长的时间跨度或频率范围内的信息,且计算参数过多的问题,提出一个复数双路径Conformer,将其与深度复数卷积循环神经网络(DCCRN)结合,设计了一个新的时-频域语声增强模型,称为Conformer-CRN。将DCCRN中的复数长短时记忆网络模块替换为复数双路径Conformer模块,能够有效捕捉长距离的时-频依赖,更全面地利用全局上下文信息。此外,还在编解码器中增加了复数通道注意力机制模块,进一步提高增强语声的质量。在公开数据集Voice Bank+DEMAND上的实验结果显示,所提出的模型使用更少的参数,在主客观语声质量评估都取得更优的结果。与SE-Conformer相比,增强后的语声感知质量增长了3.20%;与MetricGAN+相比,预测信号失真度增长了7.17%,预测噪声失真度增长了9.97%,预测综合质量测度增长了3.44%。该研究为基于深度学习中参数映射的语声增强方法的发展提供了一定的参考。 展开更多
关键词 深度学习 语声增强 CONFORMER DCCRN 复数通道注意力机制
在线阅读 下载PDF
结合信号处理与神经网络的回声消除研究
18
作者 詹宗毅 洪青阳 李琳 《人工智能》 2025年第5期54-62,共9页
多样化终端与复杂声学环境对声学回声消除(Acoustc Echo Canceaton,AEC)系统的性能与效率提出更高需求,而当前优秀的解决方案常伴随大量计算资源消耗。针对该问题,本文提出一个两阶段的回声消除框架:首先应用Speex自适应滤波器抑制线性... 多样化终端与复杂声学环境对声学回声消除(Acoustc Echo Canceaton,AEC)系统的性能与效率提出更高需求,而当前优秀的解决方案常伴随大量计算资源消耗。针对该问题,本文提出一个两阶段的回声消除框架:首先应用Speex自适应滤波器抑制线性回声;其输出信号被送入一个轻量级神经网络,以进一步消除非线性残余回声。在ICASSP 2023 AEC Challenge盲测集上的实验结果表明,本文提出的方案(Speex+AEC&NS)在仅需0.12 GMACs的极低计算量下,取得了3.11的综合平均意见分(MOS Avg),该分数优于级联式处理方案(AEC→NS,MOS Avg 3.07)和不含Speex的端到端方案(MOS Avg 3.09)。这一结果证明了该方案在具备极低计算量的同时,在回声抑制与近端语音保真度之间也实现了最优的平衡。 展开更多
关键词 回声消除 自适应滤波 两阶段框架 低计算量
在线阅读 下载PDF
语音增强技术在机械领域的应用
19
作者 黎华 杨浩 《造纸装备及材料》 2025年第10期64-67,共4页
语音作为自然、高效的人机交互手段,正逐步融入机械装备操作、远程运维与故障诊断等核心环节。但机械现场普遍存在各种复杂的噪声,严重影响语音清晰度和识别的准确性。语音增强技术作为解决这一问题的核心技术,近年来引起了相关学者的... 语音作为自然、高效的人机交互手段,正逐步融入机械装备操作、远程运维与故障诊断等核心环节。但机械现场普遍存在各种复杂的噪声,严重影响语音清晰度和识别的准确性。语音增强技术作为解决这一问题的核心技术,近年来引起了相关学者的广泛关注。基于此,系统整理了语音增强技术的发展历程,分析了语音增强技术在工业机器人语音控制、智能仓储自动导引运输(automated guided vehicle,AGV)调度、机械故障声音诊断和增强现实(augmented reality,AR)远程协同维护四个典型场景的应用,总结了语音增强技术当前面临的模型泛化能力不足、数据集缺乏标准化边缘部署资源受限等技术瓶颈,并提出了对应的解决措施,为语音增强技术在机械领域的应用提供系统性的参考。 展开更多
关键词 语音增强技术 工业机器人 智能仓储 AGV调度 机械故障 AR
在线阅读 下载PDF
基于深度学习的大数据音频信号增强技术 被引量:1
20
作者 蒋永红 《电声技术》 2025年第2期46-48,共3页
重点研究基于深度学习的大数据音频信号增强技术,以解决复杂噪声环境下的音频质量问题。该技术融合短时傅里叶变换、多尺度卷积神经网络、长短期记忆网络,构建了一个端到端的信号处理框架。利用大规模多语言音频数据集进行训练,在各种... 重点研究基于深度学习的大数据音频信号增强技术,以解决复杂噪声环境下的音频质量问题。该技术融合短时傅里叶变换、多尺度卷积神经网络、长短期记忆网络,构建了一个端到端的信号处理框架。利用大规模多语言音频数据集进行训练,在各种噪声类型和信噪比条件下进行了全面评估。实验结果表明,该技术在实际应用中具有较好的应用效果,为音频信号增强提供了新的技术方案,具有广阔的应用前景。 展开更多
关键词 深度学习 音频信号增强 卷积神经网络 长短期记忆网络 大数据
在线阅读 下载PDF
上一页 1 2 33 下一页 到第
使用帮助 返回顶部