期刊文献+
共找到68,210篇文章
< 1 2 250 >
每页显示 20 50 100
基于Bi‑LSTM和时序注意力的异常心音检测 被引量:1
1
作者 卢官明 蔡亚宁 +3 位作者 卢峻禾 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期12-20,共9页
异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧... 异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧处理,使用平均幅度差函数(Average Magnitude Difference Function,AMDF)和短时过零率(Short⁃Time Zero⁃Crossing Rate,STZCR)提取每帧心音信号的初始特征;然后将它们拼接后作为Bi⁃LSTM的输入,并引入时序注意力机制,挖掘特征的长期依赖关系,提取心音信号的上下文时域特征;最后通过Softmax分类器,实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016提供的心音公共数据集上对所提出的算法使用10折交叉验证法进行了评估,其准确度、灵敏度、特异性、精度和F1评分分别为0.9579、0.9364、0.9642、0.8838和0.9093,优于已有的其他算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,在心血管疾病的临床辅助诊断中具有潜在的应用前景。 展开更多
关键词 心音分类 平均幅度差函数 短时过零率 双向长短时记忆网络 时序注意力机制
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
2
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
基于AI的噪声环境下远距离高清音频采集研究 被引量:1
3
作者 黄丽娜 《现代电子技术》 北大核心 2025年第4期130-134,共5页
为提升远距离采集音频信号的强度,深度滤除音频信号噪声以提取有用音频部分,提出一种基于AI的噪声环境下远距离高清音频采集方法。构建远距离高清音频采集结构,分别通过模拟增益和数字增益技术进行音频信号增益处理,以提升音频信号强度... 为提升远距离采集音频信号的强度,深度滤除音频信号噪声以提取有用音频部分,提出一种基于AI的噪声环境下远距离高清音频采集方法。构建远距离高清音频采集结构,分别通过模拟增益和数字增益技术进行音频信号增益处理,以提升音频信号强度。依据短时傅里叶变换提取音频增益信号频域特征,输入到长短期记忆网络中,实现音频信号深度噪声去除,得到高清音频频域信息;再通过短时傅里叶逆变换处理该信号,实现音频信号重构,最终达到噪声环境下远距离高清音频采集的目的。实验验证结果表明:依据音频信号增益能够有效提升采集音频信号的强度,并避免信号受距离、噪声影响而逐渐衰减,继而有效滤除音频信号噪声数据,提取其中有用的音频信号,确保音频信号高清度;且最终采集音频信号信噪比均高于18 dB,可懂度均高于97%,有效验证了所提方法的有效性和准确性。 展开更多
关键词 高清音频采集 AI 噪声环境 信号强度 远距离 长短期记忆网络 短时傅里叶变换
在线阅读 下载PDF
面向低数据资源的语音识别研究综述 被引量:1
4
作者 许春冬 吴子煜 葛凤培 《计算机工程与应用》 北大核心 2025年第4期59-71,共13页
近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等... 近年来,自动语音识别的研究重心由传统识别方法转向基于深度学习的语音识别方法。“大模型”现象反映出深度学习方法的性能随着训练数据量的增加呈现显著上升的趋势。然而,现实环境的复杂性、语音数据分布的非均匀性和用户隐私的保护等因素给数据的收集造成困难。同时,语音数据的标注需要大量专业人员的参与,导致标注成本很高。因此,语音识别在实际应用中经常面临数据资源不足的问题。在这种低数据资源条件下构建性能优异且稳定的语音识别系统仍是研究难点。简单归纳了语音识别的发展历程,总结了语音识别的基本框架以及常见的国内外开源数据集。围绕低数据资源问题,详细分析了低数据资源的判定方法,继而梳理了四类技术方案,包括数据增强、联邦学习、自监督学习以及元学习,并对它们的性能状况以及优缺点进行了系统的剖析。最后讨论了该研究方向未来潜在的发展趋势和可能面临的问题。 展开更多
关键词 语音识别 低数据资源 数据增强 联邦学习 自监督学习 元学习
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
5
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
基于多级信息嵌入的中文语声转换模型
6
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 北大核心 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
《信号处理》智能语音信号感知与处理专刊编者按
7
作者 鲍长春 陈景东 +7 位作者 韩纪庆 黄公平 李军锋 卢晶 潘超 钱彦旻 陶建华 武执政 《信号处理》 北大核心 2025年第9期1463-1466,共4页
语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语... 语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语音增强、语音编码、情感识别、说话人日志、语音生成等多个关键任务,并在智能家居、车载系统、远程医疗、安防监控、虚拟助手等众多场景中发挥着日益重要的作用。 展开更多
关键词 语音信号处理 深度学习 人工智能
在线阅读 下载PDF
基于双通道多特征融合网络语音情感识别 被引量:2
8
作者 裴晓敏 刘诗琦 《微电子学与计算机》 2025年第1期9-16,共8页
单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数... 单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数、均方根、过零率和色度短时傅里叶变换这4种对情感种类贡献度较大的语音特征作为输入,采用双通道网络结构分别提取短时局部特征和全局上下文特征;将基于一维空洞卷积的局部特征提取网络和引入自注意力机制的双向长短时记忆全局特征提取网络并行,避免信息相互干扰;利用投票策略的集成学习方法实现各通道深层特征的充分融合,以获得语音中更深层的情感信息和更加精准的分类准确率。实验结果表明:基于双通道多特征融合网络模型在TESS、RAVDESS、SAVEE、CREMA-D数据集和混合数据集实现了99.89%、95.89%、96.61%、97.75%和95.13%的情感识别准确率,与同类型的多个语音情感识别模型相比性能优异,识别准确率高于其他模型。 展开更多
关键词 双通道 多特征融合 1D CNN LSTM 自注意力机制
在线阅读 下载PDF
基于多模型集成的鸟声识别方法
9
作者 臧强 马刚 +2 位作者 吴文宇 还红华 刘云平 《应用声学》 北大核心 2025年第4期1008-1017,共10页
鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增... 鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增加训练数据的多样性;其次,集成了Tf_efficientnetv2_s_in21k、Se_resnext50_32x4d、Cspdarknet53、Eca_nfnet_l0、Resnet34等5个卷积神经网络预训练模型,引入了广义均值池化以提取鸟声的关键特征,并对数据进行训练;然后,通过指数平滑器和加权平均器集成这5个模型的识别结果,有效降低了噪声干扰和模型方差;最后,通过归一化指数函数将集成结果转换为鸟声识别结果。以北京百鸟数据库中的20种中国鸟类为实验对象,实验结果表明,在相同条件下,该方法的识别准确率可达97.93%,较单一模型提高了2.7%,并且优于现有方法的识别效果。 展开更多
关键词 鸟声识别 多模型集成 卷积神经网络 Mel频谱
在线阅读 下载PDF
特征融合的密集连接卷积网络识别鸟鸣声
10
作者 陈晓 颜灏 曾昭优 《电子测量与仪器学报》 北大核心 2025年第5期241-250,共10页
针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模... 针对目前鸟鸣声识别的深度学习方法提取深层特征单一导致准确率不高的问题,提出一种改进密集连接卷积网络的鸟鸣声识别方法。从鸟鸣声信号中提取梅尔语谱图作为输入,在所有密集块的标准卷积层之后添加卷积块注意力模块,卷积块注意力模块通过学习训练集的特征表示,判断不同层次鸟鸣声特征信息的重要性和关联性,并按照通道维度和空间维度对其进行更深一步的加权融合,使网络更加关注鸟鸣声特征中重要的特征通道和空间位置,从而提高网络学习鸟鸣声特征的能力;在密集块的标准卷积层之后添加丢弃块算法,促使网络对于不同区域的特征进行更加均衡的学习,提高网络对于新鸟鸣声数据的适应能力,使网络能够更好地捕获数据中的共性特征;再利用Transformer编码器为网络建立一条深层特征提取分支,以提高对于鸟鸣声特征中全局信息和长距离依赖信息的捕捉能力。最后将两个分支提取的深层特征融合以提升深层特征的信息丰富度。该方法在Xeno-Canto数据集进行了7组实验。实验结果表明方法对鸟鸣声识别的平均准确率为88.65%。相较于EMSCNN(ensemble multi-scale convolutional neural network)方法高10.83%,AlexNet方法高20.14%,VGGNet方法高16.3%,DenseNet方法高4.28%。实验证明了方法的有效性和先进性。提出的方法对鸟鸣声识别更准确,可用于实际鸟鸣声的识别。 展开更多
关键词 声音识别 鸟声识别 密集连接卷积网络 特征融合 TRANSFORMER 深度学习
原文传递
基于CEEMDAN与自适应双阈值小波分析的心音去噪
11
作者 卢官明 唐瑭 +2 位作者 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第4期36-47,共12页
针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应... 针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应双阈值小波分析的心音去噪算法。首先,通过CEEMDAN方法,将含噪心音信号分解为不同时间尺度上的固有模态函数(Intrinsic Mode Function,IMF)分量;然后,采用去趋势波动分析(Detrended Fluctuation Analysis,DFA)方法将不同的IMF分量判定为含噪的心脏杂音IMF分量或心音IMF分量;接着,利用小波分析技术,滤除含噪心脏杂音IMF分量中的噪声,保留含有病理特征的心脏杂音;最后,将保留下来的心脏杂音与心音IMF分量进行重构,得到去噪后的心音信号。在Khan数据集上的实验结果表明,在不同噪声强度下,所提出的心音去噪算法均能明显提高心音信号的信噪比,降低均方根误差,优于其他现有方法。对临床采集的新生儿心音信号进行去噪的实验结果表明,所提算法具有良好的抑制噪声能力,并保留了含有病理特征的心脏杂音。 展开更多
关键词 心音去噪 自适应噪声完全集合经验模态分解 去趋势波动分析 小波分析 心脏杂音
在线阅读 下载PDF
综采工作面对讲系统非平稳噪声低功耗去噪方法
12
作者 杨艺 谭晓 +3 位作者 常亚军 王科平 刘斌斌 王田 《煤炭学报》 北大核心 2025年第7期3692-3706,共15页
综采工作面语音对讲系统面临严重的非平稳噪声干扰。在功耗限制条件下,实现对讲系统的超低信噪比语音去噪,是确保工作面语音信息正确传输的核心技术之一。基于IMCRA算法,提出一种面向综采工作面语音特点的非平稳噪声去除方法 MIMCRA。其... 综采工作面语音对讲系统面临严重的非平稳噪声干扰。在功耗限制条件下,实现对讲系统的超低信噪比语音去噪,是确保工作面语音信息正确传输的核心技术之一。基于IMCRA算法,提出一种面向综采工作面语音特点的非平稳噪声去除方法 MIMCRA。其中,针对先验信噪比估计延迟导致的非平稳噪声估计不准的问题,引入改进2步噪声去除方法。即利用前一帧的先验信噪比和当前帧的纯净语音来滚动估计当前帧的先验信噪比和下一帧的纯净语音,实现了先验信噪比实时估计。针对固定平滑因子对含噪功率谱进行平滑处理容易引起噪声过估计,从而导致语音信息难以提取的问题,引入帧-频动态平滑因子调节机制。以平滑功率谱密度和噪声功率谱密度的最小均方差为依据,对含噪语音的功率谱实现动态平滑处理。针对信噪比过低,噪声去除不彻底的问题,提出一种面向弱语音分量保护的噪声存在概率检测机制。根据2~4 kHz频率范围内,噪声与弱语音能量分布的统计特性差别,对去噪后的信号再进行噪声检测,并消除存在的残余噪声。对比试验结果表明:当输入语音信噪比为-5~10 dB时,MIMCRA算法与IMCRA算法相比,分段信噪比提高约3 dB,分段误差降低约0.3,对数谱距离降低约0.2。特别当语音信噪比为-5 dB时,MIMCRA算法仍然能将分段信噪比提高到-2.799 5 dB,表明该算法对超低信噪比含噪语音有较强的去噪能力。MIMCRA算法在郑煤机最新研发的综采工作面对讲系统中实现了低功耗部署,芯片功耗为16.5~66.0 mW;处理32 ms帧长的语音帧耗时约16 ms,达到实时性要求。 展开更多
关键词 单通道语音降噪 非平稳噪声 语音活动检测 先验信噪比 帧-频动态平滑因子
在线阅读 下载PDF
网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法
13
作者 申小虎 李冠宇 +1 位作者 史洪飞 王传之 《应用声学》 北大核心 2025年第2期350-361,共12页
在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络... 在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络需求。一方面,通过逆背包准则建立了剪枝通道与资源间的信息表述,在保留网络框架条件下完成通道剪枝。另一方面,在知识蒸馏方法中通过加入MBConv模块内部蒸馏损失分量并完成训练,确保跨组信息交换保留了剪枝前后特征映射之间的距离。通过对南京浦口区老山森林中收集的10类鸟声检测分类实验,在压缩后网络参数量仅3.0M的条件下,分类精度可达到91.64%。该文所提方法在完成网络规模压缩的同时,较好地保留了分类精度,与相同规模主流轻量级网络相比较,能更好地适应鸟声识别被动声学监测的设备需求。 展开更多
关键词 网络剪枝 知识蒸馏 鸟声识别 轻量级网络 被动声学监测
在线阅读 下载PDF
复频域注意力和多尺度频域增强驱动的语音增强网络
14
作者 吕景刚 彭绍睿 +1 位作者 高硕 周金 《计算机应用》 北大核心 2025年第9期2957-2965,共9页
现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE... 现有语音增强方法的目标信号为复频谱信号,而训练网络通常采用实值网络,训练时分别并行处理实部和虚部信号降低了特征提取的准确度,并且对复频域的语义特征提取不充分。为解决上述问题,提出一种基于复频域注意力和多尺度频域增强(CFAFE)的复数域网络实现语音增强。该网络以U-Net为基本架构,首先,利用短时傅里叶变换(STFT)将语音时序含噪信号转换到复频域;其次,针对复频域特征,设计复数域多尺度频域增强模块,构建复频域条件下增强的含噪语音局部特征挖掘模块,从而增强频域干扰和识别期望信号特征的能力;再次,在ViT(Vision Transformer)的基础上设计基于复频域的自注意力算法,实现并行复频域特征的增强;最后,在基准数据集VoiceBank+Demand上进行对比实验和消融实验,并在使用Noise92加噪后的Timit数据集上进行迁移泛化实验。实验结果表明,在VoiceBank+Demand数据集上,相较于深度复卷积递归网络(DCCRN),所提网络在语音质量的感知评估(PESQ)、MOS信号失真(CSIG)、MOS噪声失真(CBAK)、MOS整体语音质量(COVL)指标上分别提升了16.6%、10.9%、44.4%和14.1%;在Timit+Noise92数据集上,相较于DCCRN模型,在babble噪声信噪比(SNR)为-5 dB的条件下,所提网络的PESQ和STOI(Short-Time Objective Intelligibility)分别提高了29.8%和5.2%。 展开更多
关键词 语音增强 复神经网络 U-Net 注意力机制 TRANSFORMER
在线阅读 下载PDF
基于自适应多分支卷积的声学场景分类
15
作者 韦娟 何德华 宁方立 《系统工程与电子技术》 北大核心 2025年第10期3148-3154,共7页
针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类... 针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类之间的关系问题,引入粗粒度分类器辅助训练原分类模型,通过结果融合增强分类过程。在TUT2020移动开发数据集上进行训练与测试。实验结果表明,相较于优化前的算法,所提模型在准确率上提升了6.5%,证明所提方法可以有效提升整体分类效果。 展开更多
关键词 声学场景分类 卷积神经网络 自适应特征融合 层次结构
在线阅读 下载PDF
基于非同步测量的高分辨率声源定位
16
作者 韦娟 冯鹏 宁方立 《通信学报》 北大核心 2025年第2期123-135,共13页
针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建... 针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建低维子空间,继而将缺省互谱矩阵投影到子空间,寻找最优解来补全矩阵。补全后的互谱矩阵通过截断函数波束成形算法实现声源定位。仿真和实验结果表明,与基于核范数最小化及其衍生模型的算法相比,所提算法在低信噪比条件下能够有效减小主瓣宽度、抑制旁瓣数量,矩阵补全误差平均降低了17.6%、声源重构误差平均降低了27%,证明该算法具有良好的鲁棒性和抗噪性。 展开更多
关键词 非同步测量 声源定位 矩阵补全 子空间逼近
在线阅读 下载PDF
基于子张量重构的宽带信号DOA估计
17
作者 韦娟 陈茂楠 宁方立 《通信学报》 北大核心 2025年第8期31-40,共10页
针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优... 针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优化后的三维张量。然后采用基于张量核范数的低秩张量补全算法对重构张量进行高效补全,并利用张量分解算法得到信号子空间,实现DOA估计。仿真和实验结果表明,所提算法在低信噪比条件下,DOA估计的均方根误差明显优于已有算法,在快拍数低至20时仍有稳定的估计性能,这表明所提算法具有良好的抗噪性和快拍鲁棒性。 展开更多
关键词 波达方向估计 宽带信号 张量重构 张量补全
在线阅读 下载PDF
基于复倒谱的盲解卷积语音去混响技术的研究 被引量:1
18
作者 闫姝 侯志伟 《电脑编程技巧与维护》 2025年第4期154-156,共3页
对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技... 对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技术设计对应的逆滤波器,重构原始语音信号,从而实现去混响的目的。仿真研究表明该方法较好地恢复了原始语音信号,效果优于最小相位分解法,具有一定的理论指导意义。 展开更多
关键词 复倒谱 盲解卷积 语音去混响 语音增强
在线阅读 下载PDF
深度学习的用户数据自监督安全防御
19
作者 喻佳 《现代电子技术》 北大核心 2025年第20期30-34,共5页
为应对复杂多变的数据攻击模式,实时处理数据流并提升安全防御能力,提出一种基于深度学习的用户数据自监督安全防御方法。构建用户数据安全防御模型,结合深度学习和自监督学习技术,并采用变分自编码器中的编码器网络和解码器网络进行数... 为应对复杂多变的数据攻击模式,实时处理数据流并提升安全防御能力,提出一种基于深度学习的用户数据自监督安全防御方法。构建用户数据安全防御模型,结合深度学习和自监督学习技术,并采用变分自编码器中的编码器网络和解码器网络进行数据处理,识别用户数据的异常攻击,计算用户数据标准差,评估数据风险等级,再依据数据风险评估结果实现用户数据安全防御。以江西省某高校学院教学管理学生成绩数据为基础数据集,对所提方法的防御效果进行检测。实验结果表明:该方法能够有效应对低、中、高三种攻击强度下的学生用户数据,确保学生成绩数据的完整性;在不同异常数据量下,防御率均能保持在96%以上,数据泄露风险在1.67%以下,安全性较高,防御能力波动低于2%。所提方法有助于推动数据安全防御领域的智能化发展。 展开更多
关键词 用户数据 深度学习 自监督 安全防御 编码器网络 异常攻击识别 数据风险等级评估
在线阅读 下载PDF
低信噪比下多级特征深度融合的视听语音增强
20
作者 张天骐 沈夕文 +1 位作者 唐娟 谭霜 《通信学报》 北大核心 2025年第5期133-144,共12页
为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU)... 为解决视听语音增强中特征提取受限、模态间的特征融合度低等问题,提出一种在低信噪比下的多级特征深度融合的视听语音增强方法。该方法采用视、听编码网络-视听融合网络-听觉解码网络的结构,在听觉编码网络中设计一种多路协作单元(MCU);在每层的视觉和听觉编码网络间设计一种视听注意力融合模块(AVAFM);在视听融合网络中设计一种融合加权模块(FWB),将每级输出进行特征优化、动态加权得到更具判别性的特征。最终在TMSV、LGRID视听数据集上的多种低信噪比的实验结果表明,LGRID视听数据集下的平均PESQ、STOI分别提升52.30%~74.06%、46.74%~67.15%,且相比纯音频语音增强,在-5dB、-2dB、1dB低信噪比下的平均PESQ和STOI分别提升38.95%和33.92%,表现出所提网络的高降噪性能和添加视觉信息的有效性。 展开更多
关键词 视听语音增强 低信噪比 多级特征融合 融合加权 视听注意力
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部