期刊文献+
共找到79,215篇文章
< 1 2 250 >
每页显示 20 50 100
结合不均衡样本生成及BOA-DRSN的扬声器异常声分类 被引量:1
1
作者 周静雷 李振业 +1 位作者 路昌 李丽敏 《西安工程大学学报》 2025年第4期37-45,共9页
扬声器生产过程中,其正常数据与故障数据比例可能会严重失调,从而导致样本分布不均匀,进而影响故障诊断模型的准确率及可靠性。因此,文中根据样本生成扩增和优化深度学习网络的理念提出了一种新的扬声器异常声分类方法。首先,考虑到原... 扬声器生产过程中,其正常数据与故障数据比例可能会严重失调,从而导致样本分布不均匀,进而影响故障诊断模型的准确率及可靠性。因此,文中根据样本生成扩增和优化深度学习网络的理念提出了一种新的扬声器异常声分类方法。首先,考虑到原始数据特征过于复杂而导致生成样本的质量较差,对扬声器异常声响应信号进行变分模态分解(variational mode decomposition,VMD)突出原始样本的局部特征;其次,从扩增样本角度出发提升模型故障诊断精度,使用最小二乘生成对抗网络(least squares generative adversarial networks,LSGAN)进行对抗训练,生成具有真实样本特征的虚拟样本;最后,选用蝴蝶优化算法(butterfly optimization algorithm,BOA)在大规模权重空间中高效寻优以加速模型收敛,利用深度残差收缩网络(deep residual shrinkage network,DRSN)模型进行扬声器异常声分类,从而提升在样本不均衡情况下的分类准确率及诊断稳定性。实验结果表明:该方法能有效降低误判率,在样本不均衡情况下有效提高故障诊断准确率以及分类诊断的稳定性,其分类平均准确率可达0.9912。 展开更多
关键词 故障诊断 数据不均衡 异常声分类 深度残差收缩网络(DRSN) 蝴蝶优化算法(BOA) 最小二乘生成对抗网络(LSGAN)
在线阅读 下载PDF
面向复杂背景环境下垃圾检测的YOLOv8n轻量化改进
2
作者 孙世政 何玲玲 +2 位作者 郑帅 徐向阳 陈仁祥 《电子测量与仪器学报》 北大核心 2025年第2期136-146,共11页
垃圾检测与分类对推动绿色经济和实现低碳循环具有重要意义,面向复杂背景环境的垃圾检测模型存在参数量大、计算成本高等问题,限制了模型在资源受限设备上的应用。为解决上述问题,提出一种轻量化的GCAW-YOLOv8n模型,旨在平衡模型轻量化... 垃圾检测与分类对推动绿色经济和实现低碳循环具有重要意义,面向复杂背景环境的垃圾检测模型存在参数量大、计算成本高等问题,限制了模型在资源受限设备上的应用。为解决上述问题,提出一种轻量化的GCAW-YOLOv8n模型,旨在平衡模型轻量化与精度检测。首先,在YOLOv8n骨干网络中引入GhostNet网络中的C3Ghost和GhostConv模块,有效降低模型参数量;其次,添加上下文锚点注意力机制,增强特征提取能力,提升检测精度;然后,在特征融合阶段,构建渐近特征金字塔网络,提升多尺度目标检测能力;接着,采用WIoU v3边界损失函数优化网络边界框回归性能;最后,结合Taco数据集和人工采集数据集进行了模型验证实验。实验结果表明,相比原YOLOv8n模型,改进后的GCAW-YOLOv8n模型在模型参数量Params和计算量FLOPs分别降低了14.3%和33.3%,而精确度和召回率分别提高了4.4%和1.9%,同时mAP@0.5达到了81.3%,提升了0.7%。改进模型更好地平衡了模型轻量化和检测精度,对模型部署与应用至边缘端检测装备具有重要的工程意义。 展开更多
关键词 垃圾检测 轻量化YOLOv8n GhostNet 上下文锚点注意力机制 渐近特征金字塔
原文传递
IEC/TC1082024年秋季工作组会议综述 被引量:1
3
作者 王莹 缠潇潇 《安全与电磁兼容》 2025年第1期92-95,共4页
介绍TC108 HBSDT工作组2024年秋季虚拟会议情况,包括解释组文件讨论、相关决议讨论、特别小组讨论及对IEC 62368-1:2023的新技术提案讨论等。
关键词 无线收听装置 蓝牙 受限制区域 受限制电源 剂量测量
在线阅读 下载PDF
基于SE注意力机制与互信息量的解纠缠跨语种语音转换
4
作者 李燕萍 谭誌诚 +2 位作者 胡澄阳 杨露露 邵曦 《信号处理》 北大核心 2025年第1期183-192,共10页
在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立... 在跨语种语音转换(Cross-Lingual Voice Conversion, CLVC)任务中,如何保留转换语音中的内容信息,同时有效地提高转换语音的相似度和自然度是目前的研究难题。传统的编码器-解码器模型应用于跨语种语音转换时,通常会对语音进行相互独立的内容编码和说话人编码,导致得到的内容表征和说话人表征之间存在一定的信息泄露,从而使得转换语音的说话人个性相似度不够理想。为了解决上述存在的问题,本文提出一种基于SE注意力机制(Squeeze-and-Excitation Attention Mechanism, SE)与互信息量(Mutual Information, MI)的跨语种语音转换方法,实现有效的表征解纠缠,完成开集情形下高质量的跨语种语音转换。首先,在内容编码器中引入SE注意力机制以利用其对全局信息的提取能力,使得内容编码器可以提取包含全局上下文信息的内容表征;同时,在各个表征之间引入互信息量,并通过对其最小化来大幅减少各个表征之间存在的信息泄露问题,从而实现有效的表征解纠缠。在VCTK英文语料库和AISHELL-3中文语料库上的实验结果表明,本文提出的基于SE注意力机制与互信息量的跨语种语音转换模型(Squeeze-and-Excitation Attention Mechanism and Mutual Information, SEMI)具有更强的表征提取能力,相比于基准模型,其在客观评价中MCD值降低了10.89%,在主观评价中MOS值和ABX值分别提升了10.94%和12.06%,验证了SEMI模型在转换语音质量和说话人个性相似度方面都取得显著进展,实现了开集情形下高质量的跨语种语音转换。 展开更多
关键词 跨语种语音转换 SE注意力机制 互信息量 全局上下文信息
在线阅读 下载PDF
基于门控扩张循环卷积神经网络的语音增强
5
作者 郭业才 周雪 《计算机工程与设计》 北大核心 2025年第6期1818-1824,共7页
为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCN... 为解决语音增强任务中语音信息未充分利用的问题,提出一种基于深度学习的方法,即融合精确比值掩蔽的门控扩张循环卷积神经网络(gate-dilated recurrent convolutional neural network with accurate ratio masking, GDRCNN-ARM)。GDRCNN由编码器、循环卷积层和解码器3部分组成,编码器中借助扩张卷积和门控机制实现对上下文语音信息的捕获,进行并行处理;循环卷积层采用GRU且引入多头注意力机制,捕捉网络中的长期依赖关系;解码器采用逐层解码且通过跳跃连接进行编码器信息的复用,实现对语音细节的还原。实验数据表明,GDRCNN网络在参数量和模型大小方面明显优于DNN、CRN等网络,PESQ平均提高了0.612、0.158,STOI平均提高了0.072、0.020,在语音增强和泛化方面表现出色。 展开更多
关键词 语音增强 深度学习 精确比值掩蔽 扩张卷积 门控机制 循环卷积 并行处理
在线阅读 下载PDF
融合多模态信息的知识感知推荐方法
6
作者 王海荣 王怡梦 +1 位作者 周北京 易之航 《郑州大学学报(工学版)》 北大核心 2025年第6期15-22,共8页
图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上... 图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上,整合与图谱中实体语义相关的多模态信息,并将其与对应的实体进行特征融合,用来丰富实体表示,以便探索用户潜在的兴趣偏好。该方法充分考虑了多模态信息间的依赖性和交互性,采用模态间注意力关注各模态的重要信息,获取具有语义关联的多模态嵌入特征;通过门控注意力将实体对应的多模态嵌入特征与实体表示融合,进一步丰富实体的多模态语义信息,从而增强用户和项目的表示。为了验证方法的有效性,在MovieLens-1M和Book-Crossing数据集上进行实验,并与RippletNet、KGAT、CKAN、LKGR、COAT、CKE、KGCN、SKGCR和KGCL这9种方法进行对比分析,实验结果表明:所提方法在AUC和ACC上均优于对比方法;在MovieLens-1M和Book-Crossing数据集上,所提方法的AUC分别为0.9366和0.7637,与其他模型的平均值相比,增幅为0.0272和0.0291;所提方法的ACC分别为0.8623和0.7089,与其他模型的平均值相比,增幅为0.0283和0.0305。 展开更多
关键词 知识图谱 推荐系统 多模态信息 特征融合 嵌入传播
在线阅读 下载PDF
基于频率贡献度的语音特征神经网络优化研究
7
作者 陈可嘉 林玮 《电子器件》 2025年第4期821-826,共6页
在语音识别中,语音特征的提取方法对准确率的影响是最大的,对语音特征进行优化可以极大提升语音的识别准确率。提出一种基于语音特征提取的传统方法和卷积神经网络(Convolutional Neural Networks,CNN)原理,根据频率贡献度对语音特征参... 在语音识别中,语音特征的提取方法对准确率的影响是最大的,对语音特征进行优化可以极大提升语音的识别准确率。提出一种基于语音特征提取的传统方法和卷积神经网络(Convolutional Neural Networks,CNN)原理,根据频率贡献度对语音特征参数进行优化的方法;使得在保证识别效果的前提下,保留更多语音原始信息,并控制训练的数据量和时间。实验结果表明,与传统的特征提取方法梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)相比,所提出的优化方案提高了识别性能;而与以原始语音波形等作为输入的模型训练方法相比,所提方法减少了训练所需的时间和数据计算量,适用于更多实际应用场景,降低了部署和应用成本。 展开更多
关键词 神经网络 特征提取 特征优化 频率贡献度
在线阅读 下载PDF
信号分析与处理实验教学平台设计
8
作者 景妮洁 祝红梅 黄寅嵩 《实验室科学》 2025年第1期33-36,共4页
针对信号分析与处理课程的特点及在教学中存在的问题,利用MATLAB的可视化图形用户界面(GUI)工具,结合信号分析与处理课程中的理论知识点,设计出可视化的实验界面,将抽象的理论知识直观并生动地展现给学生。这种交互式学习环境,使学生能... 针对信号分析与处理课程的特点及在教学中存在的问题,利用MATLAB的可视化图形用户界面(GUI)工具,结合信号分析与处理课程中的理论知识点,设计出可视化的实验界面,将抽象的理论知识直观并生动地展现给学生。这种交互式学习环境,使学生能够通过实际操作来理解抽象的信号处理概念。此实验教学平台将实验内容模块化,设定个性化学习路径,达到理论与实践的无缝结合,既有助于提升教学效果,也有助于提高学生的学习兴趣和学习效率,可以作为信号分析与处理课程的辅助教学系统。 展开更多
关键词 信号分析与处理 实验平台 MATLAB
在线阅读 下载PDF
基于树莓派的智能语音降噪算法研究与实现
9
作者 陶然 朱润乾 +1 位作者 秦怡童 凌海东 《现代信息科技》 2025年第3期183-188,共6页
语音增强是语音信号处理的重要分支,在语音识别、语音通信等领域具有重要应用。传统数字信号处理(DSP)方法下的单通道语音增强计算量小,但效果不佳。近年来,深度学习算法大幅提升了单通道语音增强的效果,但往往计算量大,对硬件要求高,... 语音增强是语音信号处理的重要分支,在语音识别、语音通信等领域具有重要应用。传统数字信号处理(DSP)方法下的单通道语音增强计算量小,但效果不佳。近年来,深度学习算法大幅提升了单通道语音增强的效果,但往往计算量大,对硬件要求高,难以应用于移动设备或可穿戴设备。针对性能和计算量难以平衡的现状,文章实现了一种低复杂度的基于深度学习的语音增强算法,并在树莓派上进行了实现。该算法采用具有四个隐藏层的循环神经网络(RNN),用于估计理想的临界频带增益,而音高谐波之间的噪声则采用传统音高滤波器处理。实验结果显示,该系统能够有效实现降噪功能,并且性能优于传统的维纳滤波算法。 展开更多
关键词 语音增强 RNNoise 实时 单通道 树莓派
在线阅读 下载PDF
基于AI的噪声特征处理方法的研究
10
作者 崔建忠 《计算机应用文摘》 2025年第12期98-100,共3页
通过应用深度学习和机器学习算法,AI技术已广泛应用于音频信号处理领域,特别是在噪声识别与去除方面取得了显著成效。深度神经网络能够自动提取音频中的时频特征,精准区分噪声与语音成分,实现高效降噪处理。同时,传统机器学习方法(如SVM... 通过应用深度学习和机器学习算法,AI技术已广泛应用于音频信号处理领域,特别是在噪声识别与去除方面取得了显著成效。深度神经网络能够自动提取音频中的时频特征,精准区分噪声与语音成分,实现高效降噪处理。同时,传统机器学习方法(如SVM、K近邻算法)可在特定场景下结合特征工程进行辅助识别。通过训练模型识别不同类型的噪声并重建纯净音频,AI系统显著提升了语音清晰度和用户体验,被广泛应用于语音助手、在线会议、智能设备等领域。 展开更多
关键词 AI降噪 噪声特征处理 深度学习 音频质量
在线阅读 下载PDF
基于Bi‑LSTM和时序注意力的异常心音检测 被引量:1
11
作者 卢官明 蔡亚宁 +3 位作者 卢峻禾 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期12-20,共9页
异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧... 异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧处理,使用平均幅度差函数(Average Magnitude Difference Function,AMDF)和短时过零率(Short⁃Time Zero⁃Crossing Rate,STZCR)提取每帧心音信号的初始特征;然后将它们拼接后作为Bi⁃LSTM的输入,并引入时序注意力机制,挖掘特征的长期依赖关系,提取心音信号的上下文时域特征;最后通过Softmax分类器,实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016提供的心音公共数据集上对所提出的算法使用10折交叉验证法进行了评估,其准确度、灵敏度、特异性、精度和F1评分分别为0.9579、0.9364、0.9642、0.8838和0.9093,优于已有的其他算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,在心血管疾病的临床辅助诊断中具有潜在的应用前景。 展开更多
关键词 心音分类 平均幅度差函数 短时过零率 双向长短时记忆网络 时序注意力机制
在线阅读 下载PDF
基于EfficientNetV2-RetNet的端到端中文管制语音识别 被引量:1
12
作者 梁海军 常瀚文 +2 位作者 何一民 赵志伟 孔建国 《电讯技术》 北大核心 2025年第2期254-260,共7页
自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获... 自动语音识别(Automatic Speech Recognition, ASR)技术在空中交通管制(Air Traffic Control, ATC)领域的应用有望提高通信效率、减少人为错误、提升安全性,并促进航空交通管理系统的创新和改进。然而,由于ATC通信通常涉及敏感信息,获取大量带有标签的ATC语音数据较为困难,这给构建高准确度的ASR系统带来了巨大挑战。基于Retentive Network(RetNet)和迁移学习设计了一种新的端到端ASR框架EfficientNetV2-RetNet-CTC,用于ATC系统。EfficientNetV2的多层卷积结构有助于对语音信号提取更复杂的特征表示。RetNet使用多尺度保持机制学习序列数据上的全局时间动态,可以非常高效地处理长距离依赖性。连接时序分类不用强制对齐标签且标签可变长。此外,迁移学习通过在源任务上学习的知识来改善在目标任务上的性能,解决了民航领域数据资源稀缺的问题且提高了模型的泛化能力。实验结果表明,所设计的模型优于其他基线,在Aishell语料库上预训练的最低词错误率为7.6%和8.7%,在ATC语料库上降至5.6%和6.8%。 展开更多
关键词 空中交通管制 自动语音识别 端到端深度学习 迁移学习
在线阅读 下载PDF
基于AI的噪声环境下远距离高清音频采集研究 被引量:1
13
作者 黄丽娜 《现代电子技术》 北大核心 2025年第4期130-134,共5页
为提升远距离采集音频信号的强度,深度滤除音频信号噪声以提取有用音频部分,提出一种基于AI的噪声环境下远距离高清音频采集方法。构建远距离高清音频采集结构,分别通过模拟增益和数字增益技术进行音频信号增益处理,以提升音频信号强度... 为提升远距离采集音频信号的强度,深度滤除音频信号噪声以提取有用音频部分,提出一种基于AI的噪声环境下远距离高清音频采集方法。构建远距离高清音频采集结构,分别通过模拟增益和数字增益技术进行音频信号增益处理,以提升音频信号强度。依据短时傅里叶变换提取音频增益信号频域特征,输入到长短期记忆网络中,实现音频信号深度噪声去除,得到高清音频频域信息;再通过短时傅里叶逆变换处理该信号,实现音频信号重构,最终达到噪声环境下远距离高清音频采集的目的。实验验证结果表明:依据音频信号增益能够有效提升采集音频信号的强度,并避免信号受距离、噪声影响而逐渐衰减,继而有效滤除音频信号噪声数据,提取其中有用的音频信号,确保音频信号高清度;且最终采集音频信号信噪比均高于18 dB,可懂度均高于97%,有效验证了所提方法的有效性和准确性。 展开更多
关键词 高清音频采集 AI 噪声环境 信号强度 远距离 长短期记忆网络 短时傅里叶变换
在线阅读 下载PDF
低资源条件下的藏语语音情感识别 被引量:1
14
作者 张维昭 李皓渊 杨鸿武 《信号处理》 北大核心 2025年第9期1558-1569,共12页
近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提... 近年来,虽然面向主流语言的语音情感识别研究已经取得了较大进展,但是面向低资源语言的语音情感识别研究在数据集构建、特征提取与识别模型设计等方面面临诸多困难。针对低资源条件下的藏语语音情感识别问题,首先通过视频剪辑、音频提取与增强、人工标注与校对等步骤,初步构建了藏语情感语音数据集(Tibetan Emotion Speech Dataset-2500,TESD-2500)。该数据集涵盖四种情感类型(生气、悲伤、高兴和中性),共包含2500个语音样本,情感类别与样本数量仍在持续扩充中。然后,设计了一种融合交叉注意力与协同注意力机制的多特征融合语音情感识别模型,采用双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BiLSTM)对梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)进行时序建模,以提取语音信号中的动态时序表征;利用AlexNet提取语谱图的时频特征,以捕获语音信号的时频联合分布模式,并通过交叉注意力机制计算上述两类异构特征间的相关性权重;引入大规模预训练模型WavLM提取语音信号的深层特征,并以前述交叉注意力计算的结果作为权重向量,通过协同注意力机制对深层特征进行加权重构;将MFCC时序特征、语谱图时频特征和加权的预训练模型深层特征拼接成多层次特征融合表示,通过全连接层映射至情感类别空间,完成藏语语音情感分类任务。最终实验结果表明,所提出的模型在TESD-2500数据集上取得了76.56%的加权准确率和75.42%的未加权准确率,显著优于基线模型。本文还在IEMOCAP和EmoDB数据集上进行了模型泛化能力测试,在IEMOCAP上达到了74.27%的加权准确率和73.60%的未加权准确率,在EmoDB上达到了92.61%的加权准确率和91.68%的未加权准确率。本文的研究方法与结果亦可为其他低资源语言的语音情感识别研究提供参考。 展开更多
关键词 语音情感识别 低资源 多特征融合 预训练模型 藏语
在线阅读 下载PDF
基于STR-DETR的轻量化PCB缺陷检测算法 被引量:1
15
作者 陈枫赟 李鹏 《电子测量与仪器学报》 北大核心 2025年第6期30-40,共11页
针对现有印刷电路板缺陷检测模型参数量庞大、计算复杂度高,难以部署在计算资源有限的工业边缘设备上的问题,提出了一种基于STR-DETR的轻量化缺陷检测算法。首先,通过分组卷积重构轻量级网络StarNet形成新型主干网络G-StarNet,在保留多... 针对现有印刷电路板缺陷检测模型参数量庞大、计算复杂度高,难以部署在计算资源有限的工业边缘设备上的问题,提出了一种基于STR-DETR的轻量化缺陷检测算法。首先,通过分组卷积重构轻量级网络StarNet形成新型主干网络G-StarNet,在保留多尺度特征提取能力的同时显著减少模型复杂度;其次,在自适应特征交互模块中引入基于统计学特征的自注意力机制来代替原有的多头自注意力,降低了计算开销;再次,结合曼哈顿自注意力机制及其分解形式设计RetBlockC3模块,采用距离相关的衰减模式增强了局部特征的表达优先级,实现了计算复杂度从二次方到线性的优化;最后,提出了一种新的损失函数FSN Loss,通过改善形状和尺度因素、样本分布不均对边界框回归结果的影响来增强检测的定位与分类准确性。实验结果表明,改进后的算法平均精度均值(mAP)mAP@0.5达到了96.7%,相较于基准模型,参数量减少了50.8%,计算量下降了55.4%,检测速度提高了23.7%,验证了算法的有效性,能够满足轻量化小目标检测的需求。 展开更多
关键词 RT-DETR 小目标检测 印刷电路板 轻量化 注意力机制
原文传递
基于多级信息嵌入的中文语声转换模型
16
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 北大核心 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
《信号处理》智能语音信号感知与处理专刊编者按
17
作者 鲍长春 陈景东 +7 位作者 韩纪庆 黄公平 李军锋 卢晶 潘超 钱彦旻 陶建华 武执政 《信号处理》 北大核心 2025年第9期1463-1466,共4页
语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语... 语音信号处理作为信号处理领域的关键分支,近年来伴随人工智能、深度学习与边缘计算等技术的快速发展与深度融合,在学术界与工业界均展现出蓬勃的发展势头。作为语音通信与人机交互的核心技术方向,语音信号处理涵盖了目标声音拾取、语音增强、语音编码、情感识别、说话人日志、语音生成等多个关键任务,并在智能家居、车载系统、远程医疗、安防监控、虚拟助手等众多场景中发挥着日益重要的作用。 展开更多
关键词 语音信号处理 深度学习 人工智能
在线阅读 下载PDF
音频删除篡改的多阶段检测与多模态定位
18
作者 张国富 王茹 +3 位作者 苏兆品 岳峰 廉晨思 杨波 《计算机工程与科学》 北大核心 2025年第11期1964-1973,共10页
音频删除篡改检测在数字音频鉴真领域面临严峻挑战,尤其是在反取证攻击下。针对删除篡改难以检测且定位困难的问题,提出了一种音频删除篡改的多阶段检测与多模态定位方法。首先,设计一种头文件信息分析方法,用以筛选出疑似存在头尾删除... 音频删除篡改检测在数字音频鉴真领域面临严峻挑战,尤其是在反取证攻击下。针对删除篡改难以检测且定位困难的问题,提出了一种音频删除篡改的多阶段检测与多模态定位方法。首先,设计一种头文件信息分析方法,用以筛选出疑似存在头尾删除篡改的音频文件;其次,提出一种基于列平均的常数Q频谱草图特征,并设计一种基于深度残差收缩网络和注意力机制的中间删除篡改分类网络;再次,结合头文件信息分析与分类网络的检测结果,综合判断音频是否存在删除篡改;最后,对于检测到的中间删除篡改,提出一种基于小波包分析与多模态特征结合的定位方法。对比实验结果表明,所提方法可以实现头尾删除篡改的检测和中间删除篡改的精确定位,其中中间删除分类的准确率、精确率、召回率和F1分数均超过98%,并在面对常规信号处理攻击时展现出更强的鲁棒性与定位精度。 展开更多
关键词 音频盲取证 删除篡改 检测与定位 深度残差收缩网络 小波包重构
在线阅读 下载PDF
基于多模型集成的鸟声识别方法
19
作者 臧强 马刚 +2 位作者 吴文宇 还红华 刘云平 《应用声学》 北大核心 2025年第4期1008-1017,共10页
鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增... 鸟声识别能够辅助监测鸟类种群和栖息地的动态变化,在鸟类监测、生态保护和生态学研究中具有重要作用。为进一步提升鸟声识别准确率,提出了一种基于多模型集成的方法。首先,通过Mel频谱转换和分贝转换提取鸟声特征图,并利用Mixup操作增加训练数据的多样性;其次,集成了Tf_efficientnetv2_s_in21k、Se_resnext50_32x4d、Cspdarknet53、Eca_nfnet_l0、Resnet34等5个卷积神经网络预训练模型,引入了广义均值池化以提取鸟声的关键特征,并对数据进行训练;然后,通过指数平滑器和加权平均器集成这5个模型的识别结果,有效降低了噪声干扰和模型方差;最后,通过归一化指数函数将集成结果转换为鸟声识别结果。以北京百鸟数据库中的20种中国鸟类为实验对象,实验结果表明,在相同条件下,该方法的识别准确率可达97.93%,较单一模型提高了2.7%,并且优于现有方法的识别效果。 展开更多
关键词 鸟声识别 多模型集成 卷积神经网络 Mel频谱
在线阅读 下载PDF
基于集成学习的交通事故严重程度预测
20
作者 贾现广 宋腾飞 吕英英 《现代电子技术》 北大核心 2025年第16期61-66,共6页
为提升道路交通事故严重程度预测模型的性能,以及分析事故特征对于事故严重程度的影响,提出一种基于双层Stacking模型的交通事故严重程度预测方法。首先,采用BSMOTE2算法来平衡数据,并验证数据平衡处理是否会对模型预测产生正向影响,同... 为提升道路交通事故严重程度预测模型的性能,以及分析事故特征对于事故严重程度的影响,提出一种基于双层Stacking模型的交通事故严重程度预测方法。首先,采用BSMOTE2算法来平衡数据,并验证数据平衡处理是否会对模型预测产生正向影响,同时利用GBDT-RFECV算法进行k折交叉验证选择,完成特征降维。其次,构建双层Stacking模型,第一层由BiGRU和XGBoost组成,将时间序列特征用于BiGRU,静态特征用于XGBoost进行初步预测;第二层采用CatBoost模型,结合第一层的预测结果进行最终的严重程度预测。研究结果表明:模型的准确率、宏F_(1)和宏AUC均有明显提高,表明数据平衡处理对模型预测产生正向影响;相较于KNN、BiGRU、RF和XGBoost模型,所提双层Stacking模型的预测准确率分别提高了5.45%、10.23%、1.78%和2.34%,宏F_(1)值提高了5.31%、9.91%、1.35%和1.92%,宏AUC提高了11.13%、6.97%、2.13%和2.71%。该双层Stacking模型在多个评估指标上的表现均优于其他模型。 展开更多
关键词 交通安全 交通事故预测 预测分析 集成学习 机器学习 深度学习 特征降维
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部