期刊文献+
共找到16,356篇文章
< 1 2 250 >
每页显示 20 50 100
A Synthetic Speech Detection Model Combining Local-Global Dependency
1
作者 Jiahui Song Yuepeng Zhang Wenhao Yuan 《Computers, Materials & Continua》 2026年第1期1312-1326,共15页
Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propo... Synthetic speech detection is an essential task in the field of voice security,aimed at identifying deceptive voice attacks generated by text-to-speech(TTS)systems or voice conversion(VC)systems.In this paper,we propose a synthetic speech detection model called TFTransformer,which integrates both local and global features to enhance detection capabilities by effectively modeling local and global dependencies.Structurally,the model is divided into two main components:a front-end and a back-end.The front-end of the model uses a combination of SincLayer and two-dimensional(2D)convolution to extract high-level feature maps(HFM)containing local dependency of the input speech signals.The back-end uses time-frequency Transformer module to process these feature maps and further capture global dependency.Furthermore,we propose TFTransformer-SE,which incorporates a channel attention mechanism within the 2D convolutional blocks.This enhancement aims to more effectively capture local dependencies,thereby improving the model’s performance.The experiments were conducted on the ASVspoof 2021 LA dataset,and the results showed that the model achieved an equal error rate(EER)of 3.37%without data augmentation.Additionally,we evaluated the model using the ASVspoof 2019 LA dataset,achieving an EER of 0.84%,also without data augmentation.This demonstrates that combining local and global dependencies in the time-frequency domain can significantly improve detection accuracy. 展开更多
关键词 Synthetic speech detection transformer local-global time-frequency domain
在线阅读 下载PDF
基于Bi‑LSTM和时序注意力的异常心音检测 被引量:1
2
作者 卢官明 蔡亚宁 +3 位作者 卢峻禾 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第1期12-20,共9页
异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧... 异常心音检测是对心脏病进行初步诊断的一种有效而方便的方法。为提升异常心音的检测性能,提出了一种基于双向长短时记忆网络(Bi⁃directional Long Short⁃Term Memory,Bi⁃LSTM)和时序注意力的异常心音检测算法。首先对心音片段进行分帧处理,使用平均幅度差函数(Average Magnitude Difference Function,AMDF)和短时过零率(Short⁃Time Zero⁃Crossing Rate,STZCR)提取每帧心音信号的初始特征;然后将它们拼接后作为Bi⁃LSTM的输入,并引入时序注意力机制,挖掘特征的长期依赖关系,提取心音信号的上下文时域特征;最后通过Softmax分类器,实现正常/异常心音的分类。在PhysioNet/CinC Challenge 2016提供的心音公共数据集上对所提出的算法使用10折交叉验证法进行了评估,其准确度、灵敏度、特异性、精度和F1评分分别为0.9579、0.9364、0.9642、0.8838和0.9093,优于已有的其他算法。实验结果表明,该算法在无需进行心音分段的基础上就能有效实现异常心音检测,在心血管疾病的临床辅助诊断中具有潜在的应用前景。 展开更多
关键词 心音分类 平均幅度差函数 短时过零率 双向长短时记忆网络 时序注意力机制
在线阅读 下载PDF
基于多级信息嵌入的中文语声转换模型
3
作者 张国富 张朋 +1 位作者 苏兆品 岳峰 《应用声学》 北大核心 2025年第5期1263-1278,共16页
现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,... 现有任意到任意的语声转换方法在相似性和自然性之间难以均衡,难以适用于对语调、节奏等韵律要求较高的中文语声转换。该文面向中文语声,提出一种基于多级信息嵌入的中文语声转换模型。首先,利用基于卷积和多头注意力机制的音色编码器,从目标语声中提取音色表示;其次,利用自相关函数方法分别从目标语声和源语声中提取韵律信息,并进行归一化融合;最后,设计基于多级信息嵌入策略的生成器HiFi-GAN++,在匹配后的自监督特征基础上,将音色信息和韵律信息在多层循环中逐步嵌入并生成语声。在Thchs-30、Aishell-1以及Aishell-3三种主流中文数据集的对比实验结果表明,所提模型在字错误率和说话人嵌入余弦相似度上较对比基线模型表现更优。该文模型不仅能够生成更接近真实语声质量的中文转换语声,而且对短语声和情感语声转换场景也具有良好的适应性,具有更广泛的应用前景。 展开更多
关键词 中文语声转换 多级信息嵌入 音色 韵律 生成器HiFi-GAN++
在线阅读 下载PDF
基于双通道多特征融合网络语音情感识别 被引量:2
4
作者 裴晓敏 刘诗琦 《微电子学与计算机》 2025年第1期9-16,共8页
单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数... 单一语音特征无法充分表达语音情感,而多个声学特征简单拼接的融合方法容易造成情感信息丢失,且采用单个通道特征提取网络无法全面提取语音中的情感特征。针对上述问题,本文提出基于双通道特征融合网络语音情感识别,以梅尔频率倒谱系数、均方根、过零率和色度短时傅里叶变换这4种对情感种类贡献度较大的语音特征作为输入,采用双通道网络结构分别提取短时局部特征和全局上下文特征;将基于一维空洞卷积的局部特征提取网络和引入自注意力机制的双向长短时记忆全局特征提取网络并行,避免信息相互干扰;利用投票策略的集成学习方法实现各通道深层特征的充分融合,以获得语音中更深层的情感信息和更加精准的分类准确率。实验结果表明:基于双通道多特征融合网络模型在TESS、RAVDESS、SAVEE、CREMA-D数据集和混合数据集实现了99.89%、95.89%、96.61%、97.75%和95.13%的情感识别准确率,与同类型的多个语音情感识别模型相比性能优异,识别准确率高于其他模型。 展开更多
关键词 双通道 多特征融合 1D CNN LSTM 自注意力机制
在线阅读 下载PDF
基于CEEMDAN与自适应双阈值小波分析的心音去噪
5
作者 卢官明 唐瑭 +2 位作者 戚继荣 王洋 赵宇航 《南京邮电大学学报(自然科学版)》 北大核心 2025年第4期36-47,共12页
针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应... 针对现有基于经验模态分解的心音去噪算法在进行模态分解后存在心脏杂音与噪声模态混叠的问题,提出了一种基于自适应噪声完全集合经验模态分解(Complete Ensemble Empirical Mode Decomposition with Adaptive Noise,CEEMDAN)与自适应双阈值小波分析的心音去噪算法。首先,通过CEEMDAN方法,将含噪心音信号分解为不同时间尺度上的固有模态函数(Intrinsic Mode Function,IMF)分量;然后,采用去趋势波动分析(Detrended Fluctuation Analysis,DFA)方法将不同的IMF分量判定为含噪的心脏杂音IMF分量或心音IMF分量;接着,利用小波分析技术,滤除含噪心脏杂音IMF分量中的噪声,保留含有病理特征的心脏杂音;最后,将保留下来的心脏杂音与心音IMF分量进行重构,得到去噪后的心音信号。在Khan数据集上的实验结果表明,在不同噪声强度下,所提出的心音去噪算法均能明显提高心音信号的信噪比,降低均方根误差,优于其他现有方法。对临床采集的新生儿心音信号进行去噪的实验结果表明,所提算法具有良好的抑制噪声能力,并保留了含有病理特征的心脏杂音。 展开更多
关键词 心音去噪 自适应噪声完全集合经验模态分解 去趋势波动分析 小波分析 心脏杂音
在线阅读 下载PDF
网络剪枝与知识蒸馏相结合的轻量级鸟声识别方法
6
作者 申小虎 李冠宇 +1 位作者 史洪飞 王传之 《应用声学》 北大核心 2025年第2期350-361,共12页
在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络... 在鸟声识别应用中,算法模型多数采用参数密集型,缺少能够搭载至被动声学监测设备的高效网络。针对EfficientNet网络结构特点,将结构化剪枝与知识蒸馏方法相结合,确保剪枝后的网络保持良好的泛化能力,能够满足不同资源配置条件下的网络需求。一方面,通过逆背包准则建立了剪枝通道与资源间的信息表述,在保留网络框架条件下完成通道剪枝。另一方面,在知识蒸馏方法中通过加入MBConv模块内部蒸馏损失分量并完成训练,确保跨组信息交换保留了剪枝前后特征映射之间的距离。通过对南京浦口区老山森林中收集的10类鸟声检测分类实验,在压缩后网络参数量仅3.0M的条件下,分类精度可达到91.64%。该文所提方法在完成网络规模压缩的同时,较好地保留了分类精度,与相同规模主流轻量级网络相比较,能更好地适应鸟声识别被动声学监测的设备需求。 展开更多
关键词 网络剪枝 知识蒸馏 鸟声识别 轻量级网络 被动声学监测
在线阅读 下载PDF
基于自适应多分支卷积的声学场景分类
7
作者 韦娟 何德华 宁方立 《系统工程与电子技术》 北大核心 2025年第10期3148-3154,共7页
针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类... 针对声学场景分类任务中模型特征表达能力不充足的问题,提出一种基于自适应多分支卷积优化的网络架构。首先,使用多支路分别提取特征,再引入动态权重自适应改变权值平衡每个支路,提升特征感知能力。其次,考虑现有模型分类时忽略类与类之间的关系问题,引入粗粒度分类器辅助训练原分类模型,通过结果融合增强分类过程。在TUT2020移动开发数据集上进行训练与测试。实验结果表明,相较于优化前的算法,所提模型在准确率上提升了6.5%,证明所提方法可以有效提升整体分类效果。 展开更多
关键词 声学场景分类 卷积神经网络 自适应特征融合 层次结构
在线阅读 下载PDF
基于非同步测量的高分辨率声源定位
8
作者 韦娟 冯鹏 宁方立 《通信学报》 北大核心 2025年第2期123-135,共13页
针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建... 针对非同步测量声源定位方法在低信噪比条件下存在主瓣较宽、易受旁瓣干扰等问题,提出一种子空间逼近算法与截断函数波束成形联合的非同步测量声源定位算法。该算法首先对缺省互谱矩阵进行奇异值分解,通过截断阈值保留主要奇异向量构建低维子空间,继而将缺省互谱矩阵投影到子空间,寻找最优解来补全矩阵。补全后的互谱矩阵通过截断函数波束成形算法实现声源定位。仿真和实验结果表明,与基于核范数最小化及其衍生模型的算法相比,所提算法在低信噪比条件下能够有效减小主瓣宽度、抑制旁瓣数量,矩阵补全误差平均降低了17.6%、声源重构误差平均降低了27%,证明该算法具有良好的鲁棒性和抗噪性。 展开更多
关键词 非同步测量 声源定位 矩阵补全 子空间逼近
在线阅读 下载PDF
基于子张量重构的宽带信号DOA估计
9
作者 韦娟 陈茂楠 宁方立 《通信学报》 北大核心 2025年第8期31-40,共10页
针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优... 针对现有宽带信号波达方向估计算法在低信噪比和低快拍条件下估计精度下降的问题,提出一种基于子张量重构的宽带信号DOA估计算法。该算法首先将原始张量沿横轴和纵轴分割成多个子张量,经重拼接形成多维张量,再通过张量维度合并重构为优化后的三维张量。然后采用基于张量核范数的低秩张量补全算法对重构张量进行高效补全,并利用张量分解算法得到信号子空间,实现DOA估计。仿真和实验结果表明,所提算法在低信噪比条件下,DOA估计的均方根误差明显优于已有算法,在快拍数低至20时仍有稳定的估计性能,这表明所提算法具有良好的抗噪性和快拍鲁棒性。 展开更多
关键词 波达方向估计 宽带信号 张量重构 张量补全
在线阅读 下载PDF
基于复倒谱的盲解卷积语音去混响技术的研究 被引量:1
10
作者 闫姝 侯志伟 《电脑编程技巧与维护》 2025年第4期154-156,共3页
对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技... 对于语音信号的增强,语音信号去混响技术起着至关重要的作用。将最小相位分解法和复倒谱盲解卷积语音去混响技术结合在一起,首先,将混响语音信号分帧并加窗预处理。然后,进行房间冲激响应及其逆系统冲激响应的估计,同时基于盲解卷积技术设计对应的逆滤波器,重构原始语音信号,从而实现去混响的目的。仿真研究表明该方法较好地恢复了原始语音信号,效果优于最小相位分解法,具有一定的理论指导意义。 展开更多
关键词 复倒谱 盲解卷积 语音去混响 语音增强
在线阅读 下载PDF
基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离
11
作者 王春丽 刘素倩 陈善立 《信号处理》 北大核心 2025年第4期718-729,共12页
针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合... 针对在含有噪声和混响的复杂环境中对未知说话人语音分离任务的研究,提出了一种基于多尺度可变形注意力编码与多路径融合的未知说话人语音分离模型。现有的针对未知说话人的语音分离模型是在纯净的实验环境条件下分析的模型性能,不符合现实中复杂的背景环境需求。为使模型可以在现实应用复杂条件下灵活应对混合语音信号中的多变性与非平稳性,采用多尺度可变形注意力机制与Transformer编码器构成(Transformer Encoder Multi-Scale deformable attention,TEMDA)模块,利用多尺度可变形注意力机制的偏移层在不同位置上进行动态计算,扩展模型的感受野,同时使模型更有效地聚焦于重要的时间点,减少噪声和混响的影响。为了更好地获取上下文信息,在多路径融合策略中,通过在双路径模块的基础上增加通道间的Conformer组成三路径模块,用于提取多说话人之间的特征信息,这样的处理方式可以更好地融合单一说话人和多说话人之间的信息,提升语音分离性能。实验表明,所提出的模型分别在纯净和带噪声的Libri2Mix、Libri3Mix数据集上达到了显著的分离效果,并且在LRS2-2Mix数据集中模型可以更好地减少噪声和混响对语音分离的影响,尺度不变信噪比改善(Scale-Invariant Signal-to-Noise Ratio Improvement,SI-SNRi)和信号失真比改善(Signal-to-Distortion Ratio Improvement,SDRi)分别为14.7 dB和15.1 dB;在三个说话人数目中的估计精度为98.89%,提升了0.12%。 展开更多
关键词 未知说话人语音分离 多尺度可变形注意力编码策略 多路径融合 吸引子估计
在线阅读 下载PDF
基于STM32的辨音识键奏乐系统设计
12
作者 张凯 梁明亮 +1 位作者 杨鲜鲜 王云飞 《电子制作》 2025年第18期20-26,共7页
本系统采用STM32F407ZGT6微控制器,该芯片内置硬件浮点运算单元(FPU)和DSP指令集,界面切换操作通过4×4矩阵键盘进行,显示功能由LCD12864液晶屏显示实现。在音频采集与处理模块中,系统通过麦克风采集声音信号,并将其转换为电压信号... 本系统采用STM32F407ZGT6微控制器,该芯片内置硬件浮点运算单元(FPU)和DSP指令集,界面切换操作通过4×4矩阵键盘进行,显示功能由LCD12864液晶屏显示实现。在音频采集与处理模块中,系统通过麦克风采集声音信号,并将其转换为电压信号,送入微控制器的ADC模块进行采样。主控通过FFT(快速傅里叶变换)算法对采集到的数据进行频谱分析,完成对不同杯子敲击声的特征学习与识别。由JQ8900语音模块实现播放乐曲和对应音调,完成奏乐功能。本系统能够运行在人多嘈杂的环境,经测试完成各项功能,性能良好。 展开更多
关键词 FFT算法 音频检测 3D打印
在线阅读 下载PDF
域对抗神经网络自适应的跨域说话人日志方法
13
作者 牛铜 焦啸林 屈丹 《信息工程大学学报》 2025年第4期379-385,共7页
针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务... 针对端到端说话人日志系统因真实标注数据不足导致泛化性能差的问题,提出一种基于域对抗神经网络自适应的跨域说话人日志方法。首先,通过在说话人日志中增加包含时间池化层的数据域判别模型;其次,利用梯度反转层实现说话人日志分类任务与数据域判别任务的对抗训练;最后,完成在数据域上的自适应。实验对比不同模型在真实场景下的性能,所提模型整体性能优于其他模型。相较于基线模型,数据域不匹配时,两个说话人场景相对提升4.91%,3个说话人场景相对提升5.41%;数据域匹配时,分别相对提升3.81%和5.14%。实验结果表明,所提方法通过降低特征对域信息的敏感性有效提升系统跨域泛化能力。 展开更多
关键词 说话人日志 域对抗神经网络 梯度翻转层 对抗训练 注意力统计池化
在线阅读 下载PDF
An Improved Forest Fire Detection Model Using Audio Classification and Machine Learning
14
作者 Kemahyanto Exaudi Deris Stiawan +4 位作者 Bhakti Yudho Suprapto Hanif Fakhrurroja MohdYazid Idris Tami AAlghamdi Rahmat Budiarto 《Computers, Materials & Continua》 2026年第1期2062-2085,共24页
Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstruc... Sudden wildfires cause significant global ecological damage.While satellite imagery has advanced early fire detection and mitigation,image-based systems face limitations including high false alarm rates,visual obstructions,and substantial computational demands,especially in complex forest terrains.To address these challenges,this study proposes a novel forest fire detection model utilizing audio classification and machine learning.We developed an audio-based pipeline using real-world environmental sound recordings.Sounds were converted into Mel-spectrograms and classified via a Convolutional Neural Network(CNN),enabling the capture of distinctive fire acoustic signatures(e.g.,crackling,roaring)that are minimally impacted by visual or weather conditions.Internet of Things(IoT)sound sensors were crucial for generating complex environmental parameters to optimize feature extraction.The CNN model achieved high performance in stratified 5-fold cross-validation(92.4%±1.6 accuracy,91.2%±1.8 F1-score)and on test data(94.93%accuracy,93.04%F1-score),with 98.44%precision and 88.32%recall,demonstrating reliability across environmental conditions.These results indicate that the audio-based approach not only improves detection reliability but also markedly reduces computational overhead compared to traditional image-based methods.The findings suggest that acoustic sensing integrated with machine learning offers a powerful,low-cost,and efficient solution for real-time forest fire monitoring in complex,dynamic environments. 展开更多
关键词 Audio classification convolutional neural network(CNN) environmental science forest fire detection machine learning spectrogram analysis IOT
在线阅读 下载PDF
基于深度双向门控循环网络的回声消除算法
15
作者 陈丽丽 郭莹 《微处理机》 2025年第2期33-36,共4页
本研究旨在提升语音通信系统的用户体验,针对双讲情景下传统自适应滤波算法存在的非线性回声残留、噪声抑制及语音质量下降问题,提出一种基于深度双向门控循环单元网络的回声和噪声联合消除算法。该算法通过全连接网络提取语音序列特征... 本研究旨在提升语音通信系统的用户体验,针对双讲情景下传统自适应滤波算法存在的非线性回声残留、噪声抑制及语音质量下降问题,提出一种基于深度双向门控循环单元网络的回声和噪声联合消除算法。该算法通过全连接网络提取语音序列特征,以理想比值掩蔽(IRM)为目标训练模型,并结合相位信息进行语音重建。采用融合型损失函数RMAE增强模型鲁棒性。实验结果表明,该算法在双向通话、非线性回声和噪声环境下,显著提升了语音质量和可懂度,优于传统及其他深度学习算法。 展开更多
关键词 声学回声消除 非线性回声 融合型损失函数 双向门控循环单元
在线阅读 下载PDF
基于智能语音处理的诈骗电话实时预警系统设计与实现
16
作者 张卫强 张文林 +2 位作者 黄文林 郝朝龙 杨鹏飞 《警察技术》 2025年第2期35-38,共4页
近年来,通信技术和人工智能的快速发展使电话诈骗手段日趋专业化、智能化和多样化,对社会安全构成严重威胁。设计并实现了一套基于智能语音处理的诈骗电话实时预警系统,通过语音样本快速比对、高精度声纹识别和语种方言识别、无语音识... 近年来,通信技术和人工智能的快速发展使电话诈骗手段日趋专业化、智能化和多样化,对社会安全构成严重威胁。设计并实现了一套基于智能语音处理的诈骗电话实时预警系统,通过语音样本快速比对、高精度声纹识别和语种方言识别、无语音识别的关键词快速检测等技术,可在海量语音环境中高效提取诈骗电话特征,实现对诈骗电话的精准识别,为相关部门提供实时预警信息,有效保护人民群众财产安全。实际应用表明,该系统预警准确率达到95%,显著提升了反诈效率,为打击电信网络诈骗提供了强有力的技术支持。 展开更多
关键词 智能语音处理 诈骗电话 实时预警
在线阅读 下载PDF
语音语义与文本处理专栏
17
作者 高雪瑶 《中北大学学报(自然科学版)》 2025年第1期I0001-I0001,共1页
专栏导语神经网络和深度学习的快速发展,促使语言语音处理技术的性能得到了进一步提升,使得这一领域在诸多应用中彰显出巨大潜力。本专栏聚焦于情感分析、文本匹配、语音分类三大核心方向,遴选了3篇代表性研究成果。这些成果不仅提出了... 专栏导语神经网络和深度学习的快速发展,促使语言语音处理技术的性能得到了进一步提升,使得这一领域在诸多应用中彰显出巨大潜力。本专栏聚焦于情感分析、文本匹配、语音分类三大核心方向,遴选了3篇代表性研究成果。这些成果不仅提出了新的网络模型,还通过深度模型的精细化调优,有效提升了分析、匹配和分类的精确度与效率,为推荐系统研发、社交媒体分析、金融分析、高校评教和口吃语音分类等多个领域注入了技术动力。本专栏旨在引领读者探索这些技术进步如何不断拓展语言语音处理的边界,精准响应各行业对高性能语言语音处理技术的迫切需求。 展开更多
关键词 深度学习 语音处理技术 文本处理 情感分析 神经网络 网络模型 研究成果 系统研发
在线阅读 下载PDF
一种改进的NLMS算法用于数字助听器中的回声消除
18
作者 孙祥娥 聂冰霞 《长江大学学报(自然科学版)》 2025年第4期111-118,共8页
除了降低用户的听觉效果和佩戴舒适度外,数字助听器中的回声也很容易形成啸叫,从而导致系统的不稳定。为了保持自适应算法的收敛速度与稳态误差之间的平衡,研究了助听器中的回声消除模型和自适应回声消除算法,并提出了一种改进的归一化... 除了降低用户的听觉效果和佩戴舒适度外,数字助听器中的回声也很容易形成啸叫,从而导致系统的不稳定。为了保持自适应算法的收敛速度与稳态误差之间的平衡,研究了助听器中的回声消除模型和自适应回声消除算法,并提出了一种改进的归一化最小均方(normalized least mean square,NLMS)算法。该方法引入误差信号自动调整步长因子,以加快滤波器收敛和降低稳态误差。仿真结果表明,改进算法在回声消除方面表现出更好的性能。通过比较算法的均方误差(mean square error,MSE)曲线,改进算法具有更好的收敛速度和稳态误差,平均均方误差比NLMS算法低4.01 dB。改进后的NLMS算法性能良好,耗时相对较短,易于实现。 展开更多
关键词 回声消除 数字助听器 自适应滤波器 自适应算法
在线阅读 下载PDF
DRM系统中AAC音频编码的设计与实现
19
作者 王明伟 蔡瞻程 +2 位作者 王文畅 王永峰 焦鹏原 《广播电视网络》 2025年第11期37-41,共5页
本文系统分析了DRM系统中音频编码技术的关键环节及其实现方法,重点阐述了AAC作为核心技术的应用,包括心理声学模型、MDCT滤波器组、时域噪声成形等模块的技术原理及其对音质和压缩效率的优化作用。同时,本文探讨了音频帧与超帧的组帧规... 本文系统分析了DRM系统中音频编码技术的关键环节及其实现方法,重点阐述了AAC作为核心技术的应用,包括心理声学模型、MDCT滤波器组、时域噪声成形等模块的技术原理及其对音质和压缩效率的优化作用。同时,本文探讨了音频帧与超帧的组帧规则,确保编码数据符合DRM系统的传输需求,详细解析了从PCM音频数据到编码数据流的转换流程,覆盖初始化、参数设置与数据处理等具体步骤。研究结果显示,AAC编码技术在DRM系统中可以实现高效传输和高音质播放,为数字广播的音频编码设计提供了技术参考。 展开更多
关键词 DRM 数字广播 AAC编码 音频帧
在线阅读 下载PDF
基于DSP的语音信号处理系统设计
20
作者 郭振铎 《电子制作》 2025年第8期92-94,共3页
语音信号数字化后可广泛应用于电话通信、语音识别和语音合成等领域,具有重要的价值。本文设计了一种语音采集和回放系统,以数字信号处理芯片TMS320VC5509A为主处理器,使用语音芯片TLV320AIC23完成对语音信号的采集和输出,可应用于语音... 语音信号数字化后可广泛应用于电话通信、语音识别和语音合成等领域,具有重要的价值。本文设计了一种语音采集和回放系统,以数字信号处理芯片TMS320VC5509A为主处理器,使用语音芯片TLV320AIC23完成对语音信号的采集和输出,可应用于语音采集、存储、处理和分析等领域。经验证,系统处理速度快、回放声音清晰,达到了预期。 展开更多
关键词 数字信号处理器 语音信号 采集 回放
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部