期刊文献+
共找到220篇文章
< 1 2 11 >
每页显示 20 50 100
低资源环境下的语音唤醒研究综述
1
作者 王月昊 周若华 《计算机工程》 北大核心 2025年第2期35-53,共19页
语音唤醒作为实现人机交互的关键技术,一直是语音领域的研究热点。随着深度学习技术的发展,其研究方法的重心已从传统的大词汇连续语音识别(LVCSR)技术逐渐转向基于神经网络的技术,然而如何在小型设备上实现高效唤醒并利用有限的样本数... 语音唤醒作为实现人机交互的关键技术,一直是语音领域的研究热点。随着深度学习技术的发展,其研究方法的重心已从传统的大词汇连续语音识别(LVCSR)技术逐渐转向基于神经网络的技术,然而如何在小型设备上实现高效唤醒并利用有限的样本数据进行模型训练仍是低资源语音唤醒系统设计面临的挑战。首先,定义了语音唤醒中的低资源概念,区分了语音唤醒和语音识别以及相关术语,介绍了经典的语音唤醒模型及其适配场景,阐述了低资源语音唤醒的国内外研究现状。其次,从语音唤醒系统的结构组成的角度分别说明了声学特征提取与声学模型的主流技术和优化策略。然后,对语音唤醒模型的轻量化方法展开分析并对其优缺点进行比较,总结了数据低资源语音唤醒中常见的小样本学习、零样本学习、迁移学习等解决方法,并介绍了常见语音唤醒数据集和评价指标。最后,探讨并展望了低资源语音唤醒技术未来的研究方向。 展开更多
关键词 语音唤醒 低资源 模型量化 小样本学习 人机交互
在线阅读 下载PDF
混合策略改进的粒子群算法 被引量:7
2
作者 朱茂桃 刘欢 +1 位作者 吴佘胤 商高高 《重庆理工大学学报(自然科学)》 CAS 北大核心 2024年第1期110-121,共12页
针对粒子群算法易陷入局部最优、收敛精度低、收敛速度慢等缺陷,提出了基于混合策略的改进粒子群算法。使用融合Circle映射与精英反向学习的策略初始化种群,提升初始种群的质量,同时加快收敛速度;在粒子速度更新方式中引入蜘蛛移动策略... 针对粒子群算法易陷入局部最优、收敛精度低、收敛速度慢等缺陷,提出了基于混合策略的改进粒子群算法。使用融合Circle映射与精英反向学习的策略初始化种群,提升初始种群的质量,同时加快收敛速度;在粒子速度更新方式中引入蜘蛛移动策略平衡算法的全局搜索与局部搜索;提出了基于自适应t分布的变异策略,增强算法全局搜索和跳出局部最优能力;对15个单峰和多峰函数进行仿真实验,与其他3种算法进行了对比分析,结果表明:所提出的改进算法具有很强的寻优能力与稳定性。 展开更多
关键词 粒子群优化算法 蜘蛛优化 自适应t分布
在线阅读 下载PDF
基于2D-CNN和Cox-Stuart早停机制的癫痫预测模型
3
作者 张喜珍 张晓莉 +1 位作者 吕洋 陈扶明 《中国医学物理学杂志》 2025年第1期82-94,共13页
针对如何有效预测癫痫患者是否将要发病这一问题,提出一种基于非独立患者的2维卷积神经网络(2D-CNN)和Cox-Stuart检验法的癫痫预测模型方法。首先对脑电数据做归一化处理,使用陷波滤波器和高通滤波器滤除脑电信号的噪声;将滤波后的信号... 针对如何有效预测癫痫患者是否将要发病这一问题,提出一种基于非独立患者的2维卷积神经网络(2D-CNN)和Cox-Stuart检验法的癫痫预测模型方法。首先对脑电数据做归一化处理,使用陷波滤波器和高通滤波器滤除脑电信号的噪声;将滤波后的信号输入到2D-CNN模型中进行特征提取和分类,使用Cox-Stuart方法检测是否需要早停,从而降低模型的计算复杂度和时间复杂度。此外,分别在发作前期为10、30、60 min的情况下对模型进行测试,结果显示,发作前期为10 min时,模型的效果最优。在测试集上的准确率为97.70%,灵敏度为97.36%,特异性为98.04%,具有良好的性能。 展开更多
关键词 癫痫 预测 Cox-Stuart检验法 2D-CNN 深度学习
在线阅读 下载PDF
基于Logistic模型的翻译机器人语义自动校准方法
4
作者 胡志坤 《电子设计工程》 2025年第3期47-52,共6页
针对翻译机器人在语义翻译过程中由于翻译误差容易导致翻译结果与原始语言意图不符的问题,提出一种基于Logistic模型的语义自动校准方法。通过语音识别模块将语音信号映射为语义文本,对识别的语义文本进行处理,通过改进的广义线性回归模... 针对翻译机器人在语义翻译过程中由于翻译误差容易导致翻译结果与原始语言意图不符的问题,提出一种基于Logistic模型的语义自动校准方法。通过语音识别模块将语音信号映射为语义文本,对识别的语义文本进行处理,通过改进的广义线性回归模型(GLR)进行误差检测,并基于Logistic模型对翻译结果进行特征分析,预测流畅度以及准确度,实现语义自动校准。设计了针对翻译机器人语义自动校准的对比实验,实验结果表明,与基于Seq2Seq模型的翻译机器人语义自动校准方法相比,所研究方法语义校准的准确率为98%~100%,BLEU评分为35,语义校准时间为8.5~9.4 s。 展开更多
关键词 语义校准 广义线性回归 LOGISTIC模型 一维映射 相似度
在线阅读 下载PDF
融合注意力机制的ResNeXt语音欺骗检测模型 被引量:1
5
作者 张旺 杨乘 罗娅娅 《计算机应用与软件》 北大核心 2024年第8期298-302,共5页
针对残差神经网络在语音欺骗检测中存在超参数过多且对于高频特征显著性突出不够的问题,提出一种融合注意力机制的ResNeXt-Attention网络(RA-Net)。RA-Net采用残差结合分组卷积的方式,用一组小卷积核代替大卷积核,且采用MFM(Max Feature... 针对残差神经网络在语音欺骗检测中存在超参数过多且对于高频特征显著性突出不够的问题,提出一种融合注意力机制的ResNeXt-Attention网络(RA-Net)。RA-Net采用残差结合分组卷积的方式,用一组小卷积核代替大卷积核,且采用MFM(Max Feature Map)作为新的拼接方法。加入的注意力机制通过学习原始特征的信息,减少了对边缘信息的关注。在ASVspoof2019数据集上实验表明,RA-Net相比基准线高斯混合模型(GMM)的等错误率(EER)降低了4.72百分点和6.23百分点,与残差网络(Residal Neural Network,ResNet)相比EER降低了0.69百分点和0.89百分点,证明了该模型的有效性。 展开更多
关键词 语音欺骗检测 ResNeXt MFM 注意力机制 RA-Net
在线阅读 下载PDF
基于机器视觉3D测量技术的锂电池极柱检测系统设计 被引量:1
6
作者 龙淑嫔 陈胜利 +1 位作者 陈宁 吴易骏 《机电工程技术》 2024年第12期55-60,共6页
锂电池为新能源汽车的主要动力源,是新能源汽车的重要部件,其质量对汽车运行安全影响非常大。因此在生产过程中,锂电池电池盒顶盖和极柱的质量需要进行严格把控,确保投入使用的产品质量可靠安全。基于锂电池极柱检测的需求特性和检测精... 锂电池为新能源汽车的主要动力源,是新能源汽车的重要部件,其质量对汽车运行安全影响非常大。因此在生产过程中,锂电池电池盒顶盖和极柱的质量需要进行严格把控,确保投入使用的产品质量可靠安全。基于锂电池极柱检测的需求特性和检测精度,采用3D机器视觉技术,结合3D视觉图像处理软件,对锂电池极柱检测系统进行了研究和设计。对锂电池极柱检测项目的要求和精度进行分析,进行了3D相机的选型和测试;依据锂电池极柱检测特性,进行了检测试验台的设计和开发;依据锂电池极柱检测内容,进行了检测图像处理和数据分析系统的设计及程序编写。对设计和研发系统开展了产品测试实验,对锂电池电池盒顶盖和极柱等进行了16次动态测试,测试结果显示重复精度为0.011~0.015 mm,单次测量时间为1.5 s,产能可以达到1200 pcs/h。测试数据显示该设备能够准确检测出锂电池电池盒顶盖和极柱所有项目的精度和质量,稳定性和可靠性高,满足企业自动化生产、高精度检测需求,提高生产效率。 展开更多
关键词 锂电池 极柱 3D机器视觉 平行度 平面度
在线阅读 下载PDF
融合注意力机制轻量级网络的语声情感识别
7
作者 冀常鹏 佟婷婷 代巍 《应用声学》 CSCD 北大核心 2024年第4期892-899,共8页
在语声情感识别过程中,为解决缺乏方言数据库、识别模型准确率低等问题,建立辽西方言语声情感数据库,并提出一种融合注意力机制轻量级网络的语声情感识别模型。模型由特征组合网络、CBAM注意力机制、深度卷积网络及输出层四部分组成。利... 在语声情感识别过程中,为解决缺乏方言数据库、识别模型准确率低等问题,建立辽西方言语声情感数据库,并提出一种融合注意力机制轻量级网络的语声情感识别模型。模型由特征组合网络、CBAM注意力机制、深度卷积网络及输出层四部分组成。利用3个大小不同的并行卷积提取浅层语声特征并进行拼接;引入CBAM注意力模块将空间特征与通道特征融合;融合后的特征输入深度卷积网络,提取语声深层次特征,输出多维特征向量;输出层对语声进行情感分类识别。模型在IEMOCAP、Emo-DB和自建辽西语声情感数据库上验证,分别取得82.5%、96.2%和90.8%的准确率。实验结果表明,与其他深度学习的模型相比,该文提出的模型在参数量更少的同时识别率更高。 展开更多
关键词 语声情感识别 辽西方言 深度学习 轻量级
在线阅读 下载PDF
基于Conformer的端到端语音识别方法 被引量:3
8
作者 胡从刚 申艺翔 +1 位作者 孙永奇 赵思聪 《计算机应用研究》 CSCD 北大核心 2024年第7期2018-2024,共7页
针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将... 针对Conformer编码器的声学输入网络对FBank语音信息提取不足和通道特征信息缺失问题,提出一种RepVGG-SE-Conformer的端到端语音识别方法。首先,利用RepVGG的多分支结构,增强模型的语音信息提取能力,而在模型推理时通过结构重参数化将多分支融合为单分支,以降低计算复杂度、加快模型推理速度。然后,利用基于压缩和激励网络的通道注意力机制弥补缺失的通道特征信息,以提高语音识别准确率。最后,在公开数据集Aishell-1上的实验结果表明:相较于Conformer,所提出方法的字错误率降低了10.67%,验证了方法的先进性。此外,RepVGG-SE声学输入网络能够有效提高多种Transformer变体的端到端语音识别模型的整体性能,具有很好的泛化能力。 展开更多
关键词 语音识别 CONFORMER RepVGG 压缩和激励网络
在线阅读 下载PDF
基于变分模态分解的肺音去噪算法 被引量:5
9
作者 孙文慧 张乙鹏 +1 位作者 林冬梅 陈扶明 《中国医学物理学杂志》 CSCD 2024年第4期479-485,共7页
目的:为有效提高肺音信号质量,提出一种基于变分模态分解的肺音去噪方法。方法:首先利用经验模态分解对带噪肺音信号进行分解,根据本征模态函数特征确定最佳分解层数,然后根据分解层数对原始带噪肺音进行变分模态分解处理,接着根据皮尔... 目的:为有效提高肺音信号质量,提出一种基于变分模态分解的肺音去噪方法。方法:首先利用经验模态分解对带噪肺音信号进行分解,根据本征模态函数特征确定最佳分解层数,然后根据分解层数对原始带噪肺音进行变分模态分解处理,接着根据皮尔逊系数选取有用模态,最后采用阈值方法对各模态函数去噪,重构后得到没有噪声干扰的肺音信号。结果:通过与维纳滤波和FIR滤波进行对比,本文方法的语音质量感知评价、短时间客观可读性和源信号失真比均更优。结论:本文方法能有效对肺音信号进行去噪处理。 展开更多
关键词 肺音去噪 变分模态分解 经验模态分解
在线阅读 下载PDF
基于Gabor、Fisher脸多特征提取及集成SVM的人脸表情识别 被引量:15
10
作者 黄永明 章国宝 +1 位作者 董飞 达飞鹏 《计算机应用研究》 CSCD 北大核心 2011年第4期1536-1539,1543,共5页
针对静态的灰度图像表情库,提出了基于多种脸部表情特征多级分类的表情识别算法。首先在选取的人脸特征点上作局部的Gabor小波变换。为了提高特征提取速度,利用改进的弹性图匹配算法来提取图像中的人脸有效区域,在提取的人脸区域中提取... 针对静态的灰度图像表情库,提出了基于多种脸部表情特征多级分类的表情识别算法。首先在选取的人脸特征点上作局部的Gabor小波变换。为了提高特征提取速度,利用改进的弹性图匹配算法来提取图像中的人脸有效区域,在提取的人脸区域中提取几何特征,并通过Fisher脸法提取统计特征,利用几何特征与建立的相应一级集成SVM来进行初次分类。最后利用Fisher特征与建立的相应二级集成SVM进行最终分类。通过在JAFFE与Cohn-Kanade表情库中实验,证明该方法与单个特征相比较,具有更高的表情识别率以及更强的鲁棒性。 展开更多
关键词 表情识别 改进的弹性模板 GABOR小波变换 FISHER脸 集成支持向量机 分类器级联
在线阅读 下载PDF
消除信号趋势项时小波基优选方法研究 被引量:20
11
作者 吴志成 王重阳 任爱君 《北京理工大学学报》 EI CAS CSCD 北大核心 2013年第8期811-814,共4页
在消除信号趋势项时引入小波基函数对信号进行分解和重构.小波基函数的选择会影响消除信号趋势项后的结果.提出了消趋误差指数的概念及其计算公式,并使用该公式计算了34种常用小波基的消趋误差指数,优选出sym10等6种消趋误差指数较小的... 在消除信号趋势项时引入小波基函数对信号进行分解和重构.小波基函数的选择会影响消除信号趋势项后的结果.提出了消趋误差指数的概念及其计算公式,并使用该公式计算了34种常用小波基的消趋误差指数,优选出sym10等6种消趋误差指数较小的小波基.使用sym10小波基及另外两种非优选小波基对实测的汽车车身振动加速度信号进行消除趋势项处理.结果表明,使用sym10小波基提取的信号趋势项比其它非优选小波基更为准确,验证了提出的消趋误差指数计算公式的有效性. 展开更多
关键词 小波分析法 信号趋势项 小波基
在线阅读 下载PDF
自适应秩约束逆矩阵近似分解及其在语音增强中的应用
12
作者 王强进 吴占涛 +1 位作者 李宝庆 杨宇 《计算机应用研究》 CSCD 北大核心 2024年第11期3389-3393,共5页
针对低秩约束和稀疏矩阵分解(constrained low-rank and sparse matrix decomposition, CLSMD)方法中硬阈值可能导致降噪后的语音信号分量丢失或出现孤立噪声问题,提出了一种自适应秩约束逆矩阵近似(adaptive rank constrained inverse ... 针对低秩约束和稀疏矩阵分解(constrained low-rank and sparse matrix decomposition, CLSMD)方法中硬阈值可能导致降噪后的语音信号分量丢失或出现孤立噪声问题,提出了一种自适应秩约束逆矩阵近似(adaptive rank constrained inverse matrix approximation, ARCIMA)分解方法。该方法首先采用能量阈值法初步估计低秩矩阵秩值,然后从语音信号子空间矩阵的结构特性出发,采用修正双边随机投影(modified bilateral random projections, MBRP)方法求解代表纯净语音信号的低秩矩阵,降低使用SVD方法的计算量,并通过Tikhonov正则化优化方法改善迭代求解过程中解的病态性。实验结果表明,该方法相比经典方法在多种噪声环境下取得了更好的PESQ得分,并且增强语音的时域波形也更接近原始信号的波形。该方法去噪性能在低信噪比噪声条件下具有优势。 展开更多
关键词 自适应秩约束逆矩阵近似 修正双边随机投影 语音增强
在线阅读 下载PDF
基于参数优化的最小二乘支持向量机HEV阀控铅酸蓄电池SOC预测 被引量:11
13
作者 王琪 孙玉坤 黄永红 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2015年第1期113-119,共7页
针对电池容量预测问题,引入最小二乘支持向量机(LS-SVM)方法用于判断混合动力汽车(HEV)阀控铅酸蓄电池(VRLA)的荷电状态(SOC)。考虑到最小二乘支持向量机的参数选择会对预测结果产生较大的影响,提出一种基于参数优化的最小二乘支持向量... 针对电池容量预测问题,引入最小二乘支持向量机(LS-SVM)方法用于判断混合动力汽车(HEV)阀控铅酸蓄电池(VRLA)的荷电状态(SOC)。考虑到最小二乘支持向量机的参数选择会对预测结果产生较大的影响,提出一种基于参数优化的最小二乘支持向量机预测方法。首先,在非线性回归预测模型的训练过程中,采用模拟退火算法来确定LS-SVM的初始值参数,从而更好地反映预测模型的复杂度,以此提高状态预测的精度。其次,由于预测模型在应对不良数据时可能出现误差增大的问题,分别采用贝叶斯证据框架(BEF)优化算法和留一交叉验证(LOOCV)优化算法来增强预测模型的抗差能力。研究结果表明:留一交叉验证优化算法具有较高的预测精度,实用性强,有效性高。 展开更多
关键词 蓄电池 荷电状态 最小二乘支持向量机 参数优化 预测
在线阅读 下载PDF
类别不平衡学习识别UWB定位非视距信号 被引量:7
14
作者 缪志敏 赵陆文 +1 位作者 田世伟 姜劲松 《信号处理》 CSCD 北大核心 2016年第1期8-13,共6页
非视距(Non Line of Sight,NLOS)传播是影响超宽带(Ultra-wide Bandwidth,UWB)定位精度的一个重要因素。针对UWB定位中视距(Line of Sight,LOS)信号数量大于NLOS信号数量所呈现的类别不平衡特点,提出了一种基于类别不平衡学习的NLOS信... 非视距(Non Line of Sight,NLOS)传播是影响超宽带(Ultra-wide Bandwidth,UWB)定位精度的一个重要因素。针对UWB定位中视距(Line of Sight,LOS)信号数量大于NLOS信号数量所呈现的类别不平衡特点,提出了一种基于类别不平衡学习的NLOS信号识别方法。该方法通过给NLOS信号和LOS信号赋予不同的误分代价来训练一个带野值的支持向量数据描述(Support Vector Data Description,SVDD)学习器,实现对数量少但重要的NLOS信号的识别。仿真结果表明,当LOS信号数量远大于NLOS信号数量时,该方法对NLOS信号的识别性能优于支持向量机(Support Vector Machine,SVM)。 展开更多
关键词 超宽带定位 非视距 支持向量数据描述 类别不平衡学习
在线阅读 下载PDF
基于SVM的多分类器融合算法在说话人识别中的应用 被引量:5
15
作者 王波 徐毅琼 李弼程 《计算机工程与设计》 CSCD 北大核心 2007年第12期2909-2910,2913,共3页
多分类器协同合作克服了单个分类器识别效果不理想,适用范围较窄或对使用环境要求较高的不足,并为研制更高性能的分类器,提供了解决问题的另一个途径。提出了一种基于SVM的多分类器说话人识别系统,该系统的识别框架基于多分类器的协同... 多分类器协同合作克服了单个分类器识别效果不理想,适用范围较窄或对使用环境要求较高的不足,并为研制更高性能的分类器,提供了解决问题的另一个途径。提出了一种基于SVM的多分类器说话人识别系统,该系统的识别框架基于多分类器的协同工作。该多分类器系统采用了ANN(artificial neural networks)、GMM(gaussian mixed model)分类器和子带结构分类器,参数选取包括MFCC(mel frequency cepstrum coefficient)、LPCC(linear prediction cepstrum coefficient)。多分类器融合采用SVM方法。本系统在超短波信道(15 db)的实际应用中达到94%的识别率。 展开更多
关键词 说话人识别 多分类器协同 子带结构分类器 分层识别 人工神经网络 混合高斯模型 支持向量机
在线阅读 下载PDF
结合轻量卷积的非自回归语音合成方法
16
作者 钟巧霞 曾碧 +1 位作者 林镇涛 林伟 《计算机工程与设计》 北大核心 2024年第4期1166-1172,共7页
对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律... 对如何有效捕捉音素之间的关联及如何合成韵律丰富的音频进行研究,提出一种结合轻量卷积的非自回归语音合成模型LCTTS。引入轻量卷积建立起音素之间的联系,解决发音出错问题。通过添加音高和能量预测器预测生成语音的韵律,解决音频韵律缺乏问题。训练模型获取梅尔频谱,结合预先训练好的声码器转化为音频。实验结果表明,提出的LCTTS模型优于先前提出的SpeedySpeech模型,在Emotional Speech Database数据集上平均意见得分获得2.8%的提升,梅尔倒谱失真测度下降0.15。 展开更多
关键词 语音合成 轻量级卷积 韵律合成 梅尔频谱生成 非自回归方法 深度学习 自然语言处理
在线阅读 下载PDF
MFSC系数特征局部有限权重共享CNN语音识别 被引量:9
17
作者 黄玉蕾 罗晓霞 刘笃仁 《控制工程》 CSCD 北大核心 2017年第7期1507-1513,共7页
针对传统语音识别应用中识别效果不理想的问题,提出一种基于美尔谱系数(MFSC)特征的有限局部权重共享卷积神经网络(CNN)语音识别。首先,借鉴图像处理中对输入图像信息的处理方式,构建语音信号的二维阵列特征映射输入形式,每个映射表示... 针对传统语音识别应用中识别效果不理想的问题,提出一种基于美尔谱系数(MFSC)特征的有限局部权重共享卷积神经网络(CNN)语音识别。首先,借鉴图像处理中对输入图像信息的处理方式,构建语音信号的二维阵列特征映射输入形式,每个映射表示为含静态数据、一阶导数、二阶导数的MFSC系数特征,便于应用图像处理方式进行识别;其次,引入图像处理的卷积神经网络,并且针对语音信号特征的局部特性,构建有限局部权重共享卷积神经网络学习算法,提高语音信号辨识度并降低算法复杂度;最后,通过实验对所提算法进行验证,并且给出算法参数变化影响实验,为具体应用提供依据。 展开更多
关键词 卷积神经网络 局部权重共享 语音识别 特征映射 美尔谱系数
原文传递
基于改进粒子群算法的独立分量分析 被引量:4
18
作者 谭萍 李伟娟 李明 《兰州大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第4期124-128,共5页
提出一种有效的基于改进的粒子群算法的盲源分离算法.首先引入进化速度和聚集强度来更新粒子群算法中的动态惯性权重w,然后定义基于改进PSO的独立分量分析算法的适应性函数,最后给出算法的具体步骤.实验结果表明,改进的ICA算法可以快速... 提出一种有效的基于改进的粒子群算法的盲源分离算法.首先引入进化速度和聚集强度来更新粒子群算法中的动态惯性权重w,然后定义基于改进PSO的独立分量分析算法的适应性函数,最后给出算法的具体步骤.实验结果表明,改进的ICA算法可以快速有效地得到BSS的最优解. 展开更多
关键词 盲源分离 粒子群算法 独立分量分析 语音信号
在线阅读 下载PDF
基于小波变换和CNN-LSTM的肺音分类算法 被引量:4
19
作者 张乙鹏 孙文慧 陈扶明 《中国医学物理学杂志》 CSCD 2024年第3期356-364,共9页
目的:针对如何建立有助于电子听诊诊断的肺音分类模型,提出一种基于卷积神经网络(CNN)-长短期记忆网络(LSTM)的混合深度学习肺音分类模型方法。方法:首先使用小波变换对数据集进行特征提取,使肺音信号转化为能量熵、峰值等特征;在此基... 目的:针对如何建立有助于电子听诊诊断的肺音分类模型,提出一种基于卷积神经网络(CNN)-长短期记忆网络(LSTM)的混合深度学习肺音分类模型方法。方法:首先使用小波变换对数据集进行特征提取,使肺音信号转化为能量熵、峰值等特征;在此基础上构建CNN和LSTM的混合算法分类模型,其中将小波变换提取的特征先输入CNN模块,能够获得数据的空间维度特征,再通过LSTM模块获得数据的时间维度特征,融合两类特征,通过模型可以将肺音分类,从而达到辅助判断患者的肺部疾病。结果:CNN-LSTM混合模型准确率、F1分数均明显高于其他单一模型,可达到0.948和0.950。结论:提出的CNN-LSTM混合模型分类准确率更高,在智能听诊领域具有广泛的潜在应用价值。 展开更多
关键词 肺音分类 小波变换 卷积神经网络 长短期记忆网络
在线阅读 下载PDF
基于两种GMM-UBM多维概率输出的SVM语音情感识别 被引量:2
20
作者 黄永明 章国宝 +1 位作者 董飞 达飞鹏 《计算机应用研究》 CSCD 北大核心 2011年第1期98-101,共4页
针对GMM应用于情感识别时区分能力较弱的缺点,提出了一种将GMM与SVM有效结合的算法:基于GMM-UBM多维概率输出的SVM语音情感识别方法。该方法将GMM-UBM模型对一条语音的情感特征参数的两种多维概率输出(与特征向量同维、与GMM阶数同维)作... 针对GMM应用于情感识别时区分能力较弱的缺点,提出了一种将GMM与SVM有效结合的算法:基于GMM-UBM多维概率输出的SVM语音情感识别方法。该方法将GMM-UBM模型对一条语音的情感特征参数的两种多维概率输出(与特征向量同维、与GMM阶数同维)作为SVM分类器的特征参数,既利用了GMM表征数据本身统计特性的能力,又保留了SVM判决能力强的特点。在柏林情感语音库与汉语情感语料库上进行的实验结果表明,该方法在语音情感识别上的平均识别率较标准GMM方法提高1.7%~3.7%。 展开更多
关键词 语音情感识别 特征向量同维GMM—UBM多维概率输出 GMM阶数同维GMM—UBM多维概率输出 支持向量机(SVM)
在线阅读 下载PDF
上一页 1 2 11 下一页 到第
使用帮助 返回顶部