期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
融合CAM++与轻量化Transformer的声纹识别方法
1
作者
赵洪祥
杨乘
《电脑与电信》
2025年第7期5-9,共5页
目前,传统声纹识别方法多依赖卷积神经网络(CNN)提取语音的局部时频特征,难以有效建模长时序依赖和全频域信息,限制了复杂语音条件下的判别性能。为此,提出一种基于上下文感知掩码网络(Context-Aware Masking Network,CAM++)与轻量化Tra...
目前,传统声纹识别方法多依赖卷积神经网络(CNN)提取语音的局部时频特征,难以有效建模长时序依赖和全频域信息,限制了复杂语音条件下的判别性能。为此,提出一种基于上下文感知掩码网络(Context-Aware Masking Network,CAM++)与轻量化Transformer编码块(Lightweight Transformer Encoder Block, LTEB)相结合的声纹识别方法。该方法在CAM++网络的FCM与D-TDNN模块之间引入LTEB模块,LTEB利用Nystr?m近似注意力机制建模长达10秒的全局语音依赖,提升模型的时序感知能力;CAM++网络中的D-TDNN模块则专注于局部语义特征提取,二者协同融合,实现局部感知与上下文建模的统一,从而提升声纹判别能力与模型计算效率。模型以融合的MFCC与FBANK特征为输入进行训练。在CN-Celeb数据集上,所提LTEB-CAM++模型的等错误率(EER)与最小检测代价函数(minDCF)相较基线CAM++分别降低了7.39%和11.17%。
展开更多
关键词
CAM++
声纹识别
Nystr?m近似注意力
全局-局部特征融合
轻量化编码块
在线阅读
下载PDF
职称材料
一种基于动态平滑的实时基频提取算法
被引量:
1
2
作者
胡海洋
原猛
冯海泓
《声学技术》
CSCD
2012年第6期583-588,共6页
基频是语音信号处理中的一个基本声学特征。传统的基频提取算法为了获得较好的检测效果,需要复杂的时频域计算。对于资源受限的应用条件,例如人工耳蜗等嵌入式实时系统,很难应用计算量大的基频提取算法。语音信号的基频具有短时平稳性,...
基频是语音信号处理中的一个基本声学特征。传统的基频提取算法为了获得较好的检测效果,需要复杂的时频域计算。对于资源受限的应用条件,例如人工耳蜗等嵌入式实时系统,很难应用计算量大的基频提取算法。语音信号的基频具有短时平稳性,根据这个特点来确定基频候选值可以提高提取的准确性。据此,提出一种基于动态平滑的基频提取算法,使用此算法对汉语声调词库进行基频提取,并与另外两种基频提取算法进行比较。实验结果表明,新算法的基频绝对平均估计误差小于3Hz,优于另两种算法,能够准确地提取基频,同时算法计算量低,适合实时应用。
展开更多
关键词
基频提取
动态平滑
实时处理
在线阅读
下载PDF
职称材料
应对说话人位置突变的鲁棒语声去混响
3
作者
吴礼福
孙帅恒
+1 位作者
王雷
孙芯年
《应用声学》
CSCD
北大核心
2022年第6期851-859,共9页
多通道线性预测算法是一种有效的语声去混响方法,但若房间内说话人位置发生变化,房间冲激响应也会随之改变,从而导致去混响效果变差。该文研究了基于递归最小二乘算法的自适应多通道线性预测语声去混响方法,提出了一种去混响过程中检测...
多通道线性预测算法是一种有效的语声去混响方法,但若房间内说话人位置发生变化,房间冲激响应也会随之改变,从而导致去混响效果变差。该文研究了基于递归最小二乘算法的自适应多通道线性预测语声去混响方法,提出了一种去混响过程中检测说话人位置突变的方法,它借助已有的多通道传声器信号,并未明显增加系统开销。实验表明该方法可以有效检测说话人位置的突变,并通过重置滤波器改善算法的收敛速度和稳定性。
展开更多
关键词
去混响
多通道线性预测
递归最小二乘
在线阅读
下载PDF
职称材料
智能语音识别技术在金融交易系统中的应用研究
4
作者
崔伟欣
《电声技术》
2024年第12期70-72,共3页
随着智慧金融的快速发展,智能语音识别技术在金融交易系统中的应用已逐渐成为学术研究的重点领域。首先阐述智能语音识别技术的基本概念,其次分析其在金融交易系统中的应用优势、存在的问题,最后针对问题提出相应的策略,旨在为金融交易...
随着智慧金融的快速发展,智能语音识别技术在金融交易系统中的应用已逐渐成为学术研究的重点领域。首先阐述智能语音识别技术的基本概念,其次分析其在金融交易系统中的应用优势、存在的问题,最后针对问题提出相应的策略,旨在为金融交易系统的智能化发展提供理论依据和实践指导。
展开更多
关键词
智能语音识别
金融交易系统
智慧金融
在线阅读
下载PDF
职称材料
题名
融合CAM++与轻量化Transformer的声纹识别方法
1
作者
赵洪祥
杨乘
机构
贵州师范大学物理与电子科学学院
出处
《电脑与电信》
2025年第7期5-9,共5页
基金
国家自然科学基金项目“基于听觉感知机理的3D音频智能高效采集研究”,项目编号:62062025
贵州省科技计划项目重点项目“三维音频高效感知采集算法研究”,项目编号:黔科合基础[2019]1432
教育部行业职业教育教学指导委员会项目“MR(混合现实)技术在教育教学中的应用研究——以汽车三维声纹故障诊断教学为例”,项目编号:HBKC217112。
文摘
目前,传统声纹识别方法多依赖卷积神经网络(CNN)提取语音的局部时频特征,难以有效建模长时序依赖和全频域信息,限制了复杂语音条件下的判别性能。为此,提出一种基于上下文感知掩码网络(Context-Aware Masking Network,CAM++)与轻量化Transformer编码块(Lightweight Transformer Encoder Block, LTEB)相结合的声纹识别方法。该方法在CAM++网络的FCM与D-TDNN模块之间引入LTEB模块,LTEB利用Nystr?m近似注意力机制建模长达10秒的全局语音依赖,提升模型的时序感知能力;CAM++网络中的D-TDNN模块则专注于局部语义特征提取,二者协同融合,实现局部感知与上下文建模的统一,从而提升声纹判别能力与模型计算效率。模型以融合的MFCC与FBANK特征为输入进行训练。在CN-Celeb数据集上,所提LTEB-CAM++模型的等错误率(EER)与最小检测代价函数(minDCF)相较基线CAM++分别降低了7.39%和11.17%。
关键词
CAM++
声纹识别
Nystr?m近似注意力
全局-局部特征融合
轻量化编码块
Keywords
CAM++
speaker recognition
Nyström attention
global-local feature fusion
lightweight encoder block
分类号
N912.34 [自然科学总论]
在线阅读
下载PDF
职称材料
题名
一种基于动态平滑的实时基频提取算法
被引量:
1
2
作者
胡海洋
原猛
冯海泓
机构
中国科学院声学研究所东海研究站
中国科学院研究生院
出处
《声学技术》
CSCD
2012年第6期583-588,共6页
基金
国家自然科学基金资助项目(11104316)
上海自然科学基金资助项目(11ZR1446000)
文摘
基频是语音信号处理中的一个基本声学特征。传统的基频提取算法为了获得较好的检测效果,需要复杂的时频域计算。对于资源受限的应用条件,例如人工耳蜗等嵌入式实时系统,很难应用计算量大的基频提取算法。语音信号的基频具有短时平稳性,根据这个特点来确定基频候选值可以提高提取的准确性。据此,提出一种基于动态平滑的基频提取算法,使用此算法对汉语声调词库进行基频提取,并与另外两种基频提取算法进行比较。实验结果表明,新算法的基频绝对平均估计误差小于3Hz,优于另两种算法,能够准确地提取基频,同时算法计算量低,适合实时应用。
关键词
基频提取
动态平滑
实时处理
Keywords
pitch detection
dynamic smoothing
real-time
分类号
N912.3 [自然科学总论]
在线阅读
下载PDF
职称材料
题名
应对说话人位置突变的鲁棒语声去混响
3
作者
吴礼福
孙帅恒
王雷
孙芯年
机构
南京信息工程大学电子与信息工程学院
江苏省大气环境与装备技术协同创新中心
出处
《应用声学》
CSCD
北大核心
2022年第6期851-859,共9页
基金
国家自然科学基金项目(12074192)。
文摘
多通道线性预测算法是一种有效的语声去混响方法,但若房间内说话人位置发生变化,房间冲激响应也会随之改变,从而导致去混响效果变差。该文研究了基于递归最小二乘算法的自适应多通道线性预测语声去混响方法,提出了一种去混响过程中检测说话人位置突变的方法,它借助已有的多通道传声器信号,并未明显增加系统开销。实验表明该方法可以有效检测说话人位置的突变,并通过重置滤波器改善算法的收敛速度和稳定性。
关键词
去混响
多通道线性预测
递归最小二乘
Keywords
Dereverberation
Multi-channel linear prediction
Recursive least square
分类号
N912.35 [自然科学总论]
在线阅读
下载PDF
职称材料
题名
智能语音识别技术在金融交易系统中的应用研究
4
作者
崔伟欣
机构
河南工业和信息化职业学院
出处
《电声技术》
2024年第12期70-72,共3页
文摘
随着智慧金融的快速发展,智能语音识别技术在金融交易系统中的应用已逐渐成为学术研究的重点领域。首先阐述智能语音识别技术的基本概念,其次分析其在金融交易系统中的应用优势、存在的问题,最后针对问题提出相应的策略,旨在为金融交易系统的智能化发展提供理论依据和实践指导。
关键词
智能语音识别
金融交易系统
智慧金融
Keywords
intelligent speech recognition
financial transaction system
smart finance
分类号
N912.33 [自然科学总论]
F830 [经济管理—金融学]
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
融合CAM++与轻量化Transformer的声纹识别方法
赵洪祥
杨乘
《电脑与电信》
2025
0
在线阅读
下载PDF
职称材料
2
一种基于动态平滑的实时基频提取算法
胡海洋
原猛
冯海泓
《声学技术》
CSCD
2012
1
在线阅读
下载PDF
职称材料
3
应对说话人位置突变的鲁棒语声去混响
吴礼福
孙帅恒
王雷
孙芯年
《应用声学》
CSCD
北大核心
2022
0
在线阅读
下载PDF
职称材料
4
智能语音识别技术在金融交易系统中的应用研究
崔伟欣
《电声技术》
2024
0
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部