期刊文献+
共找到285篇文章
< 1 2 15 >
每页显示 20 50 100
Studies on Model Distance Normalization Approach in Text-independent Speaker Verification 被引量:1
1
作者 DONG Yuan LU Liang +1 位作者 ZHAO Xian-Yu ZHAO Jian 《自动化学报》 EI CSCD 北大核心 2009年第5期556-560,共5页
关键词 自动化 标准化 函数逼近 ASV
在线阅读 下载PDF
Applying Score Reliability Fusion to Bi-Model Emotional Speaker Recognition
2
作者 H. B. Zhang T. Wang +1 位作者 T. Huang X. Yang 《Journal of Signal and Information Processing》 2013年第3期1-6,共6页
Emotion mismatch between training and testing is one of the important factors causing the performance degradation of speaker recognition system. In our previous work, a bi-model emotion speaker recognition (BESR) meth... Emotion mismatch between training and testing is one of the important factors causing the performance degradation of speaker recognition system. In our previous work, a bi-model emotion speaker recognition (BESR) method based on virtual HD (High Different from neutral, with large pitch offset) speech synthesizing was proposed to deal with this problem. It enhanced the system performance under mismatch emotion states in MASC, while still suffering the system risk introduced by fusing the scores from the unreliable VHD model and the neutral model with equal weight. In this paper, we propose a new BESR method based on score reliability fusion. Two strategies, by utilizing identification rate and scores average relative loss difference, are presented to estimate the weights for the two group scores. The results on both MASC and EPST shows that by using the weights generated by the two strategies, the BESR method achieve a better performance than that by using the equal weight, and the better one even achieves a result comparable to that by using the best weights selected by exhaustive strategy. 展开更多
关键词 EMOTIONAL speaker Recogitnion SCORE RELIABILITY FUSION FUSION Weight Estimating Strategy Bi-model
暂未订购
说话者特征融合的对话情感识别模型 被引量:1
3
作者 刘欣雨 夏鸿斌 刘渊 《小型微型计算机系统》 北大核心 2025年第3期571-577,共7页
对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进... 对话情感识别旨在预测对话中话语的情感.目前的方法大多只针对上下文信息进行建模,忽略了对说话者的建模.同时,语境在对话情感识别中起着至关重要的作用.为此,本文提出了说话者特征融合的对话情感识别模型.首先,将说话者名字作为标签进行特征提取,并在构造图结构时为说话者设置单独的节点.其次,分别构建全局对话、说话者在对话中对自己的情感影响和对其他说话者情感影响的图结构.然后,通过多头注意力获得体现对话语境的全局特征,将其与图卷积及门控循环单元融合获得分类特征.最后,通过前馈网络对话语情感进行分类.在IEMOCAP、MELD、EmoryNLP这3个基准数据集上的实验结果表明,该模型在性能指标上较其他基线模型均有一定提升. 展开更多
关键词 对话情感识别 上下文建模 说话者建模 图卷积网络 注意力机制
在线阅读 下载PDF
基于分层聚类算法的说话人识别
4
作者 吴汶憶 张二华 唐振民 《计算机与数字工程》 2025年第6期1598-1600,1618,共4页
在说话人识别系统中,识别阶段需要将待识别说话人的语音特征与说话人模型逐一匹配,当说话人规模较大时会导致计算量很大,影响系统的实时响应速度。针对该问题,论文研究了模型距离度量准则,提出了一种分层聚类算法。实验表明,该方法能有... 在说话人识别系统中,识别阶段需要将待识别说话人的语音特征与说话人模型逐一匹配,当说话人规模较大时会导致计算量很大,影响系统的实时响应速度。针对该问题,论文研究了模型距离度量准则,提出了一种分层聚类算法。实验表明,该方法能有效提高系统的识别速度。 展开更多
关键词 说话人识别 大规模 模型聚类 分层聚类 EMD距离
在线阅读 下载PDF
融合大语言模型和预训练模型的少量语料说话人-情感语音转换方法 被引量:1
5
作者 鲁超峰 陶冶 +4 位作者 文连庆 孟菲 秦修功 杜永杰 田云龙 《计算机应用》 北大核心 2025年第3期815-822,共8页
针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先... 针对很少有人将说话人转换和情感转换结合起来研究,且实际场景中的目标说话人情感语料通常很少,不足以从头训练一个强泛化性模型的问题,提出一种融合大语言模型和预训练情感语音合成模型的少量语料说话人-情感语音转换(LSEVC)方法。首先,使用大语言模型生成带有所需情感标签的文本;其次,使用目标说话人语料微调预训练情感语音合成模型以嵌入目标说话人;然后,将生成的文本合成情感语音,以达到数据增强的目的;再次,使用合成语音与源目标语音共同训练说话人-情感语音转换模型;最后,为了进一步提升转换语音的说话人相似度和情感相似度,使用源目标说话人情感语音微调模型。在公共语料库和一个中文小说语料库上的实验结果表明,综合考虑评价指标情感相似度平均得分(EMOS)、说话人相似度平均意见得分(SMOS)、梅尔倒谱失真(MCD)和词错误率(WER)时,所提方法优于CycleGAN-EVC、Seq2Seq-EVC-WA2和SMAL-ET2等方法。 展开更多
关键词 少量语料 说话人-情感语音转换 大语言模型 预训练情感语音合成模型 微调
在线阅读 下载PDF
基于多粒度时空注意力机制的说话人识别模型
6
作者 朱文博 吴靖 +2 位作者 金浩 叶维彰 朱珍 《声学技术》 北大核心 2025年第1期93-101,共9页
深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通... 深度学习已广泛应用在说话人识别领域,但当前模型存在识别率低和模型参数复杂度高的问题,难以进行轻量化语音识别。针对此问题,文章提出一种基于多粒度时空注意力机制的说话人识别模型,该模型由多粒度混合模块、时空注意力机制模块、通道压缩模块组成。其中多粒度混合模块和时空注意力机制模块以多尺度建模角度来捕捉局部时序上下文特征和空间关联特征信息,并通过多粒度方式耦合不同时空信息的关联特征以提高全局时空建模能力。同时,通道压缩模块通过聚合不同说话人信道以及上下文语境依赖表征以减少整体模型参数数量。在多组公开数据集上进行五重交叉验证实验,结果表明:对比主流模型,所提方法能够有效地提高说话人识别准确率、降低参数量,并达到最优的表现,在轻量化说话人识别模型方面具有重要的应用价值。 展开更多
关键词 深度学习 卷积神经网络 说话人识别 注意力机制 轻量化模型
在线阅读 下载PDF
大学英语语音教学模式建立及实践路径研究 被引量:1
7
作者 谢海芹 谭经玲 《黔南民族师范学院学报》 2025年第3期58-63,共6页
大学英语语音教学模式的建立对于提升学生的英语综合素质、提高大学英语课堂教学质量、推进教学改革等诸多方面都具有重要的促进意义。为了更好地提升大学英语语音教学模式的建立,就相关理论进行阐释,分析本土化与通用语模式的应用可行... 大学英语语音教学模式的建立对于提升学生的英语综合素质、提高大学英语课堂教学质量、推进教学改革等诸多方面都具有重要的促进意义。为了更好地提升大学英语语音教学模式的建立,就相关理论进行阐释,分析本土化与通用语模式的应用可行性,结合语音教学实况探究本族语教学模式的应用方式。与此同时,积极参考其他亚洲国家在英语语音教学方面的实践经验,探讨符合我国大学英语语音教学特色的实践路径。 展开更多
关键词 英语语音教学模式 世界英语变体 本族语者 非本族语者
在线阅读 下载PDF
Speaker Adaptation with Transformation Matrix Linear Interpolation 被引量:1
8
作者 XUXiang-hua ZHUJie 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第6期927-930,共4页
A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With onl... A transformation matrix linear interpolation (TMLI) approach for speaker adaptation is proposed. TMLI uses the transformation matrixes produced by MLLR from selected training speakers and the testing speaker. With only 3 adaptation sentences, the performance shows a 12.12% word error rate reduction. As the number of adaptation sentences increases, the performance saturates quickly. To improve the behavior of TMLI for large amounts of adaptation data, the TMLI+MAP method which combines TMLI with MAP technique is proposed. Experimental results show TMLI+MAP achieved better recognition accuracy than MAP and MLLR+MAP for both small and large amounts of adaptation data. Key words speech recognition - speaker adaptation - MLLR - MAP - maximum likelihood model interpolation (MLMI) CLC number TN 912. 34 Foundation item: Supported by the Science and Technology Committee of Shanghai (01JC14033)Biography: XU Xiang-hua (1977-), female, Ph. D. candidate, research direction: large vocabulary continuous Mandarin speech recognition and speaker adaptation 展开更多
关键词 speech recognition speaker adaptation MLLR MAP maximum likelihood model interpolation (MLMI)
在线阅读 下载PDF
A SPEAKER ADAPTABLE VERY LOW BIT RATE SPEECH CODER BASED ON HMM
9
作者 彭煳 朱杰 《Journal of Shanghai Jiaotong university(Science)》 EI 2000年第2期1-5,共5页
This paper presented a speaker adaptable very low bit rate speech coder based on HMM (Hidden Markov Model) which includes the dynamic features, i.e., delta and delta delta parameters of speech. The performance of this... This paper presented a speaker adaptable very low bit rate speech coder based on HMM (Hidden Markov Model) which includes the dynamic features, i.e., delta and delta delta parameters of speech. The performance of this speech coder has been improved by using the dynamic features generated by an algorithm for speech parameter generation from HMM because the generated speech parameter vectors reflect not only the means of static and dynamic feature vectors but also the covariance of those. The encoder part is equivalent to an HMM based phoneme recognizer and transmits phoneme indexes, state durations, pitch information and speaker characteristics adaptation vectors to the decoder. The decoder receives those messages and concatenates phoneme HMM sequence according to the phoneme indexes. Then the decoder generates a sequence of mel cepstral coefficient vectors using HMM based speech parameter generation technique. Finally the decoder synthesizes speech by directly exciting the MLSA(Mel Log Spectrum Approximation) filter with the generated mel cepstral coefficient vectors, according to the pitch information. 展开更多
关键词 mel cepstral COEFFICIENTS hidden MARKOV model MLSA filter speaker ADAPTATION Document code:A
在线阅读 下载PDF
Speaker Recognition System Based on the Baseband Correlation Score Reliability Fusion
10
作者 Qi He Ting Huang Hongbo Zhang 《Communications and Network》 2013年第3期596-600,共5页
Emotion mismatch between training and testing will cause system performance decline sharply which is emotional speaker recognition. It is an important idea to solve this problem according to the emotion normalization ... Emotion mismatch between training and testing will cause system performance decline sharply which is emotional speaker recognition. It is an important idea to solve this problem according to the emotion normalization of test speech. This method proceeds from analysis of the differences between every kind of emotional speech and neutral speech. Besides, it takes the baseband mismatch of emotional changes as the main line. At the same time, it gives the corresponding algorithm according to four technical points which are emotional expansion, emotional shield, emotional normalization and score compensation. Compared with the traditional GMM-UBM method, the recognition rate in MASC corpus and EPST corpus was increased by 3.80% and 8.81% respectively. 展开更多
关键词 EMOTIONAL speaker Recognition Pitch NORMALIZATION Method model MISMATCH Detection EMOTIONAL NORMALIZATION
暂未订购
基于深度学习的声纹识别身份验证系统设计 被引量:5
11
作者 张海龙 王利恒 吉昕冉 《自动化与仪表》 2024年第4期130-134,共5页
该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获... 该文设计了一种将声纹识别技术部署于AI推理计算设备上的身份验证系统,主要包含待验证音频采集模块和音频特征向量提取模块等部分。基于RK3568高性能芯片的主控制单元通过音频采集模块进行待验证音频采集,之后将待验证音频进行预处理获取FBank特征谱。预处理后的音频数据将通过ECAPA-TDNN声纹识别模型进行嵌入特征向量提取,从而获得具有辨识度的嵌入特征向量。嵌入特征向量经过在已注册特征数据库中搜寻并计算两者之间的余弦相似度,通过与阈值进行比较,从而获得待验证人员的身份信息。最后,根据预设的身份权限信息,执行相对应的操作。通过实验验证,当余弦相似度阈值设置为0.3时,能够获得很好的验证效果,因此证明了该系统在实际部署的可行性。 展开更多
关键词 声纹识别 RK3568芯片 深度学习 AI模型部署
在线阅读 下载PDF
基于自适应GMM阶数与混合特征的说话人识别研究 被引量:1
12
作者 范涛 詹旭 《四川轻化工大学学报(自然科学版)》 CAS 2024年第4期75-83,共9页
针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法。首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维... 针对高斯混合模型(GMM)阶数选取缺陷和说话人特征信息不足的问题,提出了基于自适应GMM阶数和多种语音特征融合的说话人识别算法。首先,通过提取梅尔频率倒谱系数(MFCC)和线性预测梅尔频率倒谱系数(LPMFCC),并根据Fisher准则得到一个17维的MFCC和LPMFCC参数组合的混合特征参数,以增强说话人的特征信息。然后,根据自适应思想,在K-means聚类算法中计算簇内误差平方和(SSE)。最后,通过肘部法则自适应调整K值,以获得一个最优GMM阶数,使得系统在已有的声纹特征下获得最优的识别效果。结果表明,该算法不仅完善了说话人的特征信息,并且克服了对GMM阶数选取的缺陷。最终结合LPCC和MFCC两种特征算法,融合得到的混合特征LPMFCC+MFCC的识别率相比于LPCC和MFCC提升了26.34%和12.34%。 展开更多
关键词 说话人识别 高斯混合模型 梅尔频率倒谱系数 线性预测梅尔系数 FISHER准则 自适应
在线阅读 下载PDF
基于知识蒸馏的说话人验证模型轻量化方案
13
作者 钱建宇 《电声技术》 2024年第7期28-31,42,共5页
利用大规模无监督数据训练的预训练模型具有非常好的泛化性,只需在小规模标注数据上进行微调,就能在相应任务上有所提高。然而,预训练模型加上下游模型通常拥有较大的计算量和较慢的推理速度,不适合在低性能的边缘设备上部署,也难以满... 利用大规模无监督数据训练的预训练模型具有非常好的泛化性,只需在小规模标注数据上进行微调,就能在相应任务上有所提高。然而,预训练模型加上下游模型通常拥有较大的计算量和较慢的推理速度,不适合在低性能的边缘设备上部署,也难以满足需要实时化任务的场景。基于此,提出一种基于知识蒸馏的说话人验证模型轻量化方案,通过将预训练模型和下游模型蒸馏到一个学生网络上,实现整个任务流程的轻量化。 展开更多
关键词 说话人验证 模型轻量化 知识蒸馏
在线阅读 下载PDF
基于方差归一化失真测度的改进的LBG算法 被引量:4
14
作者 方绍武 戴蓓倩 陆伟 《计算机工程与应用》 CSCD 北大核心 2000年第2期27-29,39,共4页
矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程... 矢量量化(VQ)技术在话者识别系统中得到了广泛的应用。 VQ码本的产生通常采用 LBG算法,失真测度则为对矢量的各分量等权重的欧氏距离。在话者识别系统中特征矢量的各个分量的分布是有差别的,且对于不同的话者,这种差别的程度又是不一样的。由于不同分布的各维参数对话者识别的有效性各不相同,因此,文章提出了一种能反映这种有效性差别的失真测度,即:方差归一化失真测度。以该失真测度为基础,并结合时序相关的初始码本设计方法及有效的零胞腔处理技术,文章提出了改进的LBG算法,同时利用该算法训练出改进的VQ话者模型,并进行了话者识别实验。 展开更多
关键词 LBG算法 方差归一化 话者识别 矢量量化
在线阅读 下载PDF
基于自适应直方图均衡化的鲁棒性说话人辨认研究 被引量:5
15
作者 徐利敏 唐振民 +1 位作者 何可可 钱博 《自动化学报》 EI CSCD 北大核心 2008年第7期752-759,共8页
在噪声环境下,为提高说话人识别系统的鲁棒性,需要对系统进行各种抗噪声处理.本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点,提出了直方图均衡化的自适应方法.实验结果表明,与普通直方图均衡化变换方法相比,自... 在噪声环境下,为提高说话人识别系统的鲁棒性,需要对系统进行各种抗噪声处理.本文基于说话人特征的统计特性和直方图均衡化在说话人识别中的应用特点,提出了直方图均衡化的自适应方法.实验结果表明,与普通直方图均衡化变换方法相比,自适应直方图均衡化能进一步提高辨认系统的辨认率;并且无论在平稳噪声还是非平稳噪声环境下,该算法都能取得较好辨认率,进一步增强系统的鲁棒性. 展开更多
关键词 说话人识别 直方图均衡化 高斯混合模型 鲁棒性说话人辨认
在线阅读 下载PDF
在线无监督说话人检索中稳健的模型自举算法 被引量:3
16
作者 付中华 张艳宁 《软件学报》 EI CSCD 北大核心 2007年第3期608-616,共9页
基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据... 基于回归树模型的多特征空间建模方法在回归类内部进行特征音分析,较好地解决了训练数据不足时说话人模型的训练问题,而短语音段聚类策略又进一步避免了过短的语音片断对自举训练的影响.验证实验采用了实际录制的近8小时的不同谈话数据.结果显示,即使平均自举片断长度小于5秒,新方法依然非常稳健,不仅提高了说话人改变检测的效果,而且优于通常的自举方法. 展开更多
关键词 说话人检索 说话人模型 回归类 特征音
在线阅读 下载PDF
基于维纳滤波和混合模型的说话人识别 被引量:5
17
作者 邱政权 范小春 王俊年 《仪器仪表学报》 EI CAS CSCD 北大核心 2009年第7期1436-1440,共5页
在说话人识别系统中,训练和测试环境的不匹配会造成识别性能的显著下降。把小波变换和维纳滤波结合起来对语音进行去噪。对于说话人识别,设计了一个由传统方法(如GMM、MLP和DTW)作为前识别器和通过小波分析(加权求和法)检测到的基音作... 在说话人识别系统中,训练和测试环境的不匹配会造成识别性能的显著下降。把小波变换和维纳滤波结合起来对语音进行去噪。对于说话人识别,设计了一个由传统方法(如GMM、MLP和DTW)作为前识别器和通过小波分析(加权求和法)检测到的基音作为后识别器所组成的混合识别器。传统方法分别由三类特征矢量(LSF、倒谱和滤波器组)组成。通过小波分析获得的基音携带了关于说话人身份的信息。这个系统能在不同噪声环境下分析基音周期。试验结果显示,所提出的系统的鲁棒性和辨识率都有所提高。 展开更多
关键词 维纳滤波 加权求和 混合模型 说话人识别
在线阅读 下载PDF
说话人身份识别深度网络中的聚合模型研究 被引量:7
18
作者 邓飞 邓力洪 +2 位作者 胡文艺 张葛祥 杨强 《计算机应用研究》 CSCD 北大核心 2022年第3期721-725,共5页
说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别... 说话人身份识别是一项重要的生物识别技术,多种基于深度卷积神经网络(DNN)的模型结构表现出越来越强的特征表达能力,并形成了统一的端到端说话人识别系统,取得了优于传统识别模型的性能。其中聚合模型聚合的话语级特征是影响说话人识别系统准确率的关键因素之一。目前大多数的方法是使用self-attention pooling(SAP)聚合模型。然而SAP聚合模型经常会无法准确地进行帧选择,聚合出的话语级特征不准确、鲁棒性弱。在SAP聚合模型的聚合方式上进行了改进,通过引入平均向量方法,构建了一种改进的聚合模型mSAP。它以一种更细粒化和更稳定的工作方式,将变长的输入序列聚合为话语级特征,可以更有效地捕捉输入序列的长期变化。实验表明,mSAP模型的等错误率(EER)相较于TAP、SAP、NetVLAD聚合模型分别有7.4、1.75和0.24的下降,而DCF值相较于这三种聚合模型分别有0.018、0.137和0.242的下降。改进的mSAP聚合模型能够聚合出鲁棒性更强、更准确的话语级特征,有效地提高了端到端说话人识别模型的性能。 展开更多
关键词 说话人识别 聚合模型 注意力机制
在线阅读 下载PDF
基于SVM-HMM混合模型的说话人确认 被引量:19
19
作者 忻栋 杨莹春 吴朝晖 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2002年第11期1080-1082,共3页
提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更... 提出一个文本无关的说话人确认的算法 .该算法将支持向量机 (SVM)的输出通过 Sigm oid函数和高斯模型转化为概率 ,并作为隐式马尔可夫模型 (HMM)中各个隐状态的输出概率 .由于 HMM适于处理连续信号 ,SVM适于处理分类问题 ;同时 ,HMM更多地表达了类别内部的相似性 ,而 SVM则很大程度上反映了类别间的差异 ,因而根据两者不同的侧重点 ,使其组合获得了很好的效果 . 展开更多
关键词 SVM-HMM混合模型 说话人确认 支持向量机 隐式马尔可夫模型 语音信号处理 模式识别
在线阅读 下载PDF
基于支撑向量机的文本无关的说话人识别系统 被引量:8
20
作者 何昕 刘重庆 李介谷 《计算机工程》 EI CAS CSCD 北大核心 2000年第6期61-63,共3页
支撑向量机(SVM)是一种新的统计学习方法。提出一种基于支撑向量机的文本无关的说话人辨认系统,在作者的实验中得到了98%的平均识别率,同时实验表明同基于向量量化(VQ)和高斯混合模型(GMM)的经典方法相比,基于SVM的方法具有... 支撑向量机(SVM)是一种新的统计学习方法。提出一种基于支撑向量机的文本无关的说话人辨认系统,在作者的实验中得到了98%的平均识别率,同时实验表明同基于向量量化(VQ)和高斯混合模型(GMM)的经典方法相比,基于SVM的方法具有更好的性能。 展开更多
关键词 支撑向量机 说话人识别系统 语音识别 模式识别
在线阅读 下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部