期刊文献+
共找到122篇文章
< 1 2 7 >
每页显示 20 50 100
VOICINGDECISIONUSINGCONTINUOUSNONLINEARNETWORK
1
作者 周志杰 胡光锐 李群 《Journal of Shanghai Jiaotong university(Science)》 EI 1998年第2期50-53,共4页
A voicing decision algorithm using continuous nonlinear network is discussed. A five dimensional feature vector is used to describe the voicing characteristic of speech segment, and a continuous network is trained wi... A voicing decision algorithm using continuous nonlinear network is discussed. A five dimensional feature vector is used to describe the voicing characteristic of speech segment, and a continuous network is trained with a gradient descent algorithm is served as the voicing decision maker. Computer simulation shows that this algorithm is an outperform way to make voicing decision. The correct rate of this method reaches 97.8%. 展开更多
关键词 speech processing NEURAL network VOICING decision PITCH EXTRACTION
在线阅读 下载PDF
Improved speech absence probability estimation based on environmental noise classification 被引量:2
2
作者 SON Young-ho LEE Sang-min 《Journal of Central South University》 SCIE EI CAS 2012年第9期2548-2553,共6页
An improved speech absence probability estimation was proposed using environmental noise classification for speech enhancement.A relevant noise estimation approach,known as the speech presence uncertainty tracking met... An improved speech absence probability estimation was proposed using environmental noise classification for speech enhancement.A relevant noise estimation approach,known as the speech presence uncertainty tracking method,requires seeking the "a priori" probability of speech absence that is derived by applying microphone input signal and the noise signal based on the estimated value of the "a posteriori" signal-to-noise ratio(SNR).To overcome this problem,first,the optimal values in terms of the perceived speech quality of a variety of noise types are derived.Second,the estimated optimal values are assigned according to the determined noise type which is classified by a real-time noise classification algorithm based on the Gaussian mixture model(GMM).The proposed algorithm estimates the speech absence probability using a noise classification algorithm which is based on GMM to apply the optimal parameter of each noise type,unlike the conventional approach which uses a fixed threshold and smoothing parameter.The performance of the proposed method was evaluated by objective tests,such as the perceptual evaluation of speech quality(PESQ) and composite measure.Performance was then evaluated by a subjective test,namely,mean opinion scores(MOS) under various noise environments.The proposed method show better results than existing methods. 展开更多
关键词 speech enhancement soft decision speech absence probability Gaussian mixture model (GMM)
在线阅读 下载PDF
Fuzzy C-Means Clustering Based Phonetic Tied-Mixture HMM in Speech Recognition 被引量:1
3
作者 徐向华 朱杰 郭强 《Journal of Shanghai Jiaotong university(Science)》 EI 2005年第1期16-20,共5页
A fuzzy clustering analysis based phonetic tied-mixture HMM(FPTM) was presented to decrease parameter size and improve robustness of parameter training. FPTM was synthesized from state-tied HMMs by a modified fuzzy C-... A fuzzy clustering analysis based phonetic tied-mixture HMM(FPTM) was presented to decrease parameter size and improve robustness of parameter training. FPTM was synthesized from state-tied HMMs by a modified fuzzy C-means clustering algorithm. Each Gaussian codebook of FPTM was built from Gaussian components within the same root node in phonetic decision tree. The experimental results on large vocabulary Mandarin speech recognition show that compared with conventional phonetic tied-mixture HMM and state-tied HMM with approximately the same number of Gaussian mixtures, FPTM achieves word error rate reductions by 4.84% and 13.02% respectively. Combining the two schemes of mixing weights pruning and Gaussian centers fuzzy merging, a significantly parameter size reduction was achieved with little impact on recognition accuracy. 展开更多
关键词 speech recognition hidden Markov model (HMM) fuzzy C-means (FCM) phonetic decision tree
在线阅读 下载PDF
基于改进高效通道注意力机制的多特征语音情感识别 被引量:1
4
作者 杜晨阳 张雪英 +1 位作者 黄丽霞 李娟 《计算机工程》 北大核心 2025年第4期97-106,共10页
注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IE... 注意力机制已经广泛地用于语音情感识别(SER)领域,但是传统注意力模块在提升模型性能表现的同时也会大幅增加模型的参数量。高效通道注意力(ECA)机制虽然参数量较小,但是只能对通道维度生成注意力权重。针对这个问题,提出一种改进ECA(IECA)模块,该模块以较小的参数量对输入的特征图的各个维度生成对应的权重,使得模型更关注和利用特征图中的重要信息。此外,为了进一步提升识别率,分别提取语音的语谱图特征和IS10特征,通过融合网络对不同支路的预测结果进行决策融合,得到最终的预测结果。所提出的模型在EMODB和CASIA两个语音情感数据集上分别取得了91.63%、92.46%的加权准确率(WA)和91.25%、92.33%的未加权平均召回率(UAR),相较之前的研究结果分别有2.69~8.43和4.16~10.69百分点的提升。 展开更多
关键词 深度学习 语音情感识别 注意力机制 多特征融合 决策级融合
在线阅读 下载PDF
人机混合智能在航空领域中的应用范式研究 被引量:1
5
作者 王远航 李珍 +2 位作者 徐刚 郜中奇 王一行 《包装工程》 北大核心 2025年第8期38-45,共8页
目的针对人机混合智能在航空领域中的应用进行探索,以提升飞行绩效和安全为核心目标。方法构建了包含语言动作感知、生理模态感知和认知行为感知的综合智能感知系统,以实现对飞行员状态的全面理解。通过引入特征可视化、局部可解释和交... 目的针对人机混合智能在航空领域中的应用进行探索,以提升飞行绩效和安全为核心目标。方法构建了包含语言动作感知、生理模态感知和认知行为感知的综合智能感知系统,以实现对飞行员状态的全面理解。通过引入特征可视化、局部可解释和交互透明化技术,提高人工智能决策的透明度与可信度。详细分析了人在环内、人在环上及人在环外的三种人机协同模式的特点及适用场景。结果提出了一种动态人机协同决策范式。该范式将机器的计算优势与人类的直觉感知、创造性决策优势相结合。结论为航空智能化发展提供了理论支持和实践路径。 展开更多
关键词 混合智能 人机协同 语言动作感知 生理模态感知 透明决策
在线阅读 下载PDF
LSB steganalysis of speech data based on distance measure and ML decision
6
作者 DENG Zong-yuan SHAO Xi YANG Zhen 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2007年第3期103-107,共5页
Steganalysis can be used to classify an object whether or not it contains hidden information. In this article, is presented, a novel approach to detect the presence of least significant bit(LSB) steganographic messa... Steganalysis can be used to classify an object whether or not it contains hidden information. In this article, is presented, a novel approach to detect the presence of least significant bit(LSB) steganographic messages in the voice secure communication system. A distance measure, which has proven to be sensitive to LSB steganography by analysis of variance (ANOVA), is denoted to estimate the difference between the host signal and the stego signal. Then an maximum likelihood (ML) decision is combined to form the classifier. Statistical experiments show that the proposed approach has a highly accurate rate and low computational complexity. 展开更多
关键词 speech signal processing LSB steganography STEGANALYSIS ML decision
原文传递
基于鲁棒对抗防御边界的语音伪造方法识别
7
作者 张强 张雄伟 +1 位作者 孙蒙 杨吉斌 《电子学报》 北大核心 2025年第6期2022-2037,共16页
深度伪造语音的反欺骗是生成式人工智能安全领域的一项重要技术.除了对真实语音和伪造语音进行二元分类外,语音伪造方法识别正在成为可解释的反欺骗策略的重要组成部分.但为了逃避对语音伪造方法的识别,攻击者很有可能利用对抗样本攻击... 深度伪造语音的反欺骗是生成式人工智能安全领域的一项重要技术.除了对真实语音和伪造语音进行二元分类外,语音伪造方法识别正在成为可解释的反欺骗策略的重要组成部分.但为了逃避对语音伪造方法的识别,攻击者很有可能利用对抗样本攻击技术,在伪造语音中加入人耳无法感知的对抗扰动,来降低语音伪造方法识别(Speech Forgery Method Recognition,SFMR)模型的准确性.针对SFMR所面临的对抗样本攻击问题,从防御者的角度出发,提出了对抗防御边界概念.基于此,使用泰勒分析技术,理论分析了网络随机性和决策边界距离对模型对抗鲁棒性的影响,并提出了基于鲁棒对抗防御边界(Robust Adversarial Defense Boundary,RADB)的SFMR算法.该算法采用随机变换(Random Transform,RT)和决策边界距离正则化(Decision Boundary Distance Regularization,DBDR)两个模块实现鲁棒对抗防御.RT模块通过模拟真实世界场景中伪造语音可能受到的干扰,在训练和推理时,均对输入语音进行随机组合变换,利用随机性提高对抗鲁棒性.DBDR模块引入决策边界距离正则化损失函数,鼓励模型提高对抗鲁棒性上限,降低模型的类别预测关于对抗扰动的敏感性.在典型SFMR数据集,即中文伪造音频检测(Chinese Fake Audio Detection,CFAD)数据集和2019年自动说话人验证欺骗与对策挑战赛(2019 Automatic Speaker Verification spoofing and countermeasures challenge,ASVspoof2019)数据集上的实验结果表明,在对抗攻击条件下,与现有先进基线方法相比,所提算法能够将SFMR准确率分别提高5.63%、5.95%,至93.98%、91.71%. 展开更多
关键词 语音伪造方法识别 对抗防御边界 随机变换 决策边界距离正则化 对抗样本
在线阅读 下载PDF
基于三维梅尔频谱的中文医疗语音识别
8
作者 刘兴惠 张耀刚 +3 位作者 王榆婷 李至立 刘译阳 孙铭 《计算机应用文摘》 2025年第17期66-68,共3页
为提升医疗领域中文语音识别的性能,提出了一种基于三维梅尔频谱的卷积编解码器网络——3DM-CEDNet。该网络由三维卷积模块和基于注意力机制的编解码器组成。3DM-CEDNet以三维梅尔频谱作为输入特征,通过三维卷积模块提取音频的时域和频... 为提升医疗领域中文语音识别的性能,提出了一种基于三维梅尔频谱的卷积编解码器网络——3DM-CEDNet。该网络由三维卷积模块和基于注意力机制的编解码器组成。3DM-CEDNet以三维梅尔频谱作为输入特征,通过三维卷积模块提取音频的时域和频域信息,并结合基于注意力机制的编解码器,实现语音到文本的转换。实验结果表明,采用三维梅尔频谱特征能够提升弱监督预训练模型的识别性能,且3DM-CEDNet在MultiMed数据集上的字符错误率(CER)指标优于其他方法。 展开更多
关键词 智慧医疗 中文语音识别 人工智能 临床辅助诊断
暂未订购
低信噪比条件下的一种自适应有声/无声判决算法 被引量:16
9
作者 张波 曹志刚 《信号处理》 CSCD 北大核心 1996年第3期239-246,共8页
本文描述了一种利用含噪语音短时能量进行有声/无声判决的自适应算法。通常,利用短时能量进行有声/无声判决时,均采用一固定门限,但是,恰当的判决门限显然是噪声统计特性及信号能量的函数。本文提出了一种估计含噪语音短时能量概... 本文描述了一种利用含噪语音短时能量进行有声/无声判决的自适应算法。通常,利用短时能量进行有声/无声判决时,均采用一固定门限,但是,恰当的判决门限显然是噪声统计特性及信号能量的函数。本文提出了一种估计含噪语音短时能量概率密度函数,并根据所期望的误判率估计判决门限的算法。本算法无需预先给出噪声统计信息,且适用于缓变的非平稳噪声情况。 展开更多
关键词 信噪比 有声判决算法 无声判决算法 语言处理
在线阅读 下载PDF
实用语音情感的特征分析与识别的研究 被引量:35
10
作者 黄程韦 赵艳 +2 位作者 金赟 于寅骅 赵力 《电子与信息学报》 EI CSCD 北大核心 2011年第1期112-116,共5页
该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学... 该文针对语音情感识别在实际中的应用,研究了烦躁等实用语音情感的分析与识别。通过计算机游戏诱发的方式采集了高自然度的语音情感数据,提取了74种情感特征,分析了韵律特征、音质特征与情感维度之间的关系,对烦躁等实用语音情感的声学特征进行了评价与选择,提出了针对实际应用环境的可拒判的实用语音情感识别方法。实验结果表明,文中采用的语音情感特征,能较好识别烦躁等实用语音情感,平均识别率达到75%以上。可拒判的实用语音情感识别方法,对模糊的和未知的情感类别的分类进行了合理的决策,在语音情感的实际应用中具有重要的意义。 展开更多
关键词 语音识别 实用语音情感 韵律特征 音质特征 拒判方法
在线阅读 下载PDF
基于特征空间分解与融合的语音情感识别 被引量:10
11
作者 黄程韦 金赟 +2 位作者 王青云 赵艳 赵力 《信号处理》 CSCD 北大核心 2010年第6期835-842,共8页
提出了一种语音情感识别中特征空间的优化方法。针对情感类别两两之间的区分度,优化了情感对各自的特征空间,考察了多类分类器分解为两类分类器的方法,采用置信度判决融合的方法进行两类分类器组的重组,实验中比较了单个多类分类器和两... 提出了一种语音情感识别中特征空间的优化方法。针对情感类别两两之间的区分度,优化了情感对各自的特征空间,考察了多类分类器分解为两类分类器的方法,采用置信度判决融合的方法进行两类分类器组的重组,实验中比较了单个多类分类器和两类分类器组的识别性能。结果表明,在同等条件下性能提升了8个百分点以上,对多类分类器进行分解,优化每个情感对各自的特征空间,并进行融合的方法适合语音情感识别,对特征空间的优化效果显著。 展开更多
关键词 语音情感识别 特征优化 判决融合
在线阅读 下载PDF
基于机器学习的科技文摘关键词自动提取方法 被引量:15
12
作者 刘佳宾 陈超 +1 位作者 邵正荣 吉翔华 《计算机工程与应用》 CSCD 北大核心 2007年第14期170-172,共3页
提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取... 提出了一种基于机器学习的关键词自动抽取技术,主要是针对数字图书馆中的学术论文的摘要(Abstract)进行抽取。首次提出了以句子为基本抽取单位进行关键词抽取的思想。在提出关键词的候选词时采用n_grams方法和词性相结合的方法,在选取特征时考虑了词组的出现频率、词组在整个摘要中的位置、在所在句子中的位置和词组中单词的个数等特征。实验结果表明该方法能够适应各个领域的论文关键词提取,并且可以得到很好的效果。 展开更多
关键词 信息自动抽取 决策树 词性分析 n_grams方法
在线阅读 下载PDF
语音识别中基于最小描述长度准则的决策树动态剪枝算法 被引量:7
13
作者 徐向华 朱杰 郭强 《声学学报》 EI CSCD 北大核心 2006年第4期370-376,共7页
在基于语音学决策树状态聚类时,包含不同数量捆绑状态的决策树对应不同的复杂度。通过研究模型的复杂度对系统性能和说话人自适应的影响,提出一种决策树剪枝方法——基于最小描述长度(Minimum Description Length:MDL)准则的决策树动态... 在基于语音学决策树状态聚类时,包含不同数量捆绑状态的决策树对应不同的复杂度。通过研究模型的复杂度对系统性能和说话人自适应的影响,提出一种决策树剪枝方法——基于最小描述长度(Minimum Description Length:MDL)准则的决策树动态剪枝。该方法利用训练充分的决策树作为初始模型,根据自适应语料的数量动态地选择不同复杂度的模型,决策树剪枝时初始模型的合理选择,自适应语料的充分应用以及MDL准则对随机模型和确定性模型的集成,使得所提出的方法与说话人自适应相结合后取得了系统性能明显提高。 展开更多
关键词 最小描述长度 剪枝算法 决策树 语音识别 说话人自适应 初始模型 状态聚类 系统性能 确定性模型 MDL准则
原文传递
水下数字语音通信系统的研究和实现 被引量:21
14
作者 郭中源 陈岩 +4 位作者 贾宁 郭杰 陈庚 莫福源 马力 《声学学报》 EI CSCD 北大核心 2008年第5期409-418,共10页
将相干水声通信技术和混合码激励线形预测语音编码技术相结合进行了研究,设计并实现了一个可应用于浅海水声信道的实时数字语音通信系统。系统针对语音编码数据的特点,根据语音数据对恢复话音重要程度的不同,采用分层的信道编码以减少... 将相干水声通信技术和混合码激励线形预测语音编码技术相结合进行了研究,设计并实现了一个可应用于浅海水声信道的实时数字语音通信系统。系统针对语音编码数据的特点,根据语音数据对恢复话音重要程度的不同,采用分层的信道编码以减少总体冗余度提高系统传输效率,采用鲁棒的语音帧同步机制、引入缓存机制保证语音数据流的连续性以提高系统整体性能;采用基于信道估计的内嵌二阶锁相环分数间隔判决反馈均衡器以对抗水声信道多径的影响。对该系统进行的海试在6km和11km距离上成功地实现了较高质量(可分辨出不同说话人)的实时水下语音通信,海试结果表明该系统可以应用于半双工实时水下数字语音通信。 展开更多
关键词 语音通信系统 水下 语音编码技术 判决反馈均衡器 语音数据流 水声信道 数字语音通信 二阶锁相环
原文传递
基于二元语义符号运算的群决策方法 被引量:46
15
作者 姜艳萍 樊治平 《系统工程与电子技术》 EI CSCD 北大核心 2003年第11期1373-1376,共4页
具有语言判断矩阵形式的偏好信息的群决策是决策分析及群决策支持系统研究中的一个重要课题。针对这类群决策分析问题,提出了一种基于二元语义符号运算的群决策方法。在该方法中,首先描述了语言判断矩阵形式的偏好信息及其语言判断矩阵... 具有语言判断矩阵形式的偏好信息的群决策是决策分析及群决策支持系统研究中的一个重要课题。针对这类群决策分析问题,提出了一种基于二元语义符号运算的群决策方法。在该方法中,首先描述了语言判断矩阵形式的偏好信息及其语言判断矩阵转化为二元语义符号的方法,然后基于T OWA算子给出了集结各决策者偏好信息和方案优选的方法。算例验证表明,用该方法所得到的方案是最优方案。 展开更多
关键词 语言分析 决策分析 符号处理
在线阅读 下载PDF
基于谱特征的浊清音判决 被引量:6
16
作者 胡剑凌 徐盛 陈健 《数据采集与处理》 CSCD 2002年第1期20-24,共5页
在正弦类语音编码算法中 ,特征参数往往根据信号的浊清音判决结果由不同方式估计 ,相应地在解码端语音一般根据浊清音特性用不同算法合成 ,因此浊清音判决结果直接影响编码器的性能。本文设计了基于语音信号频谱特征的多带浊清音判决方... 在正弦类语音编码算法中 ,特征参数往往根据信号的浊清音判决结果由不同方式估计 ,相应地在解码端语音一般根据浊清音特性用不同算法合成 ,因此浊清音判决结果直接影响编码器的性能。本文设计了基于语音信号频谱特征的多带浊清音判决方法 ,该方法根据信号的谱平滑度、重建谱与原始谱的相似程度以及信号谱的相关性对语音信号分三步进行浊清音判决 ,有效地保证了浊清音判决的正确性。 展开更多
关键词 语音编码 浊清音判决 频谱特征 语音信号处理
在线阅读 下载PDF
采用 Fisher 分类法实现清浊音判决 被引量:7
17
作者 周志杰 胡光锐 林晓彤 《上海交通大学学报》 EI CAS CSCD 北大核心 1997年第5期30-32,共3页
采用Fisher分类法实现清浊音判决.计算机模拟结果显示,该方法准确率达97.4%,优于传统的清浊音判决算法.
关键词 语音识别 语音编码 清浊音判决 Fisher分类法
在线阅读 下载PDF
嵌入马尔可夫网络的多尺度判决融合耳语音情感识别 被引量:4
18
作者 黄程韦 金赟 +2 位作者 包永强 余华 赵力 《信号处理》 CSCD 北大核心 2013年第1期98-106,共9页
本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪... 本文中我们提出了一种将高斯混合模型同马尔可夫网络结合的时域多尺度语音情感识别框架,并将其应用在耳语音情感识别中。针对连续语音信号的特点,分别在耳语音信号的短句尺度上和长句尺度上进行了基于高斯混合模型的情感识别。根据情绪的维度空间论,耳语音信号中的情感信息具有时间上的连续性,因此利用三阶的马尔可夫网络对多尺度的耳语音情感分析进行了上下文的情感依赖关系的建模。采用了一种弹簧模型来定义二维情感维度空间中的高阶形变,并且利用模糊熵评价将高斯混合模型的似然度转化为马尔可夫网络中的一阶能量。实验结果显示,本文提出的情感识别算法在连续耳语音数据上获得了较好的识别结果,对愤怒的识别率达到了64.3%。实验结果进一步显示,与正常音的研究结论不同,耳语音中的喜悦情感的识别相对困难,而愤怒与悲伤之间的区分度较高,与Cirillo等人进行的人耳听辨研究结果一致。 展开更多
关键词 语音情感识别 多尺度分析 马尔可夫网络 判决融合
在线阅读 下载PDF
基于声学上下文的语音情感特征提取与分析 被引量:3
19
作者 白李娟 赵小蕾 +1 位作者 毛启容 吴宝凤 《小型微型计算机系统》 CSCD 北大核心 2013年第6期1451-1456,共6页
针对语句之间的情感存在相互关联的特性,本文从声学角度提出了上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征共四类268维语音情感上下文特征以及这四类情感特征的提取方法,该方法是从当前... 针对语句之间的情感存在相互关联的特性,本文从声学角度提出了上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征共四类268维语音情感上下文特征以及这四类情感特征的提取方法,该方法是从当前情感语句与其前面若干句的合并句中提取声学特征,建立上下文特征模型,以此辅助传统特征所建模型来提高识别率.最后,将该方法应用于语音情感识别,实验结果表明,加入新的上下文语音情感特征后,六类典型情感的平均识别率为82.78%,比原有特征模型的平均识别率提高了约8.89%. 展开更多
关键词 声学上下文语音情感特征 情感语音合并句 模糊密度 决策融合 语音情感识别
在线阅读 下载PDF
一种MMSE语音增强算法的研究与实现 被引量:1
20
作者 张运伟 陈健 傅丰林 《电子科技》 2004年第8期19-23,共5页
介绍了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法,以及语音帧和噪声帧判别的有声/无声检测方法。将语音信号的相位提取后存储起来,然后对纯净语音的短时对数谱作最小均方误差估计,处理后的语音由... 介绍了单话筒采集条件下基于语音短时对数谱的最小均方误差(MMSE-LSA)估计的语音增强算法,以及语音帧和噪声帧判别的有声/无声检测方法。将语音信号的相位提取后存储起来,然后对纯净语音的短时对数谱作最小均方误差估计,处理后的语音由估计得到的幅度谱和存储的相位重建。试验证明MMSE-LSA的增强效果很好,尤其在信噪比低时更为明显。 展开更多
关键词 语音增强 短时对数谱 最小均方误差 有声/无声检测
在线阅读 下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部