期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于生成对抗网络的语音画像方法 被引量:1
1
作者 秦昊铭 卜凡亮 +1 位作者 钟方昊 马启明 《河南科技》 2025年第6期22-30,共9页
【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通... 【目的】为应对当前语音驱动的人脸图像生成方法在特征提取和生成质量方面的挑战,特别是解决音频与人脸特征之间深层联系的探索和利用不足问题,提出了一种基于梅尔频率倒谱系数(MFCC)的InceptionResNet-V1音频特征提取网络。【方法】通过SEGAN对音频信号进行数据增强,以实现特征的精细提取和有效传递。针对人脸图像生成质量问题,采用基于辅助分类器的生成对抗网络(AC-GAN)作为基线模型,并引入中值增强空间通道注意力模块(Median-enhancedSpatial and Channel Attention Block)以提升特征提取能力。同时,结合图像超分辨率重建模块,将生成的图像恢复为高分辨率图像。【结果】实验结果表明,所提方法在语音驱动的人脸图像生成任务中显著提升了生成质量,相较于主流模型FID降低了36%,余弦相似度提高了22%,人脸检索性能(Top-N)均有效提升,充分证明了其有效性和优越性。【结论】通过语音特征优化和注意力增强机制,有效提升了语音驱动人脸生成的精度与视觉效果,为跨模态生成任务提供了可扩展的技术路径。 展开更多
关键词 语音生成人脸 梅尔频率倒谱系数 生成对抗网络 注意力机制 图像超分辨率重建
在线阅读 下载PDF
情感可控的个性化完整三维虚拟形象表情动画生成 被引量:2
2
作者 李俊沂 庞德龙 +2 位作者 蔡明旭 周圣喻 余旻婧 《信号处理》 北大核心 2025年第2期382-398,共17页
语音驱动的三维虚拟形象情感表情动画,旨在合成与输入语音具有同步嘴唇动作和面部表情的三维人脸动画。然而,现有方法受限于三维人脸先验,在合成具有口腔内部结构的三维人脸动画方面存在一定的局限性,导致最终生成结果缺乏真实感。此外... 语音驱动的三维虚拟形象情感表情动画,旨在合成与输入语音具有同步嘴唇动作和面部表情的三维人脸动画。然而,现有方法受限于三维人脸先验,在合成具有口腔内部结构的三维人脸动画方面存在一定的局限性,导致最终生成结果缺乏真实感。此外,现有多数方法往往重点关注虚拟形象唇部动作与语音的同步,而较少关注语音情感变化对面部表情的影响,使得生成的表情动画不够自然,真实感受到限制,影响了用户体验。针对以上问题,本文提出了一种情感可控的个性化完整三维虚拟形象表情动画生成方法,以生成具有完整口腔结构和丰富情感表情的人脸动画,提高三维虚拟形象的真实感。该方法由三个核心模块组成:具有完整口腔结构的中性表情动画生成模块、表情检索模块和表情融合模块。具有完整口腔结构的中性表情动画生成模块首先通过基于Transformer的自回归模型实现语音到三维人脸动画序列的跨模态映射,输出中性人脸动画序列,并通过交叉监督的训练图,引入了文本驱动的一致性损失,确保了输入语音与嘴唇区域的同步性。接着,本文在该模块中提出并应用了一种基于人脸关键点的口腔结构三维模型形变算法,依次将生成的口腔模型与对应的中性人脸动画序列进行融合,输出包含口腔结构的中性表情模型序列。表情检索模块根据输入的语音序列和人脸图片进行情感识别和检索,获取带有情感的三维人脸模型。表情融合模块通过深度神经网络将包含口腔结构的中性表情动画与带有情感的三维人脸模型融合,生成具有口腔结构与情感表情的三维人脸表情动画。此外,本文还提出了一种基于线性插值的表情过渡算法实现了表情动画在多种情绪间的平滑过渡。现有实验表明,本文生成的包含口腔结构且具有情感表情的三维人脸动画均能在保持唇部动作与语音同步的同时,有效提高三维虚拟形象的真实感。 展开更多
关键词 语音驱动 情绪驱动 三维虚拟形象 面部表情动画
在线阅读 下载PDF
采用线性注意力机制的语音驱动三维人脸动画技术
3
作者 童程凯 叶阳 《小型微型计算机系统》 北大核心 2025年第6期1400-1408,共9页
语音驱动三维人脸动画技术,旨在通过输入语音,驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成,但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈,... 语音驱动三维人脸动画技术,旨在通过输入语音,驱动三维人脸模型生成视觉对应的人脸表情动画.当前的常用方法是基于Transformer结构以自回归形式完成人脸动画生成,但是这些方法在面对长语音生成动画时的二次运算复杂度限制了其性能瓶颈,在数据集稀疏情况下的过拟合问题也使得其在生成动画的准确性以及泛化性上存在不足.为了解决以上问题,本文提出一种基于线性注意力的语音驱动三维人脸动画方法.该方法采用一种新的端到端网络模型,通过语音自监督表示学习构建编码器提取语音特征,并利用线性注意力变体的结构RWKV构建人脸表情映射解码模块生成人脸动画.实验结果表明,本文的方法在人脸表情生成的准确度和时效性上都优于目前的相关方法,三维人脸网格顶点平均误差在标准化条件下上较sota方法降低了0.15,单帧人脸预测时延上也比基于传统Transformer的方法快了4倍左右. 展开更多
关键词 语音驱动 自监督 线性注意力 人脸动画
在线阅读 下载PDF
Speech-driven facial animation with spectral gathering and temporal attention 被引量:1
4
作者 Yujin CHAI Yanlin WENG +1 位作者 Lvdi WANG Kun ZHOU 《Frontiers of Computer Science》 SCIE EI CSCD 2022年第3期153-162,共10页
In this paper,we present an efficient algorithm that generates lip-synchronized facial animation from a given vocal audio clip.By combining spectral-dimensional bidirectional long short-term memory and temporal attent... In this paper,we present an efficient algorithm that generates lip-synchronized facial animation from a given vocal audio clip.By combining spectral-dimensional bidirectional long short-term memory and temporal attention mechanism,we design a light-weight speech encoder that leams useful and robust vocal features from the input audio without resorting to pre-trained speech recognition modules or large training data.To learn subject-independent facial motion,we use deformation gradients as the internal representation,which allows nuanced local motions to be better synthesized than using vertex offsets.Compared with state-of-the-art automatic-speech-recognition-based methods,our model is much smaller but achieves similar robustness and quality most of the time,and noticeably better results in certain challenging cases. 展开更多
关键词 speech-driven facial animation spectral-dimensional bidirectional long short-term memory temporal attention deformation gradients
原文传递
隐式情绪导向的语音驱动仿生机器人说话方法
5
作者 徐康 袁野 +3 位作者 付军秀 傅柯婷 任钦泽 刘娜 《计算机应用研究》 北大核心 2025年第8期2297-2303,共7页
提出了一种创新的隐式情绪导向语音驱动方法,用于仿生机器人的面部表情与头部姿态生成。该方法基于深度学习,通过引入颈部舵机控制系数,突破了传统方法仅依赖预编程随机动作序列的局限,实现了音频信号到自然表情的精确映射。此外,提出... 提出了一种创新的隐式情绪导向语音驱动方法,用于仿生机器人的面部表情与头部姿态生成。该方法基于深度学习,通过引入颈部舵机控制系数,突破了传统方法仅依赖预编程随机动作序列的局限,实现了音频信号到自然表情的精确映射。此外,提出了一种隐式情绪导向特征融合自编码器框架,无须显式输入情绪参数,即可从音频中隐含地推断情绪特征,并生成丰富的面部表情和颈部运动。实验表明,该方法在多个数据集上显著优于现有技术,并且通过轻量化设计,能够高效适应资源有限的移动设备。 展开更多
关键词 仿生机器人 音频驱动 情绪导向 卷积长短时记忆网络
在线阅读 下载PDF
基于机器学习的语音驱动人脸动画方法 被引量:20
6
作者 陈益强 高文 +1 位作者 王兆其 姜大龙 《软件学报》 EI CSCD 北大核心 2003年第2期215-221,共7页
语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能... 语音与唇动面部表情的同步是人脸动画的难点之一.综合利用聚类和机器学习的方法学习语音信号和唇动面部表情之间的同步关系,并应用于基于MEPG-4标准的语音驱动人脸动画系统中.在大规模音视频同步数据库的基础上,利用无监督聚类发现了能有效表征人脸运动的基本模式,采用神经网络学习训练,实现了从含韵律的语音特征到人脸运动基本模式的直接映射,不仅回避了语音识别鲁棒性不高的缺陷,同时学习的结果还可以直接驱动人脸网格.最后给出对语音驱动人脸动画系统定量和定性的两种分析评价方法.实验结果表明,基于机器学习的语音驱动人脸动画不仅能有效地解决语音视频同步的难题,增强动画的真实感和逼真性,同时基于MPEG-4的学习结果独立于人脸模型,还可用来驱动各种不同的人脸模型,包括真实视频、2D卡通人物以及3维虚拟人脸. 展开更多
关键词 机器学习 语音驱动 人脸动画 语音识别 模式识别
在线阅读 下载PDF
基于数据挖掘的语音驱动三维人脸动画合成 被引量:1
7
作者 陈益强 高文 +2 位作者 王兆其 姜大龙 左力 《系统仿真学报》 CAS CSCD 2002年第4期496-500,共5页
提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒... 提出采用数据挖掘的概念,利用神经网络,聚类以及统计学方法从大量语音视频库中发现语音与唇动以及人脸表情之间的关联模型,并应用于语音驱动人脸动画合成中,本文提出的方法不仅可很好地解决语音与人脸动画的同步,同时还具有易训练,鲁棒性强,可扩展等特性。实验表明,基于数据挖掘技术的合成模型非常有效,极大提高了动画人物的真实感和可信度。 展开更多
关键词 数据挖掘 语音驱动 三维人脸动画合成 计算机
在线阅读 下载PDF
基于深层神经网络的藏语识别 被引量:14
8
作者 袁胜龙 郭武 戴礼荣 《模式识别与人工智能》 EI CSCD 北大核心 2015年第3期209-213,共5页
文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目... 文中首次涉及藏语的自然对话风格大词汇电话连续语音识别问题.作为一种少数民族语言,藏语识别面临的最大的困难是数据稀疏问题.文中在基于深层神经网络(DNN)的声学模型建模中,针对数据稀疏的问题,提出采用大语种数据训练好的DNN作为目标模型的初始网络进行模型优化的策略.另外,由于藏语语音学的研究很不完善,人工生成决策树问题集的方式并不可行.针对该问题,文中利用数据驱动的方式自动生成决策树问题集,对三音子隐马尔可夫模型(HMM)进行状态绑定,从而减少需要估计的模型参数.在测试集上,基于混合高斯模型(GMM)声学建模的藏字识别率为30.86%.在基于DNN的声学模型建模中,采用三种大语种数据训练好的DNN网络作为初始网络,并在测试集上验证该方法的有效性,藏字识别正确率达到43.26%. 展开更多
关键词 藏语 连续语音识别 数据驱动 深层神经网络(DNN)
在线阅读 下载PDF
基于TBL算法的汉语韵律词预测 被引量:6
9
作者 陈龙 杨鸿武 蔡莲红 《西北师范大学学报(自然科学版)》 CAS 2008年第1期47-51,共5页
提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律... 提出了一种新的汉语韵律词预测方法.利用标注过的语料,分析了语法词与韵律词之间的关系,发现24%的韵律词由不同语法词组合而成,语法词的词长是确定韵律词边界的主要特征.基于以上分析,实现了一种基于错误驱动的规则学习算法(TBL)的韵律词预测方法.实验结果表明,所提出的方法在测试集上能够达到97.5%的预测精度. 展开更多
关键词 韵律词 语法词 TBL算法 文语转换
在线阅读 下载PDF
基于数据驱动技术在语料词类分析中的应用 被引量:1
10
作者 张玥杰 姚天顺 《计算机科学》 CSCD 北大核心 1999年第1期69-74,共6页
语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);... 语料库语言学的主要研究内容之一是对所建立语料库中的语料,进行不同层次的语法分析。语法分析一般由两个层次组成,即词类分析(Part-of-Speech Analyzing)与句法分析(Parsing)。词类分析通常包括两个过程:(i)引入歧义(即,词法分析过程);(ii)消除歧义(即,排除非法选择的过程)。 展开更多
关键词 语料 词类分析 语言信息处理 数据驱动
在线阅读 下载PDF
汉语语音理解中自动纠错系统的研究 被引量:4
11
作者 李晶皎 张王利 姚天顺 《软件学报》 EI CSCD 北大核心 1999年第4期377-381,共5页
根据汉语语音的特点,通过总结在连续汉语语音识别的汉字序列中出现错误的规律,写出相应的用于查错和校正的词法和句法语义规则.利用“词汇语义驱动”的分析方法,找出汉字序列中的错误并校正。
关键词 汉语语音理解 自动纠错 汉字信息处理 语音识别
在线阅读 下载PDF
汉语文语转换系统中停顿指数的自动标注 被引量:6
12
作者 赵永贞 刘挺 +2 位作者 王志伟 陈惠鹏 邵艳秋 《中文信息学报》 CSCD 北大核心 2004年第5期48-55,共8页
本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于... 本文采用了一个基于C TOBI的停顿指数标注的语料库 ,利用有指导的学习方法对自动停顿指数标注方面做了一些有益的探索。本文共实现了三种方法 :基本的马尔科夫模型 ,引入了词长信息的马尔科夫模型 ,引入词长信息的马尔科夫模型结合基于转换的错误驱动的学习方法。然后通过对 30 0 0句的真实文本进行开放测试 ,以基本的马尔科夫模型的结果作为基准 ,实验结果不断改进 ,最终达到了 78 6 %的准确率 ,错误代价降低了 14 5 % 展开更多
关键词 计算机应用 中文信息处理 文语转换 停顿指数 马尔科夫模型 基于转换的错误驱动的学习
在线阅读 下载PDF
专用语音信箱数据采集与处理 被引量:1
13
作者 吕志民 宋靖涛 周劲松 《数据采集与处理》 CSCD 1999年第4期523-526,共4页
介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫... 介绍的专用语音信箱由2 条中继线、7 台分机、1 个语音处理单元以及呼叫处理程序和语音信箱管理程序组成。内外线电话能够互相呼叫或拨号访问信箱,并拥有多种程控业务新功能。语音信箱具有查询、留言和播放公众信息等功能,在被叫忙音或无应答时自动进入信箱。呼叫处理程序使用状态迁移法解决呼叫信号采集、处理的多重性问题;使用时间调度技术解决多用户的实时处理问题;使用VisualBasic的MSCOMM 控件实现了串行口交互通信;将多媒体MIC控件用于语音信息的记录、储存和重放过程。 展开更多
关键词 语音信箱 数据采集 数据处理 自动交换机 电话
在线阅读 下载PDF
基于深度神经网络的语音驱动发音器官的运动合成 被引量:6
14
作者 唐郅 侯进 《自动化学报》 EI CSCD 北大核心 2016年第6期923-930,共8页
实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的... 实现一种基于深度神经网络的语音驱动发音器官运动合成的方法,并应用于语音驱动虚拟说话人动画合成.通过深度神经网络(Deep neural networks,DNN)学习声学特征与发音器官位置信息之间的映射关系,系统根据输入的语音数据估计发音器官的运动轨迹,并将其体现在一个三维虚拟人上面.首先,在一系列参数下对比人工神经网络(Artificial neural network,ANN)和DNN的实验结果,得到最优网络;其次,设置不同上下文声学特征长度并调整隐层单元数,获取最佳长度;最后,选取最优网络结构,由DNN输出的发音器官运动轨迹信息控制发音器官运动合成,实现虚拟人动画.实验证明,本文所实现的动画合成方法高效逼真. 展开更多
关键词 深度神经网络 语音驱动 运动合成 虚拟说话人
在线阅读 下载PDF
语音驱动的口型同步算法 被引量:1
15
作者 范鑫鑫 杨旭波 《东华大学学报(自然科学版)》 CSCD 北大核心 2017年第4期466-471,共6页
本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对... 本文提出一种口型动画同步算法,可以根据输入的语音信号,生成与该信号同步的口型动画.该算法分为预处理与运行时两个阶段.在预处理阶段,预定义一个基本口型动作集合,然后令设计师通过定义该集合中元素的权重变化曲线,来设计不同音素对应的口型动画.在运行时阶段,首先获取输入语音信号对应的音素序列,然后将该序列映射到一系列口型动画片段上,最后将这些片段互相拼接,即可得到最终输出的结果.试验表明,该算法具有较高的准确率,在运行时耗时较少,并且对于不同的人脸模型具有较高的可重用性. 展开更多
关键词 语音驱动 口型同步 音素
在线阅读 下载PDF
基于项目驱动的android课程研究 被引量:2
16
作者 李鑫伟 张立 孙阳 《教育教学论坛》 2020年第12期254-255,共2页
基于android系统的移动终端设备在智能终端市场上占据了主导地位,国内高校纷纷开设了android课程,以满足日益增长的社会需求。由于android知识体系庞杂,实践性强,传统的教学模式以知识点讲授为主,实践教学环节薄弱,已不能满足社会对andr... 基于android系统的移动终端设备在智能终端市场上占据了主导地位,国内高校纷纷开设了android课程,以满足日益增长的社会需求。由于android知识体系庞杂,实践性强,传统的教学模式以知识点讲授为主,实践教学环节薄弱,已不能满足社会对android人才的需求。将android课程知识与生动活泼的APP项目融合能够很好地激发学生学习兴趣,提高学生动手实践能力,是当前android课程改革的研究热点之一。文章以“基于语音识别的智能记事本APP设计”项目为例,探讨了基于项目驱动的android课程设计和实施方案。 展开更多
关键词 android课程 项目驱动 语音识别
在线阅读 下载PDF
语音驱动人脸动画研究综述 被引量:3
17
作者 王慧慧 赵晖 《现代计算机(中旬刊)》 2015年第5期54-59,共6页
对语音信息的理解除了听觉信息,视觉信息也非常重要。在给出语音的同时,如果能给出相应的人脸动画,会提高人们对语音信息的正确理解,这正是语音驱动的人脸动画要达到的效果。语音驱动的人脸动画系统使计算机模拟人类语音的双模态,为人... 对语音信息的理解除了听觉信息,视觉信息也非常重要。在给出语音的同时,如果能给出相应的人脸动画,会提高人们对语音信息的正确理解,这正是语音驱动的人脸动画要达到的效果。语音驱动的人脸动画系统使计算机模拟人类语音的双模态,为人机交互提供可能性。简述语音驱动人脸动画的发展和语音驱动的人脸动画核心技术。 展开更多
关键词 语音驱动的人脸动画 音视频映射 人脸模型
在线阅读 下载PDF
项目驱动教学法在语音信号处理课程中的探索与应用 被引量:3
18
作者 赵小燕 梁瑞宇 +2 位作者 童莹 包永强 王青云 《计算机时代》 2022年第6期112-115,共4页
语音信号处理技术具有很强的专业性、先进性和实用性。将项目驱动教学法应用于语音信号处理课程教学,从项目设置、项目执行和项目评价等方面探索其实施路径,并以声源定位为例,阐述教学实施过程。教学实践表明,该模式有效激发了学生的学... 语音信号处理技术具有很强的专业性、先进性和实用性。将项目驱动教学法应用于语音信号处理课程教学,从项目设置、项目执行和项目评价等方面探索其实施路径,并以声源定位为例,阐述教学实施过程。教学实践表明,该模式有效激发了学生的学习积极性和主动性,提升了学生综合应用知识的能力,为学生今后开展科研和开发工作打下了良好基础。 展开更多
关键词 语音信号处理 项目驱动教学 声源定位 教学实施
在线阅读 下载PDF
基于语音识别的Android游戏应用 被引量:2
19
作者 潘智刚 姚敏锋 《现代计算机》 2015年第5期36-39,44,共5页
在对语音信号的预处理过程、特征提取及识别算法研究、分析基础上,基于Android平台进行游戏的开发与设计,根据游戏控制指令多为孤立词的特点,游戏语音识别算法采用动态时间规整算法(DTW),为了提高游戏语音交互的识别率,提出多模板匹配... 在对语音信号的预处理过程、特征提取及识别算法研究、分析基础上,基于Android平台进行游戏的开发与设计,根据游戏控制指令多为孤立词的特点,游戏语音识别算法采用动态时间规整算法(DTW),为了提高游戏语音交互的识别率,提出多模板匹配的算法对DTW算法进行改进,实现利用语音识别技术控制游戏操作的方式。 展开更多
关键词 语音识别 动态时间规整 ANDROID平台 实时语音驱动 语音交互
在线阅读 下载PDF
引入非局部模块卷积神经网络的基频提取模型 被引量:3
20
作者 刘晶晶 黄浩 《计算机工程》 CAS CSCD 北大核心 2023年第3期128-133,160,共7页
基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全... 基频或基音的估计是各种语音信号处理技术的关键子问题,现有信号处理技术研究多使用数据驱动的方法,即通过卷积神经网络进行基频提取。然而,卷积神经网络中的卷积操作一次只能处理局部的音频样本点,只有在递归应用卷积操作时才能捕获全局音频样本点依赖关系,导致计算效率低与优化困难。受非局部模块在计算机视觉任务中具有较高性能的启发,提出一种具有非局部模块的卷积神经网络用于基频提取任务。非局部模块相比不断堆叠的卷积神经网络,可以直接计算两个位置之间的关系,由于其可以忽略欧氏距离,因此能够快速捕获长范围的依赖关系。对于基频估计任务,可在卷积神经网络中加入非局部模块以计算音频样本点之间的相似性,有助于捕获帧与帧和样本点与样本点之间的全局依赖关系,且非局部模块可以保持输入输出维度不变,能够快速地集成卷积神经网络。实验结果表明,该方法平均绝对误差仅为4.7,与基线模型相比,至少降低了0.7,能够获得最佳的模型性能。 展开更多
关键词 基频 语音信号处理 数据驱动 卷积神经网络 非局部模块
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部