期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于端到端深度神经网络的语音情感识别研究 被引量:13
1
作者 吕惠炼 胡维平 《广西师范大学学报(自然科学版)》 CAS 北大核心 2021年第3期20-26,共7页
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序... 语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。 展开更多
关键词 语音情感识别 CNN BLSTM 端到端 原始语音
在线阅读 下载PDF
基于Sinc-Transformer模型的原始语音情感识别 被引量:11
2
作者 俞佳佳 金赟 +2 位作者 马勇 姜芳艽 戴妍妍 《信号处理》 CSCD 北大核心 2021年第10期1880-1888,共9页
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器... 考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。 展开更多
关键词 语音情感 Transformer模型编码器 SincNet滤波器 原始语音
在线阅读 下载PDF
语音文本对齐技术构建蒙古语语音识别语料库研究
3
作者 甄兆博 张晖 《中央民族大学学报(自然科学版)》 2024年第1期12-19,共8页
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本... 目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。 展开更多
关键词 语音识别 蒙古语 生语料 语音文本对齐
在线阅读 下载PDF
基于原始波残差网络的语音欺骗检测 被引量:2
4
作者 刘畅 魏为民 +1 位作者 栗风永 才智 《计算机工程与设计》 北大核心 2023年第3期829-835,共7页
针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低... 针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低频和高频截止频率,减少原始波建模参数数量;搭建残差网络模型作为后端分类器,改进激活函数并增加跳转连接模块以获得更好的泛化性能。实验数据集采用ASVspoof2019大赛官方数据集,实验结果表明,在逻辑攻击场景及物理攻击场景中,提出模型均相对基线系统具有更低的等错误率。 展开更多
关键词 语音欺骗检测 原始波 Sinc函数 建模参数 残差网络 激活函数 等错误率
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部