期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于端到端深度神经网络的语音情感识别研究
被引量:
13
1
作者
吕惠炼
胡维平
《广西师范大学学报(自然科学版)》
CAS
北大核心
2021年第3期20-26,共7页
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序...
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。
展开更多
关键词
语音情感识别
CNN
BLSTM
端到端
原始语音
在线阅读
下载PDF
职称材料
基于Sinc-Transformer模型的原始语音情感识别
被引量:
11
2
作者
俞佳佳
金赟
+2 位作者
马勇
姜芳艽
戴妍妍
《信号处理》
CSCD
北大核心
2021年第10期1880-1888,共9页
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器...
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。
展开更多
关键词
语音情感
Transformer模型编码器
SincNet滤波器
原始语音
在线阅读
下载PDF
职称材料
语音文本对齐技术构建蒙古语语音识别语料库研究
3
作者
甄兆博
张晖
《中央民族大学学报(自然科学版)》
2024年第1期12-19,共8页
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本...
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。
展开更多
关键词
语音识别
蒙古语
生语料
语音文本对齐
在线阅读
下载PDF
职称材料
基于原始波残差网络的语音欺骗检测
被引量:
2
4
作者
刘畅
魏为民
+1 位作者
栗风永
才智
《计算机工程与设计》
北大核心
2023年第3期829-835,共7页
针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低...
针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低频和高频截止频率,减少原始波建模参数数量;搭建残差网络模型作为后端分类器,改进激活函数并增加跳转连接模块以获得更好的泛化性能。实验数据集采用ASVspoof2019大赛官方数据集,实验结果表明,在逻辑攻击场景及物理攻击场景中,提出模型均相对基线系统具有更低的等错误率。
展开更多
关键词
语音欺骗检测
原始波
Sinc函数
建模参数
残差网络
激活函数
等错误率
在线阅读
下载PDF
职称材料
题名
基于端到端深度神经网络的语音情感识别研究
被引量:
13
1
作者
吕惠炼
胡维平
机构
广西师范大学电子工程学院
出处
《广西师范大学学报(自然科学版)》
CAS
北大核心
2021年第3期20-26,共7页
基金
国家自然科学基金(61861005)。
文摘
语音情感识别是实现自然人机交互的重要组成部分,传统语音情感识别系统主要集中于特征提取和模型构建。本文提出一种将深度神经网络直接应用于原始信号的语音情感识别方法。原始语音数据携带了语音信号的情感信息、二维空间信息和时序上下文信息。建立的模型以端到端的方式进行训练,网络自动学习原始语音信号的特征表示,无需手工特征提取步骤。该网络模型同时兼顾了CNN和BLSTM 2种神经网络的优点。利用CNN从原始语音数据中学习空间特征,其后添加一个BLSTM学习上下文特征。为了评估该模型的有效性,在IEMOCAP数据库上进行识别测试,获得的WA和UA分别为71.39%、61.06%。此外,与基线模型进行对比,验证了提出方法的有效性。
关键词
语音情感识别
CNN
BLSTM
端到端
原始语音
Keywords
speech
emotion recognition
CNN
BLSTM
end-to-end
raw speech
分类号
TN912.34 [电子电信—通信与信息系统]
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
基于Sinc-Transformer模型的原始语音情感识别
被引量:
11
2
作者
俞佳佳
金赟
马勇
姜芳艽
戴妍妍
机构
江苏师范大学物理与电子工程学院
江苏师范大学科文学院
江苏师范大学语言科学与艺术学院
出处
《信号处理》
CSCD
北大核心
2021年第10期1880-1888,共9页
基金
国家自然科学基金青年项目(52005267)
江苏省高校自然科学基金(18KJB510013,17KJB510018)。
文摘
考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务。该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量。在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sinc-Transformer模型准确率与非加权平均召回率分别为64.14%和65.28%。同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能。
关键词
语音情感
Transformer模型编码器
SincNet滤波器
原始语音
Keywords
speech
emotion
Transformer model encoder
SincNet filter
raw speech
分类号
TN912.34 [电子电信—通信与信息系统]
在线阅读
下载PDF
职称材料
题名
语音文本对齐技术构建蒙古语语音识别语料库研究
3
作者
甄兆博
张晖
机构
蒙古文智能信息处理技术国家地方联合工程研究中心
内蒙古自治区蒙古文信息处理技术重点实验室
内蒙古大学计算机学院
出处
《中央民族大学学报(自然科学版)》
2024年第1期12-19,共8页
文摘
目前,适用于蒙古语的语音识别数据在规模上与英语、汉语的训练数据存在着巨大的差距。因此需要一种低成本的数据集构建方法,以补全数据来源上的短板。在生活交往中已生成了海量的蒙古语数据资源,其中很多都是语音文本粗略对照的形式,本研究采用从这样的语料中提炼可供训练用的语料的技术路线,选择电视剧配音剧本和对应成片作为样例,将提炼工作看作是一个语音文本对齐问题。通过一系列自动化处理将剧本和对应的音频转换为适用于语音文本对齐处理的数据形式,利用迭代的对齐方法得到了语音文本对齐结果,利用这些结果生成了适用于蒙古语语音识别的逐句对齐的“语音—文本对”数据。通过对生成的数据进行抽样检查发现,生成的数据有较好的质量,与人工标注基本一致,节省了数据生产的成本。
关键词
语音识别
蒙古语
生语料
语音文本对齐
Keywords
speech
recognition
Mongolian
raw
corpus
speech
-text alignment
分类号
TN391 [电子电信—物理电子学]
在线阅读
下载PDF
职称材料
题名
基于原始波残差网络的语音欺骗检测
被引量:
2
4
作者
刘畅
魏为民
栗风永
才智
机构
上海电力大学计算机科学与技术学院
出处
《计算机工程与设计》
北大核心
2023年第3期829-835,共7页
基金
上海市自然科学基金项目(16ZR1413100)。
文摘
针对传统检测方法在不同情境下仅提取语音单一特征可能会导致丢失语音中的重要信息的问题,提出一种基于原始波残差网络的语音欺骗检测方法。取代单一语音特征,直接在语音原始波形中提取帧级特征作为输入;基于参数化Sinc函数重点学习低频和高频截止频率,减少原始波建模参数数量;搭建残差网络模型作为后端分类器,改进激活函数并增加跳转连接模块以获得更好的泛化性能。实验数据集采用ASVspoof2019大赛官方数据集,实验结果表明,在逻辑攻击场景及物理攻击场景中,提出模型均相对基线系统具有更低的等错误率。
关键词
语音欺骗检测
原始波
Sinc函数
建模参数
残差网络
激活函数
等错误率
Keywords
speech
spoofing detection
raw
waveform
Sinc function
modeling parameters
residual network
activation function
equal error rate
分类号
TP391 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于端到端深度神经网络的语音情感识别研究
吕惠炼
胡维平
《广西师范大学学报(自然科学版)》
CAS
北大核心
2021
13
在线阅读
下载PDF
职称材料
2
基于Sinc-Transformer模型的原始语音情感识别
俞佳佳
金赟
马勇
姜芳艽
戴妍妍
《信号处理》
CSCD
北大核心
2021
11
在线阅读
下载PDF
职称材料
3
语音文本对齐技术构建蒙古语语音识别语料库研究
甄兆博
张晖
《中央民族大学学报(自然科学版)》
2024
0
在线阅读
下载PDF
职称材料
4
基于原始波残差网络的语音欺骗检测
刘畅
魏为民
栗风永
才智
《计算机工程与设计》
北大核心
2023
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部