期刊导航
期刊开放获取
vip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
被引量:
1
1
作者
兰朝凤
蒋朋威
+4 位作者
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型...
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。
展开更多
关键词
语音分离
视听融合
跨模态注意力
双路径递归网络
conv-tasnet
在线阅读
下载PDF
职称材料
基于TasNet的单通道语音分离技术的研究综述
被引量:
2
2
作者
陆炜
朱定局
《计算机与现代化》
2022年第11期119-126,共8页
语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被...
语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被提出,语音分离技术的研究也逐步从基于时-频域的传统方法过渡至基于时域的方法。本文综述基于TasNet的单通道语音分离技术的研究现状与展望。在回顾基于时-频域的语音分离传统方法之后,本文重点介绍基于TasNet的Conv-TasNet模型以及DPRNN模型,并对比针对各模型的改进研究。最后,本文阐述目前基于TasNet的单通道语音分离模型的局限性,并从模型、数据集、说话人数量以及如何解决复杂场景下的语音分离等层面对未来的研究方向进行讨论。
展开更多
关键词
语音分离
时域音频网络
全卷积时域音频网络
双路径循环神经网络
在线阅读
下载PDF
职称材料
题名
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
被引量:
1
1
作者
兰朝凤
蒋朋威
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
机构
哈尔滨理工大学测控技术与通信工程学院
哈尔滨工大卫星技术有限公司
中国舰船研究设计中心
出处
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024年第3期1005-1012,共8页
基金
国家自然科学基金(11804068)
黑龙江省自然科学基金(LH2020F033)。
文摘
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。
关键词
语音分离
视听融合
跨模态注意力
双路径递归网络
conv-tasnet
Keywords
Speech separation
Audiovisual fusion
Cross-modal attention
Dual-path recurrent network
conv-tasnet
分类号
TN912.3 [电子电信—通信与信息系统]
TP391.41 [自动化与计算机技术—计算机应用技术]
在线阅读
下载PDF
职称材料
题名
基于TasNet的单通道语音分离技术的研究综述
被引量:
2
2
作者
陆炜
朱定局
机构
华南师范大学计算机学院
出处
《计算机与现代化》
2022年第11期119-126,共8页
基金
国家自然科学基金重点项目资助(U18112000)。
文摘
语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被提出,语音分离技术的研究也逐步从基于时-频域的传统方法过渡至基于时域的方法。本文综述基于TasNet的单通道语音分离技术的研究现状与展望。在回顾基于时-频域的语音分离传统方法之后,本文重点介绍基于TasNet的Conv-TasNet模型以及DPRNN模型,并对比针对各模型的改进研究。最后,本文阐述目前基于TasNet的单通道语音分离模型的局限性,并从模型、数据集、说话人数量以及如何解决复杂场景下的语音分离等层面对未来的研究方向进行讨论。
关键词
语音分离
时域音频网络
全卷积时域音频网络
双路径循环神经网络
Keywords
speech separation
TasNet
conv-tasnet
DPRNN
分类号
TP183 [自动化与计算机技术—控制理论与控制工程]
在线阅读
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离
兰朝凤
蒋朋威
陈欢
赵世龙
郭小霞
韩玉兰
韩闯
《电子与信息学报》
EI
CAS
CSCD
北大核心
2024
1
在线阅读
下载PDF
职称材料
2
基于TasNet的单通道语音分离技术的研究综述
陆炜
朱定局
《计算机与现代化》
2022
2
在线阅读
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部