期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于双路径递归网络与Conv-TasNet的多头注意力机制视听语音分离 被引量:1
1
作者 兰朝凤 蒋朋威 +4 位作者 陈欢 赵世龙 郭小霞 韩玉兰 韩闯 《电子与信息学报》 EI CAS CSCD 北大核心 2024年第3期1005-1012,共8页
目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型... 目前的视听语音分离模型基本是将视频特征和音频特征进行简单拼接,没有充分考虑各个模态的相互关系,导致视觉信息未被充分利用,分离效果不理想。该文充分考虑视觉特征、音频特征之间的相互联系,采用多头注意力机制,结合卷积时域分离模型(Conv-TasNet)和双路径递归神经网络(DPRNN),提出多头注意力机制时域视听语音分离(MHATD-AVSS)模型。通过音频编码器与视觉编码器获得音频特征与视频的唇部特征,并采用多头注意力机制将音频特征与视觉特征进行跨模态融合,得到融合视听特征,将其经DPRNN分离网络,获得不同说话者的分离语音。利用客观语音质量评估(PESQ)、短时客观可懂度(STOI)及信噪比(SNR)评价指标,在VoxCeleb2数据集进行实验测试。研究表明,当分离两位、3位或4位说话者的混合语音时,该文方法与传统分离网络相比,SDR提高量均在1.87 dB以上,最高可达2.29 dB。由此可见,该文方法能考虑音频信号的相位信息,更好地利用视觉信息与音频信息的相关性,提取更为准确的音视频特性,获得更好的分离效果。 展开更多
关键词 语音分离 视听融合 跨模态注意力 双路径递归网络 conv-tasnet
在线阅读 下载PDF
基于TasNet的单通道语音分离技术的研究综述 被引量:2
2
作者 陆炜 朱定局 《计算机与现代化》 2022年第11期119-126,共8页
语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被... 语音分离是声学信号处理中的一项基本任务,具有广泛的应用。得益于深度学习的发展,近年来单通道语音分离系统的性能有了显着提升。特别是,随着一种被称为时域音频网络(Time-domain audio separation Network,TasNet)的新语音分离方法被提出,语音分离技术的研究也逐步从基于时-频域的传统方法过渡至基于时域的方法。本文综述基于TasNet的单通道语音分离技术的研究现状与展望。在回顾基于时-频域的语音分离传统方法之后,本文重点介绍基于TasNet的Conv-TasNet模型以及DPRNN模型,并对比针对各模型的改进研究。最后,本文阐述目前基于TasNet的单通道语音分离模型的局限性,并从模型、数据集、说话人数量以及如何解决复杂场景下的语音分离等层面对未来的研究方向进行讨论。 展开更多
关键词 语音分离 时域音频网络 全卷积时域音频网络 双路径循环神经网络
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部