期刊文献+
共找到402篇文章
< 1 2 21 >
每页显示 20 50 100
基于多头注意力机制的Wav2Vec 2.0-LSTM语音情感识别
1
作者 张红兵 孙惠民 《电声技术》 2025年第8期27-29,79,共4页
传统语音情感识别方法依赖人工设计的特征,难以捕捉到语音中的复杂情感信息并进行准确分类。针对该问题提出一种基于多头注意力机制的Wav2Vec 2.0模型和长短期记忆(Long Short-Term Memory,LSTM)网络相结合的语音情感识别模型,并采用加... 传统语音情感识别方法依赖人工设计的特征,难以捕捉到语音中的复杂情感信息并进行准确分类。针对该问题提出一种基于多头注意力机制的Wav2Vec 2.0模型和长短期记忆(Long Short-Term Memory,LSTM)网络相结合的语音情感识别模型,并采用加权准确率和未加全准确率作为评价指标,在两个公开情感数据集IEMOCAP和RAVDESS上进行实验。实验结果表明,相较于其他基线模型,新模型在语音情感识别任务中具有较高的识别精度。 展开更多
关键词 语音情感识别 wav2Vec 2.0模型 长短期记忆(LSTM)网络 多头注意力机制
在线阅读 下载PDF
基于Wav2Vec2.0特征融合与联合损失的深度伪造语音检测方法 被引量:1
2
作者 陈飞飞 郭海燕 +2 位作者 郭延民 葛子瑞 陆华庆 《信号处理》 北大核心 2025年第9期1547-1557,共11页
语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有... 语音预训练模型Wav2Vec2.0能够通过多个隐藏层提取丰富的多层嵌入特征,在深度伪造语音检测任务中表现出良好的性能。将Wav2Vec2.0各层特征进行融合,是进一步挖掘语音数据深层次表示的有效途径,而改进Wav2Vec2.0各层特征的融合方式则有望进一步提升深度伪造语音检测性能。鉴于此,本文基于Wav2Vec2.0深度伪造语音检测架构,提出引入卷积注意力模块(Convolutional Block Attention Module,CBAM)对Wav2Vec2.0各层嵌入特征进行融合,通过结合通道注意力和空间注意力的加权融合方式来自适应地增强关键特征,有效提升模型的特征提取能力。在此基础上,考虑到伪造语音类型复杂多样,不同类型的伪造语音在鉴别难度上可能存在显著差异,为避免模型在处理难鉴别样本时存在的偏倚,同时使得类内特征分布紧凑、类间特征分布疏远。本文提出联合交叉熵损失、中心损失和焦点损失,构造模型的整体损失函数,充分利用各类损失的优势来增强模型在多种伪造语音场景下的判别能力和泛化性能。在ASVspoof 2019 LA、ASVspoof 2021 LA、ASVspoof 2021 DF和CFAD数据集上的实验结果表明,所提出的方法在常用评价指标等错误率(equal error rate,EER)和最小串联检测代价函数(minimum tandem detection cost function,min t-DCF)均表现出色。尤其是在ASVspoof 2021 LA数据集上,相较于AASIST、ECAPA-TDNN、ResNet,以及采用Wav2Vec2.0进行前端特征提取的多种对比方案,本文方法显著优于所有对比方法。 展开更多
关键词 深度伪造语音检测 wav2Vec2.0 特征融合 联合损失
在线阅读 下载PDF
基于全局通道数剪枝的Wav2Lip模型轻量化的研究
3
作者 徐康杰 陈云翔 +2 位作者 张龙 唐帅 周庆华 《计算机科学与应用》 2025年第5期606-614,共9页
针对Wav2Lip模型计算量大,推理速度慢,在一些对实时性要求较高或算力较为有限的应用场景中可能难以满足预期效果等问题,论文提出了基于全局通道数剪枝的方法,选用了三种不同剪枝比例,对Wav2Lip模型进行了全局通道数剪枝并对比。实验结... 针对Wav2Lip模型计算量大,推理速度慢,在一些对实时性要求较高或算力较为有限的应用场景中可能难以满足预期效果等问题,论文提出了基于全局通道数剪枝的方法,选用了三种不同剪枝比例,对Wav2Lip模型进行了全局通道数剪枝并对比。实验结果表明,论文提出的全局通道数剪枝方案成功地:1) 提升了推理速度;2) 减小了模型体积;3) 保持或提升了所生成图像的效果。该方案在降低计算成本的同时,能够实现高效且稳定的推理性能。In response to the issues of high computational complexity, slow inference speed, and potential difficulty in achieving expected results in some application scenarios that require high real-time performance or limited computing power for the Wav2Lip model, the paper proposes a method based on global channel pruning, using three different pruning ratios to perform global channel pruning on the Wav2Lip model and compare them, the experimental results show that the global channel pruning scheme proposed in the paper successfully: 1) improves inference speed;2) Reduced the size of the model;3) Maintained or improved the effect of the generated image. This solution can achieve efficient and stable inference performance while reducing computational costs. 展开更多
关键词 wav2Lip 深度学习 模型轻量化 全局通道数剪枝
在线阅读 下载PDF
改进Wav2Lip的文本音频驱动人脸动画生成 被引量:2
4
作者 孙瑜 朱欣娟 《计算机系统应用》 2024年第2期276-283,共8页
为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2... 为了提高中文唇音同步人脸动画视频的真实性,本文提出一种基于改进Wav2Lip模型的文本音频驱动人脸动画生成技术.首先,构建了一个中文唇音同步数据集,使用该数据集来预训练唇部判别器,使其判别中文唇音同步人脸动画更加准确.然后,在Wav2Lip模型中,引入文本特征,提升唇音时间同步性从而提高人脸动画视频的真实性.本文模型综合提取到的文本信息、音频信息和说话人面部信息,在预训练的唇部判别器和视频质量判别器的监督下,生成高真实感的唇音同步人脸动画视频.与ATVGnet模型和Wav2Lip模型的对比实验表明,本文模型生成的唇音同步人脸动画视频提升了唇形和音频之间的同步性,提高了人脸动画视频整体的真实感.本文成果为当前人脸动画生成需求提供一种解决方案. 展开更多
关键词 文本音频驱动 人脸动画 wav2Lip模型 动画生成
在线阅读 下载PDF
WAV音频文件的分句播放技术及应用 被引量:2
5
作者 孙世军 彭承琳 白洋 《计算机工程与应用》 CSCD 北大核心 2004年第12期102-104,共3页
由于英语听力训练的要求,提出了一种WAV音频文件分句播放技术,并给出在VC++上实现的一个实例。利用多媒体文件输入输出服务函数,从WAV文件读出音频格式和音频数据。用一个指针指定要播放句子数据的开始位置,将要播放的音频数据一段一段... 由于英语听力训练的要求,提出了一种WAV音频文件分句播放技术,并给出在VC++上实现的一个实例。利用多媒体文件输入输出服务函数,从WAV文件读出音频格式和音频数据。用一个指针指定要播放句子数据的开始位置,将要播放的音频数据一段一段地取出,播放每一句所用的时间来自分句信息文件,确定所播放数据的长度,调用WAV音频服务函数实现分句播放。在VisualC++6下用此技术开发了英语听力训练多媒体教学软件。 展开更多
关键词 wav音频服务函数 wav音频文件 分句播放 VISUAL C++ 多媒体文件输入输出服务函数
在线阅读 下载PDF
基于iOS的WAV录制音频背景音合成与MP3音频转码 被引量:1
6
作者 陈剑峰 《电子质量》 2021年第12期83-85,共3页
读取WAV音频文件并实例化为音频资源,解析音频资源对象获取音频轨迹,创建合成音频轨道,在合成音频轨道上配置要合成的各个音频轨道,将要合成的各个音频轨道插入对应的音频轨迹,然后循环填充背景音音频轨道直至覆盖整个合成音频轨道,可... 读取WAV音频文件并实例化为音频资源,解析音频资源对象获取音频轨迹,创建合成音频轨道,在合成音频轨道上配置要合成的各个音频轨道,将要合成的各个音频轨道插入对应的音频轨迹,然后循环填充背景音音频轨道直至覆盖整个合成音频轨道,可以对合成音频轨道上各个音频轨道进行个性化配置,将合成音频轨道根据指定的音频格式输出到指定文件路径,将合成音频先转码为CAF音频格式,再转码为MP3音频格式,将MP3音频文件通过云端发送给设备端。 展开更多
关键词 wav音频录制 基于iOS的wav音频背景音合成 基于iOS的音频转码 wav音频格式转MP3音频格式
在线阅读 下载PDF
基于WAV文件的独奏乐曲信号中的乐谱识别 被引量:4
7
作者 曹西征 刘春红 孙林 《计算机应用》 CSCD 北大核心 2009年第3期768-770,788,共4页
大多数乐谱识别工作都是在MIDI格式文件下进行的,而音乐数据大多采用音频格式存储,为此讨论一种从WAV音频文件的独奏乐曲信号中识别出乐谱的方法。采用离散余弦变换(DCT)结合能量比对的手段,并提出了一种变化音最少法则:以十六分音符对... 大多数乐谱识别工作都是在MIDI格式文件下进行的,而音乐数据大多采用音频格式存储,为此讨论一种从WAV音频文件的独奏乐曲信号中识别出乐谱的方法。采用离散余弦变换(DCT)结合能量比对的手段,并提出了一种变化音最少法则:以十六分音符对应的时值作为步长,将乐曲信号分为若干个子段;对每个子段进行一维DCT操作,提取基音频率;对相邻子段进行能量比对,查找音符的端点;利用变化音最少法则,生成乐谱。实验表明此方法具有良好的识别效果。 展开更多
关键词 乐谱识别 wav文件 离散余弦变换 基音频率
在线阅读 下载PDF
XBASE数据库WAV音频信息提取批处理 被引量:1
8
作者 张庆华 韩吉韬 王宁生 《南京航空航天大学学报》 EI CAS CSCD 北大核心 2003年第6期676-681,共6页
在开发新的管理信息系统时 ,原有数据库信息的一种处理方法是将所有信息提取导入到新系统中 ,这样可以避免对旧的数据库系统进行维护 ,也便于新系统的更新升级。一些基于 d BASE X,Fox BASE,Fox Pro等XBASE数据库的信息系统改造升级时 ,... 在开发新的管理信息系统时 ,原有数据库信息的一种处理方法是将所有信息提取导入到新系统中 ,这样可以避免对旧的数据库系统进行维护 ,也便于新系统的更新升级。一些基于 d BASE X,Fox BASE,Fox Pro等XBASE数据库的信息系统改造升级时 ,XBASE数据库 DBF表文件向 Oracle,SQL Sever等数据库加载导入有各种不同的方法 ,但对于存储在 FPT备注文件中的 WAV音频信息数据的转换则没有好的解决办法。本文分析了各个版本 XBASE数据库文件和 WAV音频文件的结构 ,提出了基于文件的 XBASE数据库 WAV音频信息自动导出转换的处理方法 ,可以在脱离数据库系统操作环境进行信息处理 ,提高了数据库转换工作的效率 ,解决了无法转换 XBASE备注文件中 WAV音频数据的问题 。 展开更多
关键词 XBASE数据库 wav 音频信息 批处理 信息处理 FPT文件 文件结构
在线阅读 下载PDF
基于多媒体WAV文件的语音特征识别 被引量:1
9
作者 徐济仁 陈家松 谢成山 《计算机工程》 CAS CSCD 北大核心 2000年第11期123-125,共3页
Windows的WAV文件提供的语音信息可以满足语音特征识别的要求.根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别.所选择的参数有效,系... Windows的WAV文件提供的语音信息可以满足语音特征识别的要求.根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别.所选择的参数有效,系统模板存储量少,系统训练和识别的运算量小. 展开更多
关键词 wav文件 讲话者识别 语音特征识别 多媒体
在线阅读 下载PDF
WAV语音文件格式的分析与处理 被引量:8
10
作者 张敬怀 马道钧 《北京电子科技学院学报》 2004年第2期47-50,46,共5页
WAV语音文件是Windows声音文件基本格式之一。分析其语音文件的格式是语音信号处理的一项重要工作。本文细致地分析了WAV语音文件的格式,为进一步进行语音文件数据处理和语音信号处理打下了基础。
关键词 wav 语音文件格式 RIFF文件 采样数据
在线阅读 下载PDF
对WAV文件格式的实例分析 被引量:2
11
作者 徐济仁 牛纪海 陈家松 《电声技术》 北大核心 2001年第11期55-56,共2页
关键词 wav文件格式 实例分析 声音文件
在线阅读 下载PDF
WAV文件格式实例分析 被引量:5
12
作者 徐济仁 牛纪海 陈家松 《微型机与应用》 2002年第3期50-51,共2页
分析WAV文件格式。
关键词 wav文件 声音文件 格式码 文件格式 程序设计
在线阅读 下载PDF
WAV音频分句的算法设计 被引量:2
13
作者 赵文博 张生 +1 位作者 孙国强 王艇艇 《微计算机信息》 2011年第8期204-205,196,共3页
随着网络信息技术的迅猛成长,我们正快步走进信息时代,世界经济、文化等信息交流变得十分频繁与快捷。基于语言学习的需要,本文提出了一种基于语音端点检测技术的音频分句算法。本算法对音频文件进行"分帧"后,通过提取语音帧... 随着网络信息技术的迅猛成长,我们正快步走进信息时代,世界经济、文化等信息交流变得十分频繁与快捷。基于语言学习的需要,本文提出了一种基于语音端点检测技术的音频分句算法。本算法对音频文件进行"分帧"后,通过提取语音帧特征项,判别其特征值后对其进行归类。在特征项提取时,为短时过零率设定正负门限,可大大增强判别特征值的准确性。提出上升沿与下降沿的概念对语音端点进行精确定位,并最终存储音频分句的端点,实现音频分句功能。 展开更多
关键词 wav音频 音频分句 短时过零率 短时平均能量
在线阅读 下载PDF
wav音频文件格式分析与数据获取 被引量:16
14
作者 罗海涛 《电脑知识与技术》 2016年第9X期211-213,共3页
音频文件是把语音信号离散化的数字文件,wav格式的音频文件是常用的二进制音频格式,广泛应用于语音信号处理、语音识别、语音合成等领域;本文详细分析了wav音频文件格式,并用C语言编程,实现对该格式文件的访问,获取音频信息和数据。
关键词 wav 音频文件 音频信息 音频数据
在线阅读 下载PDF
一种确保在WinCE系统中传输.wav文件完整性的方法
15
作者 王忠 《现代电子技术》 北大核心 2015年第10期49-51,共3页
使用WinCE系统的智能手持终端,在不稳定的无线网络环境中使用UDP协议发送wav格式的音频文件时,另一台WinCE智能设备接收到的文件经常是不完整的,导致文件无法播放。针对这种网络数据丢包现象,研究提高UDP协议可靠性的设计思路和实现方法... 使用WinCE系统的智能手持终端,在不稳定的无线网络环境中使用UDP协议发送wav格式的音频文件时,另一台WinCE智能设备接收到的文件经常是不完整的,导致文件无法播放。针对这种网络数据丢包现象,研究提高UDP协议可靠性的设计思路和实现方法,发现.wav文件头中标识文件属性的数据无法与接收到的文件数据实体对应,是造成无法正常播放的根本原因,因此对接收的文件的文件头进行校正和复原工作,保证头文件的各标识位对应数据的正确性,确保接收的声音文件能正常播放。最后在嵌入式开发环境中进行了实现,验证了这种方法的有效性。 展开更多
关键词 WINCE UDP wav文件 智能手持终端
在线阅读 下载PDF
数字信号处理在wav信号分析方面的应用 被引量:1
16
作者 黄荷洁 《科技视界》 2013年第34期172-173,共2页
随着信息学科和计算机学科的飞速发展,数字信号处理的重要性日益显著。本文将详细介绍数字信号处理技术在信号分析方面的实际应用,同时文中给出了MATLAB仿真程序和结果分析,便于读者进一步认识数字信号处理技术的应用。
关键词 数字信号处理 wav信号 傅里叶变换
在线阅读 下载PDF
基于多媒体WAV文件的语音特征识别
17
作者 徐济仁 陈家松 《舰船电子工程》 2002年第6期37-40,共4页
WINDOWS的WAV文件提供的语音信息可以满足语音特征识别的要求。根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别,所选择的参数有效,系统模板存储量少,... WINDOWS的WAV文件提供的语音信息可以满足语音特征识别的要求。根据讲话者在讲话时鼻腔相对固定以及汉语鼻音声母少的特点,使用极零模型,并以所有汉语鼻声母音节的零点谱为参数,实现汉语讲话音辨别,所选择的参数有效,系统模板存储量少,系统训练和识别的运算量小。 展开更多
关键词 多媒体 wav文件 讲话者识别 鼻音声母 极零模型 语音识别
在线阅读 下载PDF
VB中调用API实现wav文件的记录和播放
18
作者 郭姣 《科技创新导报》 2009年第3期34-34,共1页
本文对Windows API函数在Visual Basic中的多媒体操作进行了简明的论述,使用户能够轻松自如地实现wav文件的记录和播放,并给出了相关源代码。
关键词 WINDOWS API函数 VISUAL Basic wav文件
在线阅读 下载PDF
用VB实现对WAV文件的控制
19
作者 韩英 《黑龙江科技信息》 2012年第16期106-106,154,共2页
本文给出一个用VB6.0编写的应用实例。对WAV文件的播放位置,既可用滑杆进行控制,又可用数字进行位置的精确定位。利用该思想开发的程序,已应用于外语教学的听力训练,收到了良好的效果。
关键词 VB wav 控件
在线阅读 下载PDF
多媒体WAV文件的动态连接库
20
作者 张霞 林丽 《河南气象》 2001年第2期43-44,共2页
利用VisualC ++6 .0开发的动态连接库PCM .DLL ,可以与 12 1电话自动服务系统的语音库相结合 ,实现气象业务的多媒体功能。
关键词 多媒体 动态连接库 函数 wav文件 气象部门 121电话自动服务系统 语音库
在线阅读 下载PDF
上一页 1 2 21 下一页 到第
使用帮助 返回顶部