期刊文献+
共找到16,526篇文章
< 1 2 250 >
每页显示 20 50 100
结合双流注意力与对抗互重建的双模态情绪识别方法
1
作者 刘佳 张洋瑞 +2 位作者 陈大鹏 毛碟 卢国瑞 《电子与信息学报》 北大核心 2026年第1期277-286,共10页
随着情感计算的不断发展,基于多模态信号的情绪识别方法得到了广泛关注。脑电情感信号因受试个体的不同存在较大的分布差异,导致分类识别率不高。为了解决现有情绪识别方法中单一模态存在的噪声大、个体差异明显等问题,该文结合脑电信号... 随着情感计算的不断发展,基于多模态信号的情绪识别方法得到了广泛关注。脑电情感信号因受试个体的不同存在较大的分布差异,导致分类识别率不高。为了解决现有情绪识别方法中单一模态存在的噪声大、个体差异明显等问题,该文结合脑电信号(EEG)与语音信号提出一种基于双流注意力与对抗互重建的双模态情绪识别方法。在脑电模态方面,设计集成时间帧-通道联合注意力与Mamba网络的双重特征提取器,实现对关键时序片段与频谱特征的深度建模。在语音模态方面,引入帧级随机掩码机制与双向长短时记忆网络结构,增强模型对语音情绪变化的建模能力及抗干扰能力。通过模态精炼融合模块引入梯度反转层与正交投影机制,提升模态对齐与判别能力;进一步地,结合对抗互重建机制,在共享隐空间中重建同类情绪特征,实现跨被试的一致性建模。实验在MAHNOB-HCI,EAV与SEED等多个基准数据集上验证了所提方法的有效性,结果表明该模型在跨个体情绪识别与模态信息融合方面具有显著优势,为多模态情感计算提供了一种有效解决方案。 展开更多
关键词 多模态情感识别 注意力机制 对抗互重建 脑电 语音特征
在线阅读 下载PDF
基于融合编码策略与通道增强的声音事件定位与检测
2
作者 王春丽 陈善立 刘素倩 《应用声学》 北大核心 2026年第1期223-235,共13页
在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码... 在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码策略与通道增强的声音事件定位与检测算法,利用融合编码策略让模型能够将不同编码策略的特征进行自适应融合,增强对复杂信号中关键特征的提取能力;且根据声学信号在频域上表现出不同的频率分布和能量集中度的特性,结合离散余弦变换从通道维度出发,对信号的重要频率进行加权,学习每个通道不同频率的重要性,加强模型在频域上的建模,提升模型对关键信号的捕捉能力。实验结果表明,该文提出的模型性能要优于基线模型,当引入距离估计任务时,提出算法综合性能优于部分现有模型,为三维声音事件定位与检测任务提供了新的思路。 展开更多
关键词 声音事件定位与检测 距离估计 融合编码策略 通道增强 离散余弦变换
在线阅读 下载PDF
基于STM32的语音交互振动监测系统开发
3
作者 张强 盛冬发 《计算机科学与应用》 2026年第2期328-336,共9页
传统振动监测系统在中小型工业场景中部署多节点时,常存在结构冗余、协同响应慢等问题,影响监测的有效性与运维效率。为此,本研究设计了一种基于一主多从架构、支持语音交互的振动监测系统,选用STM32F405RGT6作为核心控制单元,构建“主... 传统振动监测系统在中小型工业场景中部署多节点时,常存在结构冗余、协同响应慢等问题,影响监测的有效性与运维效率。为此,本研究设计了一种基于一主多从架构、支持语音交互的振动监测系统,选用STM32F405RGT6作为核心控制单元,构建“主机集中管控–从机分布式采集”体系,整合PKG-100压电振动传感器、E22-400T22D LoRa通信模块及ASRPRO离线语音交互模块,实现振动信号实时采集、边缘端异常预处理及多节点数据可靠交互。该系统结构紧凑,待机电流低于50 mA,适用于电池供电场合,并可扩展至10个从机节点,能够较好满足中小型工业设备多位置振动监测的需求,在兼容性与可扩展性方面具有较好的实用性。 展开更多
关键词 振动监测 语音交互 STM32 LoRa通信
在线阅读 下载PDF
联合听觉场景分析与深度学习的舰船辐射噪声分离方法
4
作者 吴轩 王海涛 +2 位作者 何群铱 曾向阳 陈克安 《声学学报》 北大核心 2026年第1期170-182,共13页
针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处... 针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处理,构建时频片段,利用密集连接U型网络(Dense-UNet)提取数据特征并构建分离掩码,其中Dense-UNet网络结合了传统U型网络(UNet)的编码器–解码器结构和密集连接网络(DenseNet)的密集连接操作,能够在编码器部分高效提取多尺度特征,同时在解码器部分通过跳跃连接和密集连接有效恢复细粒度的信号结构;在听觉重组阶段,基于邻近帧相关性分析对初始分离信号进行帧级再调整配对,最终实现对分离信号的重组。基于实际舰船辐射噪声数据的实验表明,所设计方法相较于其他常用深度学习分离方法在网络规模降低的条件下取得更优分离效果,且具有更好的稳定性。 展开更多
关键词 舰船辐射噪声分离 计算听觉场景 深度学习 帧相关性
原文传递
基于SAE-LS-CGAN数据增强的语音情感识别
5
作者 魏佳楠 孙颖 张雪英 《太原理工大学学报》 北大核心 2026年第1期202-211,共10页
【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种... 【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种语音数据增强方法的基础上,提出了一种基于改进条件生成对抗模型(Conditional Generative Adversarial Network,CGAN)的新的数据增强模型SAE-LS-CGAN。该模型将语音特征映射为N个矩阵,鉴别器分别对每个矩阵进行评价,提升鉴别精度。与传统的生成对抗网络(Generative Adversarial Network,GAN)相比,该模型引入栈式自编码器(Stacked AutoEncoder,SAE),并将其输出作为改进CGAN的输入,同时结合类别学习器(Class Learning Block,CLB)优化生成样本的质量;进一步引入最小二乘损失函数(The Least Squares Loss Function,LS)对网络进行对抗性训练,在原始特征空间和潜在空间中生成高质量的特征向量,并将生成数据融入到训练数据中用于分类。【结果】实验结果表明,所提模型在Emo-DB和IEMOCAP数据集上的语音情感识别任务中均取得了较优的性能表现。 展开更多
关键词 语音情感识别 数据增强 栈式自编码器 条件生成对抗网络 最小二乘损失函数
在线阅读 下载PDF
AI语音合成技术:问题类型与治理路径
6
作者 邱德胜 罗译泓 《自然辩证法通讯》 北大核心 2026年第1期1-9,共9页
近年来,AI语音合成技术已被广泛应用于有声读物、游戏配音、歌曲制作及人机交互等多个领域,深刻塑造并改变了人的听觉体验。其逼真性、互动性与定制化等技术特征促使个体在身体、社会与自我三个维度保持在场,在优化沉浸体验、促进人机... 近年来,AI语音合成技术已被广泛应用于有声读物、游戏配音、歌曲制作及人机交互等多个领域,深刻塑造并改变了人的听觉体验。其逼真性、互动性与定制化等技术特征促使个体在身体、社会与自我三个维度保持在场,在优化沉浸体验、促进人机互动与声音美化等方面发挥了巨大作用。然而,这些特征也引发了语音欺诈、过度情感依赖与自我认同混乱等伦理与社会问题。为有效应对挑战,亟须对AI语音技术在研发、验证与应用等各阶段进行全方位伦理审视,从发展敏捷治理的AI语音技术生态、构建多元主体共治共享的协同框架、推进AI语音技术的动态预警机制出发,引导其择善而行。 展开更多
关键词 AI语音合成 在场 逼真性 互动性 定制化
原文传递
基于潮涌卷积神经网络的说话人确认
7
作者 陈晨 仪志鑫 +1 位作者 李东源 陈德运 《电子与信息学报》 北大核心 2026年第2期806-817,共12页
近年来,最先进的说话人确认模型大多数以牺牲参数量和计算量的代价来实现感受野的固定获取,然而鉴于语音信号内部蕴含着丰富且多层次的信息,通过高度自主选择的动态感受野来描绘复杂信息是相对未被探索的,更没有直观地解释是什么构成了... 近年来,最先进的说话人确认模型大多数以牺牲参数量和计算量的代价来实现感受野的固定获取,然而鉴于语音信号内部蕴含着丰富且多层次的信息,通过高度自主选择的动态感受野来描绘复杂信息是相对未被探索的,更没有直观地解释是什么构成了关于有效感受野的最佳实践。潮涌现象表现为潮水前端形成陡立水墙并伴随轰鸣声高速推进,受其非线性耦合行为的启发,该文提出潮涌卷积(TR-Conv)“使用潮涌感受野(T-RRF),获得更有效感受野”。首先采用二幂插值操作构建窗口内的主/从感受野,随后分别采用扫描-池化机制聚焦提取窗口外的关键信息、算子机制精细感知窗口内的差异信息,最后融合三重感受野,得到兼具多尺度、动态性、有效性的可变感受野。为全面验证潮涌卷积的表现,该文建立潮涌卷积神经网络(TR-CNN)。另外,针对数据集的错误标签问题,提出动态归一化的非目标(NTDN)损失与具有两个子中心的加性角边距(Sub-Center AAM)损失变体加权融合的总损失,以提升模型性能。实验结果表明,与ECAPA-TDNN(C=512)相比,TR-CNN(C=512, n=1)分别在测试集Vox1-O, Vox1-E, Vox1-H上的等错误率(EER)以及最小检测代价函数(MinDCF)相对降低了4.95%,4.03%和6.03%以及31.55%, 17.14%和17.42%,参数量和乘加累积操作次数相对减少了32.7%,23.5%。进一步,TR-CNN(C=1 024, n=1)的EER/MinDCF分别是0.85%/0.076 2/1.10%/0.104 8/2.05%/0.173 9。本研究代码已开源:https://www.scidb.cn/detail?dataSetId=a232c98b082941c58002958208ef3f43&version=V1&code=j00173。 展开更多
关键词 说话人确认 潮涌卷积 轻量化网络 二幂插值 动态归一化的非目标损失
在线阅读 下载PDF
使用预测误差方法的助听器凸组合比例声反馈消除算法
8
作者 王森童 全智 《应用声学》 北大核心 2026年第1期245-259,共15页
传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引... 传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引入比例机制和预测误差方法以加速初始收敛和增强跟踪能力,消除了信号之间的高相关性。仿真结果显示,与传统方法相比,所提算法在处理声学信号时,显著降低了失调量并提高了额外稳态增益。 展开更多
关键词 回声消除算法 自适应滤波器 凸组合 预测误差方法 比例自适应滤波法
在线阅读 下载PDF
基于判别性聚类网络的端到端说话人日志系统
9
作者 张开铖 吴林煌 林志坚 《无线电通信技术》 北大核心 2026年第1期197-204,共8页
说话人日志(Speaker Diarization,SD)任务旨在将同一说话人的音频样本合并,并标注其在音频中的话音活动位置。现有的端到端说话人日志(End-to-End Neural Diarization,EEND)系统在处理多个说话人时受限于置换不变性训练,导致损失计算复... 说话人日志(Speaker Diarization,SD)任务旨在将同一说话人的音频样本合并,并标注其在音频中的话音活动位置。现有的端到端说话人日志(End-to-End Neural Diarization,EEND)系统在处理多个说话人时受限于置换不变性训练,导致损失计算复杂且训练效果不佳。为解决这些问题,提出一种基于判别性聚类网络的EEND(EEND Based on Discriminative Clustering Network,DC-EEND)系统,主要包括嵌入网络、判别性聚类网络(Discriminative Clustering Network,DCN)及辅助任务学习。嵌入网络负责提取声纹嵌入向量,DCN通过监督学习对这些向量进行聚类估计,而辅助任务学习则引入说话人确认支干网络参与嵌入网络优化。实验在公开的VoxCeleb数据集上进行,结果表明DC-EEND适用于多个说话人场景并具备较好的性能优势,辅助任务学习有效改进基于DCN的EEND性能,所设计的嵌入网络更适用于基于DCN的EEND。 展开更多
关键词 说话人日志 端到端 判别性聚类网络 辅助任务 多任务学习
在线阅读 下载PDF
伪造语音攻防及针对语音防伪的测评技术研究进展
10
作者 李文洁 丁增喜 +1 位作者 刘春莹 赵红玉 《警察技术》 2026年第1期44-47,共4页
随着信息技术的飞速发展,尤其是深度学习的不断进步,语音伪造技术带来的安全问题也日益凸显,语音防伪受到越来越多的关注。在分类梳理伪造语音攻防技术的基础上,根据语音防伪评测需要,总结了针对语音防伪技术的测评流程和测评项。
关键词 语音伪造 语音攻防 防伪检测
在线阅读 下载PDF
基于H-GEM模型的多模态情感分析
11
作者 杨新航 王晶晶 +1 位作者 陈思宇 田宏 《计算机系统应用》 2026年第3期59-68,共10页
传统多模态情感分析方法在特征拼接和融合中易产生信息冗余,难以捕捉细粒度复杂情感特征,在模态缺失和跨域迁移场景下鲁棒性不足.同时,现有混合专家(MoE)方法大多为单层结构,专家分工不明确,存在功能重叠和泛化性欠佳的问题.本文提出一... 传统多模态情感分析方法在特征拼接和融合中易产生信息冗余,难以捕捉细粒度复杂情感特征,在模态缺失和跨域迁移场景下鲁棒性不足.同时,现有混合专家(MoE)方法大多为单层结构,专家分工不明确,存在功能重叠和泛化性欠佳的问题.本文提出一种分层自适应混合专家模型H-GEM(hierarchical gated expert mixture).通过构建3层分级专家体系:模态专家层提炼模态特征;融合与抽象专家层自适应选择融合策略;情感极性专家层进行细粒度建模.同时引入信息论与判别性约束提升专家选择的语义区分性和稀疏性.通过分层门控实现逐级决策,保证专家差异化分工与跨任务建模.在CMU-MOSI和CMU-MOSEI数据集上的实验结果表明, H-GEM在一系列指标上均优于基线模型.与单层MoE架构相比,显著降低的路由熵表明其能够有效缓解专家冗余问题.该模型在低资源和模态缺失复杂任务中表现出更高的鲁棒性,展现出良好的应用潜力. 展开更多
关键词 多模态情感分析 分层门控机制 混合专家模型 互信息约束 鲁棒性
在线阅读 下载PDF
基于多模态特征的短视频热度预测研究——以抖音平台为例
12
作者 米赛雪 张琪 +1 位作者 张士豪 李根 《数据与计算发展前沿(中英文)》 2026年第1期183-194,共12页
【目的】短视频已成为网络舆情传播的重要载体,准确预测短视频热度对内容监管和舆情分析至关重要。然而,现有研究在特征提取和时序建模方面存在以下不足:一是特征维度单一,未能充分利用多模态数据;二是传统线性方法难以刻画短视频“冷启... 【目的】短视频已成为网络舆情传播的重要载体,准确预测短视频热度对内容监管和舆情分析至关重要。然而,现有研究在特征提取和时序建模方面存在以下不足:一是特征维度单一,未能充分利用多模态数据;二是传统线性方法难以刻画短视频“冷启动-爆发-衰减”的热度变化规律。为此,本研究提出一种基于多模态特征的短视频热度预测方法。【方法】首先,构建多模态特征体系,涵盖用户影响力、作者影响力、音视频质量及内容特征、评论特征及热度特征。其次,采用随机森林模型进行非线性建模,以捕捉特征间的复杂关联,并提高预测视频热度能力。【结果】实验表明,所提方法在短视频热度预测任务中表现优异,F1分数达69.3%,较基线模型提升13.7个百分点。AUC值达到71.3%,较基线模型提升了16个百分点。【结论】基于多模态特征的热度预测方法能显著提升短视频热度预测的准确性,为网络舆情分析与内容管理提供有效技术支持。 展开更多
关键词 短视频 热度预测 多模态特征 用户影响力 随机森林
在线阅读 下载PDF
语音伪造检测的技术进展与挑战综述
13
作者 唐文洁 更太加 魏建国 《现代信息科技》 2026年第3期183-189,共7页
语音作为一种自然、便捷的交互方式,已广泛应用于诸多领域。语音伪造检测(Speech Spoofing Detection)技术已成为保证语音验证和识别系统安全性的关键技术。随着文本到语音(TTS)合成、语音转换(VC)和深度伪造技术(Deepfake)的迅猛发展,... 语音作为一种自然、便捷的交互方式,已广泛应用于诸多领域。语音伪造检测(Speech Spoofing Detection)技术已成为保证语音验证和识别系统安全性的关键技术。随着文本到语音(TTS)合成、语音转换(VC)和深度伪造技术(Deepfake)的迅猛发展,伪造语音的生成质量和复杂性大幅提高,给语音伪造检测带来了严峻挑战。文章系统回顾了语音伪造检测领域的技术进展,涵盖了基于声学特征、深度学习的主流方法。首先,讨论了语音伪造的主要类型,包括重放攻击、TTS生成语音和VC伪造语音。其次,分析了当前主要检测模型及性能指标。最后,探讨了现有方法的局限性,并提出未来研究中亟待解决的关键问题。通过对语音伪造检测技术的全面分析,为该领域的研究提供了新的思路。 展开更多
关键词 自动说话人验证 伪造攻击 语音伪造检测 欺骗对策
在线阅读 下载PDF
基于文本匹配情感原型池与跨模态共享维度空间的多模态数据融合方法
14
作者 黄竞泽 诸佳炜 王瑞 《工业控制计算机》 2026年第2期48-50,共3页
当今时代社交媒体和移动设备广泛普及,文本、图像、音频等多模态数据被充分运用来表达情感,对多模态情感识别提出了新的挑战。而传统方法在模态融合过程中存在着模态交互关系挖掘不足,表征分布差异等问题。为此,提出了一种基于文本匹配... 当今时代社交媒体和移动设备广泛普及,文本、图像、音频等多模态数据被充分运用来表达情感,对多模态情感识别提出了新的挑战。而传统方法在模态融合过程中存在着模态交互关系挖掘不足,表征分布差异等问题。为此,提出了一种基于文本匹配情感原型池与共享维度空间的多模态数据融合方法,通过动态生成情感原型池,集合跨模态共享维度空间机制,有效剔除非关键特征并捕捉模态间的复杂关联。实验表明,该模型在MOSI和MOSEI数据集上的情感分类准确率、F1值、MAE值、Corr值都优于现有方法。通过消融实验进一步验证,文本原型引导的匹配情感原型池与跨模态共享维度空间结构,对性能提升起到关键作用,为多模态情感识别任务提供了创新的解决方案。 展开更多
关键词 多模态数据融合 文本主导 多模态情绪识别
在线阅读 下载PDF
基于DRSN-Conformer的电力调度语音识别
15
作者 韩亚旭 高鹭 +3 位作者 张飞 秦岭 王永平 张晓琳 《现代电子技术》 北大核心 2026年第6期112-119,共8页
针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计... 针对基于Transformer网络的语音识别模型对电力调度噪声场景下音频特征提取能力不足、专业术语识别准确率较低以及鲁棒性较差等问题,提出一种结合深度残差收缩网络(DRSN)和Conformer网络的电力调度场景语音识别方法。首先,在DRSN中设计通道阈值共享型和独立型两类收缩模块以学习音频信号的噪声阈值,减少噪声带来的干扰;然后,采用Conformer块将DRSN块输出的音频信号编码为音频特征,并使用交叉注意力融合文本编码器编码之后的文本特征,得到音频与文本的相关性表示;最后,结合CTC损失与Attention损失进行训练和解码。在公开数据集Aishell-1、Thchs30以及内蒙古自治区某电网公司内部电力调度数据集上的实验结果表明:相较于Transformer网络模型,所提方法最终字错误率降低了8.5%,专业术语识别字错误率降低了5.2%,验证了该方法在解决电力调度语音识别任务中的有效性和先进性。 展开更多
关键词 语音识别 DRSN CONFORMER 电力调度 注意力机制 BiLSTM
在线阅读 下载PDF
Keyword Spotting Based on Dual-Branch Broadcast Residual and Time-Frequency Coordinate Attention
16
作者 Zeyu Wang Jian-Hong Wang Kuo-Chun Hsu 《Computers, Materials & Continua》 2026年第4期333-352,共20页
In daily life,keyword spotting plays an important role in human-computer interaction.However,noise often interferes with the extraction of time-frequency information,and achieving both computational efficiency and rec... In daily life,keyword spotting plays an important role in human-computer interaction.However,noise often interferes with the extraction of time-frequency information,and achieving both computational efficiency and recognition accuracy on resource-constrained devices such as mobile terminals remains a major challenge.To address this,we propose a novel time-frequency dual-branch parallel residual network,which integrates a Dual-Branch Broadcast Residual module and a Time-Frequency Coordinate Attention module.The time-domain and frequency-domain branches are designed in parallel to independently extract temporal and spectral features,effectively avoiding the potential information loss caused by serial stacking,while enhancing information flow and multi-scale feature fusion.In terms of training strategy,a curriculum learning approach is introduced to progressively improve model robustness fromeasy to difficult tasks.Experimental results demonstrate that the proposed method consistently outperforms existing lightweight models under various signal-to-noise ratio(SNR)conditions,achieving superior far-field recognition performance on the Google Speech Commands V2 dataset.Notably,the model maintains stable performance even in low-SNR environments such as–10 dB,and generalizes well to unseen SNR conditions during training,validating its robustness to novel noise scenarios.Furthermore,the proposed model exhibits significantly fewer parameters,making it highly suitable for deployment on resource-limited devices.Overall,the model achieves a favorable balance between performance and parameter efficiency,demonstrating strong potential for practical applications. 展开更多
关键词 Keyword spotting convolutional neural network residual learning ATTENTION small footprint noisy far-field
在线阅读 下载PDF
发音感知对比学习的端到端普通话语音识别
17
作者 谭应伟 《计算机与现代化》 2026年第1期47-52,90,共7页
端到端普通话语音识别通常采用字符级别的嵌入向量作为解码器的输入,并结合字符序列的损失函数来训练模型。然而,这种方法在利用多级建模单元的区分性信息方面存在不足,且未能充分学习发音感知特性,这可能导致模型在识别过程中易于混淆... 端到端普通话语音识别通常采用字符级别的嵌入向量作为解码器的输入,并结合字符序列的损失函数来训练模型。然而,这种方法在利用多级建模单元的区分性信息方面存在不足,且未能充分学习发音感知特性,这可能导致模型在识别过程中易于混淆发音,从而产生识别错误。本文提出一种发音感知对比学习的方法,该方法专为优化端到端普通话语音识别而设计。与传统注意力统计池化方法不同,后者对建模嵌入分配一致权重并生成嵌入的加权平均值,本文采用的机制为已学习的向量嵌入中的每个元素赋予不同的权重,能够提取出能够区分不同建模单元的细粒度特征。此外,本文还引入一个无监督对比学习的损失函数,该函数使得在聚合的嵌入特征空间中,相似特征相互靠近,而不相似特征则相互远离,从而增强发音感知建模嵌入的特征表达能力。以AISHELL-1数据集为例,实验结果显示,所提出的方法在纯净测试集上取得了最优的字错误率(CER)4.64%,在带噪测试集上也达到了较好的字错误率7.61%,相较于传统的基于Conformer的算法,字错误率显著降低。这一结果充分表明了发音感知对比学习在端到端普通话语音识别问题中,特别是在增强嵌入向量表达方面的优越性。 展开更多
关键词 语音识别 注意力统计池 发音感知建模嵌入 无监督对比损失函数 端到端
在线阅读 下载PDF
MDGET-MER:Multi-Level Dynamic Gating and Emotion Transfer for Multi-Modal Emotion Recognition
18
作者 Musheng Chen Qiang Wen +2 位作者 Xiaohong Qiu Junhua Wu Wenqing Fu 《Computers, Materials & Continua》 2026年第3期872-893,共22页
In multi-modal emotion recognition,excessive reliance on historical context often impedes the detection of emotional shifts,while modality heterogeneity and unimodal noise limit recognition performance.Existing method... In multi-modal emotion recognition,excessive reliance on historical context often impedes the detection of emotional shifts,while modality heterogeneity and unimodal noise limit recognition performance.Existing methods struggle to dynamically adjust cross-modal complementary strength to optimize fusion quality and lack effective mechanisms to model the dynamic evolution of emotions.To address these issues,we propose a multi-level dynamic gating and emotion transfer framework for multi-modal emotion recognition.A dynamic gating mechanism is applied across unimodal encoding,cross-modal alignment,and emotion transfer modeling,substantially improving noise robustness and feature alignment.First,we construct a unimodal encoder based on gated recurrent units and feature-selection gating to suppress intra-modal noise and enhance contextual representation.Second,we design a gated-attention crossmodal encoder that dynamically calibrates the complementary contributions of visual and audio modalities to the dominant textual features and eliminates redundant information.Finally,we introduce a gated enhanced emotion transfer module that explicitly models the temporal dependence of emotional evolution in dialogues via transfer gating and optimizes continuity modeling with a comparative learning loss.Experimental results demonstrate that the proposed method outperforms state-of-the-art models on the public MELD and IEMOCAP datasets. 展开更多
关键词 Multi-modal emotion recognition dynamic gating emotion transfer module cross-modal dynamic alignment noise robustness
在线阅读 下载PDF
Design,Realization,and Evaluation of Faster End-to-End Data Transmission over Voice Channels
19
作者 Jian Huang Ming weiLi +2 位作者 Yulong Tian Yi Yao Hao Han 《Computers, Materials & Continua》 2026年第4期1650-1675,共26页
With the popularization of new technologies,telephone fraud has become the main means of stealing money and personal identity information.Taking inspiration from the website authentication mechanism,we propose an end-... With the popularization of new technologies,telephone fraud has become the main means of stealing money and personal identity information.Taking inspiration from the website authentication mechanism,we propose an end-to-end datamodem scheme that transmits the caller’s digital certificates through a voice channel for the recipient to verify the caller’s identity.Encoding useful information through voice channels is very difficult without the assistance of telecommunications providers.For example,speech activity detection may quickly classify encoded signals as nonspeech signals and reject input waveforms.To address this issue,we propose a novel modulation method based on linear frequency modulation that encodes 3 bits per symbol by varying its frequency,shape,and phase,alongside a lightweightMobileNetV3-Small-based demodulator for efficient and accurate signal decoding on resource-constrained devices.This method leverages the unique characteristics of linear frequency modulation signals,making them more easily transmitted and decoded in speech channels.To ensure reliable data delivery over unstable voice links,we further introduce a robust framing scheme with delimiter-based synchronization,a sample-level position remedying algorithm,and a feedback-driven retransmission mechanism.We have validated the feasibility and performance of our system through expanded real-world evaluations,demonstrating that it outperforms existing advanced methods in terms of robustness and data transfer rate.This technology establishes the foundational infrastructure for reliable certificate delivery over voice channels,which is crucial for achieving strong caller authentication and preventing telephone fraud at its root cause. 展开更多
关键词 Deep learning modulation CHIRP data over voice
在线阅读 下载PDF
基于多模态评测数据集的生成式人工智能评测方法研究
20
作者 李继龙 郝洺 《广播电视网络》 2026年第1期32-35,共4页
本文提出一种基于多模态风险评测数据集对视听内容生成大模型进行内容风险评估的方法。本方法基于多模态基准评测数据集中的图像和文本数据,利用图片测试数据并组合动态生成的文本测试数据,形成视听生成类大模型的输入提示词,通过对生... 本文提出一种基于多模态风险评测数据集对视听内容生成大模型进行内容风险评估的方法。本方法基于多模态基准评测数据集中的图像和文本数据,利用图片测试数据并组合动态生成的文本测试数据,形成视听生成类大模型的输入提示词,通过对生成内容进行安全风险分析,实现对视听内容生成式大模型的风险评估。 展开更多
关键词 人工智能 多模态 评测方法 数据集
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部