期刊文献+
共找到79,468篇文章
< 1 2 250 >
每页显示 20 50 100
结合双流注意力与对抗互重建的双模态情绪识别方法
1
作者 刘佳 张洋瑞 +2 位作者 陈大鹏 毛碟 卢国瑞 《电子与信息学报》 北大核心 2026年第1期277-286,共10页
随着情感计算的不断发展,基于多模态信号的情绪识别方法得到了广泛关注。脑电情感信号因受试个体的不同存在较大的分布差异,导致分类识别率不高。为了解决现有情绪识别方法中单一模态存在的噪声大、个体差异明显等问题,该文结合脑电信号... 随着情感计算的不断发展,基于多模态信号的情绪识别方法得到了广泛关注。脑电情感信号因受试个体的不同存在较大的分布差异,导致分类识别率不高。为了解决现有情绪识别方法中单一模态存在的噪声大、个体差异明显等问题,该文结合脑电信号(EEG)与语音信号提出一种基于双流注意力与对抗互重建的双模态情绪识别方法。在脑电模态方面,设计集成时间帧-通道联合注意力与Mamba网络的双重特征提取器,实现对关键时序片段与频谱特征的深度建模。在语音模态方面,引入帧级随机掩码机制与双向长短时记忆网络结构,增强模型对语音情绪变化的建模能力及抗干扰能力。通过模态精炼融合模块引入梯度反转层与正交投影机制,提升模态对齐与判别能力;进一步地,结合对抗互重建机制,在共享隐空间中重建同类情绪特征,实现跨被试的一致性建模。实验在MAHNOB-HCI,EAV与SEED等多个基准数据集上验证了所提方法的有效性,结果表明该模型在跨个体情绪识别与模态信息融合方面具有显著优势,为多模态情感计算提供了一种有效解决方案。 展开更多
关键词 多模态情感识别 注意力机制 对抗互重建 脑电 语音特征
在线阅读 下载PDF
AI语音合成技术:问题类型与治理路径
2
作者 邱德胜 罗译泓 《自然辩证法通讯》 北大核心 2026年第1期1-9,共9页
近年来,AI语音合成技术已被广泛应用于有声读物、游戏配音、歌曲制作及人机交互等多个领域,深刻塑造并改变了人的听觉体验。其逼真性、互动性与定制化等技术特征促使个体在身体、社会与自我三个维度保持在场,在优化沉浸体验、促进人机... 近年来,AI语音合成技术已被广泛应用于有声读物、游戏配音、歌曲制作及人机交互等多个领域,深刻塑造并改变了人的听觉体验。其逼真性、互动性与定制化等技术特征促使个体在身体、社会与自我三个维度保持在场,在优化沉浸体验、促进人机互动与声音美化等方面发挥了巨大作用。然而,这些特征也引发了语音欺诈、过度情感依赖与自我认同混乱等伦理与社会问题。为有效应对挑战,亟须对AI语音技术在研发、验证与应用等各阶段进行全方位伦理审视,从发展敏捷治理的AI语音技术生态、构建多元主体共治共享的协同框架、推进AI语音技术的动态预警机制出发,引导其择善而行。 展开更多
关键词 AI语音合成 在场 逼真性 互动性 定制化
原文传递
基于融合编码策略与通道增强的声音事件定位与检测
3
作者 王春丽 陈善立 刘素倩 《应用声学》 北大核心 2026年第1期223-235,共13页
在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码... 在三维声音事件定位与检测任务中,多声音事件的重叠导致无法从复杂信号当中有效地提取出每个声源的特征,此外为满足实际需求,在声音事件定位与检测任务当中引入距离估计任务,这增加了任务处理难度。针对上述问题,该文提出基于融合编码策略与通道增强的声音事件定位与检测算法,利用融合编码策略让模型能够将不同编码策略的特征进行自适应融合,增强对复杂信号中关键特征的提取能力;且根据声学信号在频域上表现出不同的频率分布和能量集中度的特性,结合离散余弦变换从通道维度出发,对信号的重要频率进行加权,学习每个通道不同频率的重要性,加强模型在频域上的建模,提升模型对关键信号的捕捉能力。实验结果表明,该文提出的模型性能要优于基线模型,当引入距离估计任务时,提出算法综合性能优于部分现有模型,为三维声音事件定位与检测任务提供了新的思路。 展开更多
关键词 声音事件定位与检测 距离估计 融合编码策略 通道增强 离散余弦变换
在线阅读 下载PDF
跨语言依存句法分析方法研究综述
4
作者 秦董洪 李路路 +3 位作者 白凤波 王敬凯 孔令儒 徐晨 《计算机工程与应用》 北大核心 2026年第4期1-28,共28页
跨语言依存句法分析是自然语言处理领域的一项关键任务,其核心目标是借助高资源语言(源语言)的依存句法资源来分析低资源语言(目标语言)的句子结构。综述了跨语言依存句法分析的研究方法,并根据改进途径的不同对方法进行了分类,深入分... 跨语言依存句法分析是自然语言处理领域的一项关键任务,其核心目标是借助高资源语言(源语言)的依存句法资源来分析低资源语言(目标语言)的句子结构。综述了跨语言依存句法分析的研究方法,并根据改进途径的不同对方法进行了分类,深入分析了各类方法的主要思路及其不足。介绍了跨语言依存句法分析的数据集、研究方法和在下游中的应用。从模型框架、数据处理、学习方法和大语言模型驱动四个角度对现有研究方法进行了系统总结。对比分析了不同方法在特定条件下的表现,并基于此提出未来值得关注的研究方向,包括语言类型学特征研究、集成系统的构建与应用、多语言文本表示的优化以及多种语言资源整合利用等。 展开更多
关键词 跨语言依存句法分析 自然语言处理 迁移学习
在线阅读 下载PDF
基于复数SepFormer与多尺度卷积的单通道语音增强方法
5
作者 李周 刘庆华 《科学技术与工程》 北大核心 2026年第3期1075-1086,共12页
作为信号处理的重要研究方向,语音增强在人际交流、辅助破案和军事领域中扮演着至关重要的角色。针对现有深度学习方法未充分利用相位信息且特征提取单一导致增强语音质量下降的问题,提出了一种基于复数SepFormer与多尺度卷积的单通道... 作为信号处理的重要研究方向,语音增强在人际交流、辅助破案和军事领域中扮演着至关重要的角色。针对现有深度学习方法未充分利用相位信息且特征提取单一导致增强语音质量下降的问题,提出了一种基于复数SepFormer与多尺度卷积的单通道语音增强方法(monaural speech enhancement based on complex SepFormer and multi-scale convolution,CS-MSC)。首先,引入了多尺度特征提取模块,改善传统方法特征提取单一的问题,并增强了模型对高频和低频特征的捕获能力,有效提升高频细节增强效果;其次,设计了带有通道注意力机制的跳跃连接,防止信息在深层网络中丢失,缓解深层网络中的梯度消失问题;并基于复数谱,在瓶颈层对振幅和相位的关联性进行建模,克服传统方法忽视相位信息的缺陷;最后,通过在编码器和解码器中添加增强频率轴特征表示的深度卷积提升模型在频率轴上的特征提取能力。实验结果表明,相比于门控卷积循环网络(gated convolution recurrent network,GCRN)、深度复数卷积循环网络(deep complex convolution recurrent network,DCCRN)等同类语音增强网络,本文提出的网络在极低信噪比条件下显著提高了语音信号的质量、可懂度以及信噪比;相较于DCCRN,在VoiceBank-Demand数据集上的语音感知质量和综合质量测度分别提升了31.72%和22.02%,表明该网络能够有效提升语音的可懂度和整体质量,具有较为突出的鲁棒性与泛化能力。 展开更多
关键词 语音增强 深度学习 跳跃连接 复频谱特征 注意力机制
在线阅读 下载PDF
高精度音效调节与空间模拟系统
6
作者 兰文洺 鲁康生 +1 位作者 宋锴 潘欣裕 《物联网技术》 2026年第2期122-125,130,共5页
文中主要研究了高精度音效调节与空间模拟系统,在FPGA上通过算法的嵌入实现声音的回声、混响、失真及均衡器等音效调节以及空间模拟。系统首先通过音频解码芯片,将模拟音频信号转换成数字信号,再进行Schroeder等算法处理,可实现各种场... 文中主要研究了高精度音效调节与空间模拟系统,在FPGA上通过算法的嵌入实现声音的回声、混响、失真及均衡器等音效调节以及空间模拟。系统首先通过音频解码芯片,将模拟音频信号转换成数字信号,再进行Schroeder等算法处理,可实现各种场景需求的音频输出、音频信号秒级延迟的回声效果以及在原音频信号上叠加多个不同频率的混响效果。并且加入UAC协议,实现了USB音频传输,结合PC端实现应用扩展。 展开更多
关键词 FPGA 音频信号 音效调节 Schroeder混响算法 UAC协议 USB音频
在线阅读 下载PDF
面向Transformer语音识别模型的高迁移通用对抗样本生成方法
7
作者 王振 韩纪庆 +2 位作者 何勇军 郑铁然 郑贵滨 《数据采集与处理》 北大核心 2026年第1期109-116,共8页
Transformer模型的出现使得语音识别的正确率有了巨大提升。随着深度学习技术的发展,通过对抗样本来攻击语音识别系统,以了解该系统的脆弱性并进行完善,进而提高识别系统的鲁棒性。由于通用语音对抗样本对于任意语音都有效,更是受到了... Transformer模型的出现使得语音识别的正确率有了巨大提升。随着深度学习技术的发展,通过对抗样本来攻击语音识别系统,以了解该系统的脆弱性并进行完善,进而提高识别系统的鲁棒性。由于通用语音对抗样本对于任意语音都有效,更是受到了广泛关注,其关键问题是如何提高对抗样本的迁移性,进而实现高攻击成功率。本文利用Transformer类语音识别模型结构特征的相似性,通过使扰动后的语音与原始语音的中间层特征尽可能不同,以改变其中间层特征表示的规律,实现有效的通用对抗攻击。鉴于通用对抗样本需要利用与样本无关的底层声学信息,而与样本依赖的语义信息会抑制其性能,因而通过控制注意力梯度以减弱通用对抗样本对于语义上下文特征的学习,进而实现通用对抗样本的高迁移性。实验结果表明,本文所提出的通用对抗样本生成方法可以有效地提高对抗样本在Transformer类语音识别模型之间的迁移性。 展开更多
关键词 语音识别 对抗样本 黑盒攻击 注意力机制
在线阅读 下载PDF
联合听觉场景分析与深度学习的舰船辐射噪声分离方法
8
作者 吴轩 王海涛 +2 位作者 何群铱 曾向阳 陈克安 《声学学报》 北大核心 2026年第1期170-182,共13页
针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处... 针对混叠舰船辐射噪声的分离问题,发展了一种联合听觉场景分析与深度学习的舰船辐射噪声分离方法。该方法以计算听觉场景分析的总体流程为基础框架,将分离过程分为听觉分割和听觉重组两个阶段。在听觉分割阶段,将混叠信号进行时频分解处理,构建时频片段,利用密集连接U型网络(Dense-UNet)提取数据特征并构建分离掩码,其中Dense-UNet网络结合了传统U型网络(UNet)的编码器–解码器结构和密集连接网络(DenseNet)的密集连接操作,能够在编码器部分高效提取多尺度特征,同时在解码器部分通过跳跃连接和密集连接有效恢复细粒度的信号结构;在听觉重组阶段,基于邻近帧相关性分析对初始分离信号进行帧级再调整配对,最终实现对分离信号的重组。基于实际舰船辐射噪声数据的实验表明,所设计方法相较于其他常用深度学习分离方法在网络规模降低的条件下取得更优分离效果,且具有更好的稳定性。 展开更多
关键词 舰船辐射噪声分离 计算听觉场景 深度学习 帧相关性
原文传递
融合预训练音频大模型与密度估计的水轮发电机组声学无监督异常检测
9
作者 武亭 闻疏琳 +5 位作者 阎兆立 付高原 李林峰 刘绪都 程晓斌 杨军 《电子与信息学报》 北大核心 2026年第2期772-783,共12页
水轮发电机组作为水电站的核心动力设备,其安全稳定运行对于整个水电站具有重要意义。近年来,非接触式声学测量作为一种有效的检测手段受到广泛关注,然而水轮发电机组的实际运行的异常声信号难以采集,传统异常检测方法及基于监督学习的... 水轮发电机组作为水电站的核心动力设备,其安全稳定运行对于整个水电站具有重要意义。近年来,非接触式声学测量作为一种有效的检测手段受到广泛关注,然而水轮发电机组的实际运行的异常声信号难以采集,传统异常检测方法及基于监督学习的分类策略在该领域的应用受到限制。针对上述挑战,该文提出一种预训练音频大模型与密度估计k近邻(k-NN)的水轮发电机声学无监督异常检测方法。首先验证了预训练音频模型提取的通用音频特征在异常检测中的有效性;随后设计了一种融合注意力统计池化与warm-up的参数微调策略,实现模型的迁移优化,在推理阶段设计了一种密度估计的k近邻实现鲁棒的距离度量。实验结果表明,该方法在风洞环境达到了98.7%的多指标调和平均数,在滑环室则高达99.9%,为水电站的声学异常检测提供了切实可行且性能优异的解决方案。 展开更多
关键词 预训练音频大模型 水轮发电机组 异常检测 无监督深度学习
在线阅读 下载PDF
基于双分支残差网络的病理语音识别
10
作者 程愉凯 段淑斐 +3 位作者 贾海蓉 李付江 LIANG Huizhi 张卫 《科学技术与工程》 北大核心 2026年第2期663-672,共10页
针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维... 针对现有研究对病理语音特征提取不充分,导致病理语音识别率低的问题,提出了一种基于双分支残差网络的病理语音识别算法。根据构音障碍患者复杂多样的语音症状,采用宽带和窄带频谱图作为网络输入;提出了自适应特征提取残差块,通过全维动态像素注意力卷积从位置、通道、滤波和像素多个维度全面捕捉病理特征;提出了双流互补融合模块,通过加权融合后的特征不仅保留了各分支的关键信息,还通过跨维度交互实现了更优的特征表达,提升了病理语音识别的准确率。在中文病理语音数据集THE-POSSD和西方公开病理语音数据集UA-Speech上进行实验,其结果验证了所提算法的有效性和泛化能力。 展开更多
关键词 病理语音识别 构音障碍 残差网络 动态卷积 加权融合 频谱图
在线阅读 下载PDF
基于SAE-LS-CGAN数据增强的语音情感识别
11
作者 魏佳楠 孙颖 张雪英 《太原理工大学学报》 北大核心 2026年第1期202-211,共10页
【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种... 【目的】语音情感语料库普遍存在数据稀少的问题,而深度神经网络的训练依赖大规模标注数据以保障模型性能。数据增强是缓解该问题的主流技术手段,但是当前语音情感识别领域对数据增强方法的有效性验证研究尚且不足。【方法】在分析多种语音数据增强方法的基础上,提出了一种基于改进条件生成对抗模型(Conditional Generative Adversarial Network,CGAN)的新的数据增强模型SAE-LS-CGAN。该模型将语音特征映射为N个矩阵,鉴别器分别对每个矩阵进行评价,提升鉴别精度。与传统的生成对抗网络(Generative Adversarial Network,GAN)相比,该模型引入栈式自编码器(Stacked AutoEncoder,SAE),并将其输出作为改进CGAN的输入,同时结合类别学习器(Class Learning Block,CLB)优化生成样本的质量;进一步引入最小二乘损失函数(The Least Squares Loss Function,LS)对网络进行对抗性训练,在原始特征空间和潜在空间中生成高质量的特征向量,并将生成数据融入到训练数据中用于分类。【结果】实验结果表明,所提模型在Emo-DB和IEMOCAP数据集上的语音情感识别任务中均取得了较优的性能表现。 展开更多
关键词 语音情感识别 数据增强 栈式自编码器 条件生成对抗网络 最小二乘损失函数
在线阅读 下载PDF
基于潮涌卷积神经网络的说话人确认
12
作者 陈晨 仪志鑫 +1 位作者 李东源 陈德运 《电子与信息学报》 北大核心 2026年第2期806-817,共12页
近年来,最先进的说话人确认模型大多数以牺牲参数量和计算量的代价来实现感受野的固定获取,然而鉴于语音信号内部蕴含着丰富且多层次的信息,通过高度自主选择的动态感受野来描绘复杂信息是相对未被探索的,更没有直观地解释是什么构成了... 近年来,最先进的说话人确认模型大多数以牺牲参数量和计算量的代价来实现感受野的固定获取,然而鉴于语音信号内部蕴含着丰富且多层次的信息,通过高度自主选择的动态感受野来描绘复杂信息是相对未被探索的,更没有直观地解释是什么构成了关于有效感受野的最佳实践。潮涌现象表现为潮水前端形成陡立水墙并伴随轰鸣声高速推进,受其非线性耦合行为的启发,该文提出潮涌卷积(TR-Conv)“使用潮涌感受野(T-RRF),获得更有效感受野”。首先采用二幂插值操作构建窗口内的主/从感受野,随后分别采用扫描-池化机制聚焦提取窗口外的关键信息、算子机制精细感知窗口内的差异信息,最后融合三重感受野,得到兼具多尺度、动态性、有效性的可变感受野。为全面验证潮涌卷积的表现,该文建立潮涌卷积神经网络(TR-CNN)。另外,针对数据集的错误标签问题,提出动态归一化的非目标(NTDN)损失与具有两个子中心的加性角边距(Sub-Center AAM)损失变体加权融合的总损失,以提升模型性能。实验结果表明,与ECAPA-TDNN(C=512)相比,TR-CNN(C=512, n=1)分别在测试集Vox1-O, Vox1-E, Vox1-H上的等错误率(EER)以及最小检测代价函数(MinDCF)相对降低了4.95%,4.03%和6.03%以及31.55%, 17.14%和17.42%,参数量和乘加累积操作次数相对减少了32.7%,23.5%。进一步,TR-CNN(C=1 024, n=1)的EER/MinDCF分别是0.85%/0.076 2/1.10%/0.104 8/2.05%/0.173 9。本研究代码已开源:https://www.scidb.cn/detail?dataSetId=a232c98b082941c58002958208ef3f43&version=V1&code=j00173。 展开更多
关键词 说话人确认 潮涌卷积 轻量化网络 二幂插值 动态归一化的非目标损失
在线阅读 下载PDF
基于噪声反馈的MVDR-MTGAN多通道语音增强
13
作者 王霄雪 刘拓 +1 位作者 江志健 郑能恒 《深圳大学学报(理工版)》 北大核心 2026年第1期93-100,I0003,I0004,共10页
目前主流的多通道语音增强系统大多采用波束形成-后滤波级联架构.在非稳态噪声场景下,波束形成因噪声估计偏差易导致空域滤波失效,而基于深度学习的后滤波虽能改善残留噪声抑制,但计算复杂度高.提出融合最小方差无畸变响应(minimum vari... 目前主流的多通道语音增强系统大多采用波束形成-后滤波级联架构.在非稳态噪声场景下,波束形成因噪声估计偏差易导致空域滤波失效,而基于深度学习的后滤波虽能改善残留噪声抑制,但计算复杂度高.提出融合最小方差无畸变响应(minimum variance distortionless response,MVDR)和多目标生成对抗网络(multi-target generative adversarial network,MTGAN)的闭环增强框架,采用噪声估计反馈机制实现空频域联合优化.通过构建MTGAN的双分支生成器架构同步实现后滤波和噪声估计,并将估计噪声动态反馈至MVDR的协方差矩阵更新过程,形成闭环迭代优化.基于公开的多环境多通道噪声数据集(diverse environments acoustic noise database,DEMAND)的仿真实验表明,噪声反馈机制能有效提升MVDR输出性能;与现有MVDR-CRUSE系统相比,所提MVDR+MTGAN方法保持较低模型复杂度(参数量减少10.5%)的同时,在语音质量评价指标上均获得显著提升,平均分段信噪比提高6.56 dB,整体效果预测得分提升了0.17.该方法为复杂声学场景下的多通道语音增强提供了高效的解决方案. 展开更多
关键词 语音处理 多通道语音增强 最小方差无畸变响应 多目标生成对抗网络 噪声反馈
在线阅读 下载PDF
基于判别性聚类网络的端到端说话人日志系统
14
作者 张开铖 吴林煌 林志坚 《无线电通信技术》 北大核心 2026年第1期197-204,共8页
说话人日志(Speaker Diarization,SD)任务旨在将同一说话人的音频样本合并,并标注其在音频中的话音活动位置。现有的端到端说话人日志(End-to-End Neural Diarization,EEND)系统在处理多个说话人时受限于置换不变性训练,导致损失计算复... 说话人日志(Speaker Diarization,SD)任务旨在将同一说话人的音频样本合并,并标注其在音频中的话音活动位置。现有的端到端说话人日志(End-to-End Neural Diarization,EEND)系统在处理多个说话人时受限于置换不变性训练,导致损失计算复杂且训练效果不佳。为解决这些问题,提出一种基于判别性聚类网络的EEND(EEND Based on Discriminative Clustering Network,DC-EEND)系统,主要包括嵌入网络、判别性聚类网络(Discriminative Clustering Network,DCN)及辅助任务学习。嵌入网络负责提取声纹嵌入向量,DCN通过监督学习对这些向量进行聚类估计,而辅助任务学习则引入说话人确认支干网络参与嵌入网络优化。实验在公开的VoxCeleb数据集上进行,结果表明DC-EEND适用于多个说话人场景并具备较好的性能优势,辅助任务学习有效改进基于DCN的EEND性能,所设计的嵌入网络更适用于基于DCN的EEND。 展开更多
关键词 说话人日志 端到端 判别性聚类网络 辅助任务 多任务学习
在线阅读 下载PDF
使用预测误差方法的助听器凸组合比例声反馈消除算法
15
作者 王森童 全智 《应用声学》 北大核心 2026年第1期245-259,共15页
传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引... 传统的自适应声学反馈消除算法在兼顾收敛速度和稳态性能之间存在困难,而输入信号与反馈信号之间的高相关性进一步限制了算法性能。针对这些问题,提出了使用预测误差方法的凸组合比例算法。该算法结合两个不同步长的自适应滤波器,并引入比例机制和预测误差方法以加速初始收敛和增强跟踪能力,消除了信号之间的高相关性。仿真结果显示,与传统方法相比,所提算法在处理声学信号时,显著降低了失调量并提高了额外稳态增益。 展开更多
关键词 回声消除算法 自适应滤波器 凸组合 预测误差方法 比例自适应滤波法
在线阅读 下载PDF
飞行训练的语声情绪识别和评估
16
作者 陶雪峰 顾人舒 +1 位作者 吴东苏 郭超 《应用声学》 北大核心 2026年第1期236-244,共9页
为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的... 为了使飞行员在飞行中有良好的情绪状态,并提高应对突发情况保持或恢复情绪的能力,该文通过对飞行训练情景下的语声数据采集建立了飞行训练语声数据库。使用语声情绪识别技术,通过调研选取放松、平静、焦虑和消极作为飞行训练中主要的情绪类型标签。为了有效捕捉情绪的波动情况,选择频谱质心、均方根能量、过零率和梅尔频率倒谱系数等特征进行模型训练。使用卷积神经网络和长短时记忆网络作为模型训练方法,就混合特征在多模型组合时的有效使用提出两种模型集成方案。 展开更多
关键词 语声情绪识别 飞行训练 深度学习 模型集成
在线阅读 下载PDF
伪造语音攻防及针对语音防伪的测评技术研究进展
17
作者 李文洁 丁增喜 +1 位作者 刘春莹 赵红玉 《警察技术》 2026年第1期44-47,共4页
随着信息技术的飞速发展,尤其是深度学习的不断进步,语音伪造技术带来的安全问题也日益凸显,语音防伪受到越来越多的关注。在分类梳理伪造语音攻防技术的基础上,根据语音防伪评测需要,总结了针对语音防伪技术的测评流程和测评项。
关键词 语音伪造 语音攻防 防伪检测
在线阅读 下载PDF
基于H-GEM模型的多模态情感分析
18
作者 杨新航 王晶晶 +1 位作者 陈思宇 田宏 《计算机系统应用》 2026年第3期59-68,共10页
传统多模态情感分析方法在特征拼接和融合中易产生信息冗余,难以捕捉细粒度复杂情感特征,在模态缺失和跨域迁移场景下鲁棒性不足.同时,现有混合专家(MoE)方法大多为单层结构,专家分工不明确,存在功能重叠和泛化性欠佳的问题.本文提出一... 传统多模态情感分析方法在特征拼接和融合中易产生信息冗余,难以捕捉细粒度复杂情感特征,在模态缺失和跨域迁移场景下鲁棒性不足.同时,现有混合专家(MoE)方法大多为单层结构,专家分工不明确,存在功能重叠和泛化性欠佳的问题.本文提出一种分层自适应混合专家模型H-GEM(hierarchical gated expert mixture).通过构建3层分级专家体系:模态专家层提炼模态特征;融合与抽象专家层自适应选择融合策略;情感极性专家层进行细粒度建模.同时引入信息论与判别性约束提升专家选择的语义区分性和稀疏性.通过分层门控实现逐级决策,保证专家差异化分工与跨任务建模.在CMU-MOSI和CMU-MOSEI数据集上的实验结果表明, H-GEM在一系列指标上均优于基线模型.与单层MoE架构相比,显著降低的路由熵表明其能够有效缓解专家冗余问题.该模型在低资源和模态缺失复杂任务中表现出更高的鲁棒性,展现出良好的应用潜力. 展开更多
关键词 多模态情感分析 分层门控机制 混合专家模型 互信息约束 鲁棒性
在线阅读 下载PDF
基于多模态特征的短视频热度预测研究——以抖音平台为例
19
作者 米赛雪 张琪 +1 位作者 张士豪 李根 《数据与计算发展前沿(中英文)》 2026年第1期183-194,共12页
【目的】短视频已成为网络舆情传播的重要载体,准确预测短视频热度对内容监管和舆情分析至关重要。然而,现有研究在特征提取和时序建模方面存在以下不足:一是特征维度单一,未能充分利用多模态数据;二是传统线性方法难以刻画短视频“冷启... 【目的】短视频已成为网络舆情传播的重要载体,准确预测短视频热度对内容监管和舆情分析至关重要。然而,现有研究在特征提取和时序建模方面存在以下不足:一是特征维度单一,未能充分利用多模态数据;二是传统线性方法难以刻画短视频“冷启动-爆发-衰减”的热度变化规律。为此,本研究提出一种基于多模态特征的短视频热度预测方法。【方法】首先,构建多模态特征体系,涵盖用户影响力、作者影响力、音视频质量及内容特征、评论特征及热度特征。其次,采用随机森林模型进行非线性建模,以捕捉特征间的复杂关联,并提高预测视频热度能力。【结果】实验表明,所提方法在短视频热度预测任务中表现优异,F1分数达69.3%,较基线模型提升13.7个百分点。AUC值达到71.3%,较基线模型提升了16个百分点。【结论】基于多模态特征的热度预测方法能显著提升短视频热度预测的准确性,为网络舆情分析与内容管理提供有效技术支持。 展开更多
关键词 短视频 热度预测 多模态特征 用户影响力 随机森林
在线阅读 下载PDF
融合多模态信息的知识感知推荐方法 被引量:1
20
作者 王海荣 王怡梦 +1 位作者 周北京 易之航 《郑州大学学报(工学版)》 北大核心 2025年第6期15-22,共8页
图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上... 图片、文本等多模态信息具有语义互补性,能够有效增强知识图谱中的实体表示,从而提高推荐的准确率和可解释性。通过分析推荐系统中具有语义相关性的多模态数据特点,提出了一种融合多模态信息的知识感知推荐方法。在知识图谱传播的基础上,整合与图谱中实体语义相关的多模态信息,并将其与对应的实体进行特征融合,用来丰富实体表示,以便探索用户潜在的兴趣偏好。该方法充分考虑了多模态信息间的依赖性和交互性,采用模态间注意力关注各模态的重要信息,获取具有语义关联的多模态嵌入特征;通过门控注意力将实体对应的多模态嵌入特征与实体表示融合,进一步丰富实体的多模态语义信息,从而增强用户和项目的表示。为了验证方法的有效性,在MovieLens-1M和Book-Crossing数据集上进行实验,并与RippletNet、KGAT、CKAN、LKGR、COAT、CKE、KGCN、SKGCR和KGCL这9种方法进行对比分析,实验结果表明:所提方法在AUC和ACC上均优于对比方法;在MovieLens-1M和Book-Crossing数据集上,所提方法的AUC分别为0.9366和0.7637,与其他模型的平均值相比,增幅为0.0272和0.0291;所提方法的ACC分别为0.8623和0.7089,与其他模型的平均值相比,增幅为0.0283和0.0305。 展开更多
关键词 知识图谱 推荐系统 多模态信息 特征融合 嵌入传播
在线阅读 下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部