期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
基于Depth-wise卷积和视觉Transformer的图像分类模型 被引量:6
1
作者 张峰 黄仕鑫 +1 位作者 花强 董春茹 《计算机科学》 CSCD 北大核心 2024年第2期196-204,共9页
图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关... 图像分类作为一种常见的视觉识别任务,有着广阔的应用场景。在处理图像分类问题时,传统的方法通常使用卷积神经网络,然而,卷积网络的感受野有限,难以建模图像的全局关系表示,导致分类精度低,难以处理复杂多样的图像数据。为了对全局关系进行建模,一些研究者将Transformer应用于图像分类任务,但为了满足Transformer的序列化和并行化要求,需要将图像分割成大小相等、互不重叠的图像块,破坏了相邻图像数据块之间的局部信息。此外,由于Transformer具有较少的先验知识,模型往往需要在大规模数据集上进行预训练,因此计算复杂度较高。为了同时建模图像相邻块之间的局部信息并充分利用图像的全局信息,提出了一种基于Depth-wise卷积的视觉Transformer(Efficient Pyramid Vision Transformer,EPVT)模型。EPVT模型可以实现以较低的计算成本提取相邻图像块之间的局部和全局信息。EPVT模型主要包含3个关键组件:局部感知模块(Local Perceptron Module,LPM)、空间信息融合模块(Spatial Information Fusion,SIF)和“+卷积前馈神经网络(Convolution Feed-forward Network,CFFN)。LPM模块用于捕获图像的局部相关性;SIF模块用于融合相邻图像块之间的局部信息,并利用不同图像块之间的远距离依赖关系,提升模型的特征表达能力,使模型学习到输出特征在不同维度下的语义信息;CFFN模块用于编码位置信息和重塑张量。在图像分类数据集ImageNet-1K上,所提模型优于现有的同等规模的视觉Transformer分类模型,取得了82.6%的分类准确度,证明了该模型在大规模数据集上具有竞争力。 展开更多
关键词 深度学习 图像分类 depth-wise卷积 视觉Transformer 注意力机制
在线阅读 下载PDF
3D Data Scattergram Image Classification Based Protection for Transmission Line Connecting BESS Using Depth-wise Separable Convolution Based CNN
2
作者 Yingyu Liang Yi Ren +1 位作者 Xiaoyang Yang Wenting Zha 《Journal of Modern Power Systems and Clean Energy》 2025年第2期609-621,共13页
The distinctive fault characteristics of battery energy storage stations(BESSs)significantly affect the reliability of conventional protection methods for transmission lines.In this paper,the three-dimensional(3D)data... The distinctive fault characteristics of battery energy storage stations(BESSs)significantly affect the reliability of conventional protection methods for transmission lines.In this paper,the three-dimensional(3D)data scattergrams are constructed using current data from both sides of the transmission line and their sum.Following a comprehensive analysis of the varying characteristics of 3D data scattergrams under different conditions,a 3D data scattergram image classification based protection method is developed.The depth-wise separable convolution is used to ensure a lightweight convolutional neural network(CNN)structure without compromising performance.In addition,a Bayesian hyperparameter optimization algorithm is used to achieve a hyperparametric search to simplify the training process.Compared with artificial neural networks and CNNs,the depth-wise separable convolution based CNN(DPCNN)achieves a higher recognition accuracy.The 3D data scattergram image classification based protection method using DPCNN can accurately separate internal faults from other disturbances and identify fault phases under different operating states and fault conditions.The proposed protection method also shows first-class tolerability against current transformer(CT)saturation and CT measurement errors. 展开更多
关键词 Convolutional neural network(CNN) battery energy storage station(BESS) depth-wise separable convolution hyperparameter optimization fault classification line protection
原文传递
基于轻量化PPINET的花生荚果实时识别方法 被引量:1
3
作者 员玉良 黄劲龙 +2 位作者 李德豪 王方艳 马德新 《农业工程学报》 北大核心 2025年第12期182-190,共9页
传统CNN算法在花生荚果外观识别任务中存在内存密集型和计算密集型问题,以及其在资源受限的边缘终端上部署困难,基于此,该研究提出了一种高效的花生荚果识别模型——PPINET(peanut pod identification network),以适应嵌入式设备的资源... 传统CNN算法在花生荚果外观识别任务中存在内存密集型和计算密集型问题,以及其在资源受限的边缘终端上部署困难,基于此,该研究提出了一种高效的花生荚果识别模型——PPINET(peanut pod identification network),以适应嵌入式设备的资源限制需求。该模型通过结合深度可分离卷积和倒残差结构显著降低参数量和计算量,同时保留特征提取能力,并引入MQA(multi-query attention)模块增强关键特征提取,并利用TuNAS(easy-to-tune and scalable implementation of efficient neural architecture search with weight sharing)策略优化模型结构,使其在资源受限设备上表现优异。此外,采用ResNet(residual neural network)进行知识蒸馏配合三折交叉验证训练提升精度,最终量化为RKNN格式并在瑞芯微RK3588上实现NPU加速部署。PPINET模型尺寸仅为1.85 MB,参数量为0.49 M,浮点运算数为0.30G。PPINET在花生荚果分类中表现优异,准确率达98.65%,在RK3588上推理速度达321 fps。该模型具备较高的识别准确率和快速的识别速度,能够实现花生荚果的实时精准检测。 展开更多
关键词 花生荚果 深度可分离卷积 三折交叉验证 知识蒸馏 嵌入式部署
在线阅读 下载PDF
基于Transformer与深度可分离卷积的轻量级遥感图像语义分割
4
作者 马飞 张森峰 +1 位作者 杨飞霞 徐光宪 《电光与控制》 北大核心 2025年第7期33-38,66,共7页
遥感图像语义分割在环境变化监测、汽车辅助驾驶等领域具有广泛的应用。遥感图像在语义对象层面表现出较大的类内变化和较小的类间差异,导致分割模型精度受限且耗费计算资源。为此提出了一种基于Transformer与深度可分离卷积的轻量级遥... 遥感图像语义分割在环境变化监测、汽车辅助驾驶等领域具有广泛的应用。遥感图像在语义对象层面表现出较大的类内变化和较小的类间差异,导致分割模型精度受限且耗费计算资源。为此提出了一种基于Transformer与深度可分离卷积的轻量级遥感图像语义分割方法。首先,引入权重自适应的多头自注意力,在全局范围内对远距离像素关联性建模,获取丰富的上下文信息;其次,构建堆叠的深度可分离卷积层,以低计算复杂度减少空间细节信息的丢失;此外利用线性注意力机制设计特征聚合模块,对全局情景信息与空间细节信息进行融合。经过在Vaihingen和Potsdam数据集上测试结果表明,所提方法的分割总体准确率分别高达92.6%和92.1%,GFLOPs仅为11.5,不仅有效提升了分割精度,而且大大降低了计算复杂度。 展开更多
关键词 遥感图像 语义分割 深度学习 深度可分离卷积 线性注意力机制
在线阅读 下载PDF
基于时序卷积网络的轻量级日志异常检测
5
作者 顾兆军 王亚飞 +1 位作者 刘春波 张智凯 《计算机工程与设计》 北大核心 2025年第8期2272-2279,共8页
针对物联网边缘设备计算能力和存储空间有限,现有方法难以直接部署应用。提出一种基于改进时序卷积网络(TCN)的轻量级日志异常检测模型LLAD。日志预处理后提取语义特征并表征单词与日志事件的关系;在异常检测阶段,采用深度可分离卷积操... 针对物联网边缘设备计算能力和存储空间有限,现有方法难以直接部署应用。提出一种基于改进时序卷积网络(TCN)的轻量级日志异常检测模型LLAD。日志预处理后提取语义特征并表征单词与日志事件的关系;在异常检测阶段,采用深度可分离卷积操作实现一维卷积运算,并使用全局平均池化替换全连接层以减少标准TCN的参数数量和计算量。在HDFS和BGL数据集上的实验结果表明,LLAD与基准模型相比,所需内存和FLOP至少减少80%,且检测性能指标F1值有所提升。 展开更多
关键词 边缘设备 日志异常检测 特征提取 语义特征 时序卷积网络 深度可分离卷积 全局平均池化
在线阅读 下载PDF
DD-YOLO,一种面向无人机的小目标检测算法 被引量:1
6
作者 张攀峰 陈文强 +1 位作者 神显豪 程小辉 《电光与控制》 北大核心 2025年第5期20-26,共7页
针对无人机航拍图像存在拍摄距离远、目标小、密度高且物体相互遮挡易造成目标检测的错检、漏检等问题,提出了一种基于YOLOv8s的融合可变深度卷积与多种注意力机制的改进算法DD-YOLO。该算法融入深度卷积简化网络模型,提出可变深度卷积... 针对无人机航拍图像存在拍摄距离远、目标小、密度高且物体相互遮挡易造成目标检测的错检、漏检等问题,提出了一种基于YOLOv8s的融合可变深度卷积与多种注意力机制的改进算法DD-YOLO。该算法融入深度卷积简化网络模型,提出可变深度卷积来优化C2f模块,增强网络骨干的特征提取能力;引入SE、MHSA注意力机制改造SPPF结构,使之兼顾局部和全局特征的提取;在颈部网络添加四倍下采样分支以缓解对小目标的感受野不足的同时优化目标定位,加强对小目标的关注。实验表明,改进后的模型在数据集VisDrone-DET2019上的mAP@50为43.9%,mAP@50∶95为26.7%,对比YOLOv8s分别提高了5.1和3.6个百分点,参数量减少了13.2%,模型大小缩减了12.6%,对实现无人机小目标检测具有重要意义。 展开更多
关键词 无人机 YOLOv8s 可变深度卷积 注意力机制
在线阅读 下载PDF
基于多尺度门控卷积与深度注意力的时序分类方法 被引量:1
7
作者 杨瑞 张海清 +3 位作者 李代伟 Rattasit Sukhahuta 于曦 唐聃 《软件导刊》 2025年第2期33-39,共7页
针对现有时序分类方法难以充分捕捉序列中的深层特征以及特征学习不足的问题,提出一种基于多尺度门控卷积与深度注意力的时序分类网络MGDA-Net,有效提高了时序分类任务的准确率。MGDA-Net利用多尺度门控卷积模块捕获多尺度信息,并通过... 针对现有时序分类方法难以充分捕捉序列中的深层特征以及特征学习不足的问题,提出一种基于多尺度门控卷积与深度注意力的时序分类网络MGDA-Net,有效提高了时序分类任务的准确率。MGDA-Net利用多尺度门控卷积模块捕获多尺度信息,并通过门控机制筛选和调控特征流动来增强特征提取能力。同时,利用深度注意力模块,在保留通道间关系的基础上进一步捕获特征之间的空间关系,提升模型对重要特征的学习能力;引入残差链接促进特征复用和信息流动。实验结果显示,MGDA-Net在20个时序数据集上取得了最高排名和最低平均误差,在多个高维度数据集上的分类准确率提升2.3%~10.5%,证明了其有效性。 展开更多
关键词 时间序列分类 多尺度门控卷积 深度注意力 残差网络
在线阅读 下载PDF
LMFI-YOLO:复杂场景下的轻量化行人检测算法 被引量:1
8
作者 袁婷婷 赖惠成 +2 位作者 汤静雯 张晞 高古学 《计算机工程与应用》 北大核心 2025年第15期111-123,共13页
针对当前行人检测算法在复杂场景下存在误检、漏检及模型复杂度高等问题,提出一种改进YOLO11的轻量化行人检测算法——LMFI-YOLO融合RepConv来改进C3k2模块,构建RS-C3k2结构,以增强网络对行人特征的学习与捕捉能力。设计全新的颈部结构M... 针对当前行人检测算法在复杂场景下存在误检、漏检及模型复杂度高等问题,提出一种改进YOLO11的轻量化行人检测算法——LMFI-YOLO融合RepConv来改进C3k2模块,构建RS-C3k2结构,以增强网络对行人特征的学习与捕捉能力。设计全新的颈部结构MBFPN,结合高效上采样模块与多尺度卷积模块,以强化特征融合并提升行人的特征表达能力,大幅提高检测精度。设计任务交互检测头TD-Detect,通过共享卷积与任务交互机制显著减少参数量和模型大小。为进一步提高检测精度,采用Focaler-GIoU作为边界框回归损失函数,通过聚焦不同回归样本来提升目标定位与整体性能。实验结果表明,所提算法在CityPersons数据集上mAP50提升8.5个百分点,模型参数量降至1.8×10^(6),模型大小压缩至4.1 MB;在TinyPerson与CrowdHuman数据集上的泛化性实验表明,该算法在小尺寸目标和遮挡场景下的mAP50分别提升6.0和4.0个百分点。综合来看,LMFI-YOLO在保证检测精度显著提升的同时大幅降低了模型复杂度。 展开更多
关键词 行人检测 小目标行人 遮挡行人 深度卷积 任务交互
在线阅读 下载PDF
基于卷积-自注意力机制对多周期脉象识别分类
9
作者 邓威 刘轩吉 +8 位作者 郝龙辉 朱子简 李飞 王蕊 刘克勤 郭鹏宇 周华 王维广 陈占春 《中华中医药学刊》 北大核心 2025年第8期13-17,I0003-I0006,共9页
传统单周期脉象识别面临形态复杂、周期异变和个体差异等挑战,限制了其在实际应用中的有效性。本研究专注于解决多周期脉象识别分类问题,通过马尔可夫转移场融合脉象信号的幅值与时序信息,构建了新的图像数据集。基于此,提出了一种新的... 传统单周期脉象识别面临形态复杂、周期异变和个体差异等挑战,限制了其在实际应用中的有效性。本研究专注于解决多周期脉象识别分类问题,通过马尔可夫转移场融合脉象信号的幅值与时序信息,构建了新的图像数据集。基于此,提出了一种新的网络模型——对于卷积-注意力网络模型(Temporal convolutional attention network,TCANet),该模型结合深度可分离卷积和自注意力机制,显著提升了脉象图像数据的识别分类能力。实验结果显示,TCANet在滑脉、弦脉、平脉等脉象识别任务中分别达到了94.74%的准确率、94.79%的精确率、94.74%的召回率和94.76%的F1分数,表明其在多周期脉象识别领域具备优异的性能和广泛的应用潜力。 展开更多
关键词 多周期脉象 脉象识别 马尔可夫转移场 深度可分离卷积 自注意力
原文传递
基于AOD-Net改进的多尺度图像去雾算法
10
作者 王超 王婷 +1 位作者 王少军 杨万扣 《计算机工程》 北大核心 2025年第7期305-313,共9页
经典AOD-Net(All in One Dehazing Network)去雾后的图像存在细节清晰度不足、明暗反差过大和画面昏暗等问题。为了解决这些图像去雾问题,提出一种在AOD-Net基础上改进的多尺度算法。改进的网络结构采用深度可分离卷积替换传统卷积方式... 经典AOD-Net(All in One Dehazing Network)去雾后的图像存在细节清晰度不足、明暗反差过大和画面昏暗等问题。为了解决这些图像去雾问题,提出一种在AOD-Net基础上改进的多尺度算法。改进的网络结构采用深度可分离卷积替换传统卷积方式,减少了冗余参数量,加快了计算速度并有效地减少了模型的内存占用量,从而提高了算法去雾效率;同时采用多尺度结构在不同尺度上对雾图进行分析和处理,更好地捕捉图像的细节信息,提升了网络对图像细节的处理能力,解决了原算法去雾时存在的细节模糊问题;最后在网络结构中加入金字塔池化模块,用于整合图像不同区域的上下文信息,扩展了网络的感知范围,从而提高网络模型获取有雾图像全局信息的能力,进而改善图像色调失真、细节丢失等问题。此外,引入一个低照度增强模块,通过明确预测噪声实现去噪的目标,从而恢复曝光不足的图像。在低光去雾图像中,峰值信噪比(PSNR)和结构相似性(SSIM)指标均有显著提升,处理后的图片具有更高的整体自然度。实验结果表明:与经典AOD-Net去雾的结果相比,改进算法能够更好地恢复图像的细节和结构,使得去雾后的图像更自然,饱和度和对比度也更加平衡;在RESIDE的SOTS数据集中的室外和室内场景,相较于经典AOD-Net,改进算法的PSNR分别提升了4.5593 dB和4.0656 dB,SSIM分别提升了0.0476和0.0874。 展开更多
关键词 多尺度网络结构 深度可分离卷积 金字塔池化模块 低照度增强模块 图像去雾
在线阅读 下载PDF
一种适用视觉定位的暗光图像增强方法
11
作者 石秋婷 程玉 +2 位作者 陈帅 吴奕雯 陈垚杰 《导航定位学报》 北大核心 2025年第1期106-112,共7页
针对暗光环境下特征丢失影响视觉同步定位与地图构建(SLAM)精度的问题,提出一种深度可分离U型网络(DSCU-net)的图像增强方法:参考编码解码结构与跳跃连接机制,构建逐像素变换曲线估计网络,并引入深度可分离卷积以减少网络参数量;然后在... 针对暗光环境下特征丢失影响视觉同步定位与地图构建(SLAM)精度的问题,提出一种深度可分离U型网络(DSCU-net)的图像增强方法:参考编码解码结构与跳跃连接机制,构建逐像素变换曲线估计网络,并引入深度可分离卷积以减少网络参数量;然后在公开数据集上进行图像增强算法性能测试,并使用开源SLAM算法验证DSCU-net对定位精度的影响。结果表明,该方法能有效提升图像照明度,降低暗光条件下的定位误差,最小误差可降至4.9 cm;综合考虑增强图像质量和计算效率,提出的方法具有优越的暗光增强性能和网络轻量化特点,能有效提高暗光环境下视觉SLAM的定位精度。 展开更多
关键词 暗光 视觉定位 同步定位与地图构建(SLAM) 图像增强 深度可分离卷积 轻量化
在线阅读 下载PDF
极度轻量化的实时4K图像超分辨率重建网络
12
作者 王浩 端木春江 《微电子学与计算机》 2025年第5期73-80,共8页
近年来,电视、智能手机、VR等各种显示设备的屏幕分辨率不断提高,4K分辨率显示屏逐渐成为主流。然而现有的许多图像和视频都不具备这样高的分辨率。所以,通过超分辨率(Super-Resolution, SR)技术将低分辨率(Low-Resolution, LR)图像转... 近年来,电视、智能手机、VR等各种显示设备的屏幕分辨率不断提高,4K分辨率显示屏逐渐成为主流。然而现有的许多图像和视频都不具备这样高的分辨率。所以,通过超分辨率(Super-Resolution, SR)技术将低分辨率(Low-Resolution, LR)图像转换为高分辨(High-Resolution, HR)图像成为了研究热点。目前的SR模型是针对较大的输入尺寸(720p和1 080p),要想将其分辨率提高到4K,则需要非常大的计算资源以及较长的运行时间,难以满足移动设备的实时需求。由此提出了一个极度轻量化的实时4K图像超分网络。利用卷积神经网络计算较为轻量化的特点,设计了一个多尺度的深度级膨胀卷积模块(Multi-Scale Depth-Wise Dilated Convolution Block, MSDWDilConv Block)。将膨胀卷积与深度级卷积结合到一起,在有效的提高模型性能的同时,使得其计算量与运行时间都保持在一个较低的程度。实验结果表明:提出的方法在保持较好的性能的同时,也能够满足实时需求,在性能和计算效率上取得了很好的平衡。 展开更多
关键词 超分辨率 卷积神经网络 深度级卷积 膨胀卷积 实时 4K分辨率
在线阅读 下载PDF
基于深度卷积和三向注意力感知的胰腺分割算法
13
作者 谭璐露 冯前进 《中国医学物理学杂志》 2025年第1期37-42,共6页
针对胰腺分割任务中因体积较小且解剖结构复杂带来的挑战,提出一种级联的3D胰腺分割网络(CPS-Net)。CPS-Net由两部分组成:第一部分采用ResUNet快速定位胰腺区域,第二部分使用融合深度卷积(DCB)和三向注意力感知模块(ToSA)的网络来细化... 针对胰腺分割任务中因体积较小且解剖结构复杂带来的挑战,提出一种级联的3D胰腺分割网络(CPS-Net)。CPS-Net由两部分组成:第一部分采用ResUNet快速定位胰腺区域,第二部分使用融合深度卷积(DCB)和三向注意力感知模块(ToSA)的网络来细化分割结果。DCB通过逐层提取多尺度特征,显著增强胰腺与周围组织之间的区分能力。而ToSA则结合轴向注意力、平面注意力和窗口注意力机制,全面捕捉胰腺在复杂背景中的细节结构。CPS-Net在NIH公开数据集上的Dice相似性系数、阳性预测值、敏感性和Hausdorff距离指标分别达到(87.42±1.58)%、(87.42±3.52)%、(87.74±4.58)%和(0.22±0.08)mm。实验结果表明,CPS-Net表现优于当前主流分割网络,显著提升胰腺分割精度。 展开更多
关键词 胰腺 深度卷积 三向注意力 级联网络
暂未订购
基于多尺度特征提取的轻量化大规模MIMO系统CSI反馈 被引量:1
14
作者 刘受清 朱正发 申滔 《无线电工程》 2025年第1期175-183,共9页
在频分双工(Frequency Division Duplex,FDD)模式的大规模多输入多输出(Multiple Input Multiple Output,MIMO)系统中,针对资源有限的用户设备(User Equipment,UE)向基站(Base Station,BS)反馈信道状态信息(Channel State Information,C... 在频分双工(Frequency Division Duplex,FDD)模式的大规模多输入多输出(Multiple Input Multiple Output,MIMO)系统中,针对资源有限的用户设备(User Equipment,UE)向基站(Base Station,BS)反馈信道状态信息(Channel State Information,CSI)反馈开销太大、反馈精度不足以及网络计算复杂度高的问题,提出一种基于深度可分离卷积和多尺度特征提取的轻量化CSI反馈方案。采用轻量的深度可分离卷积处理CSI,以降低压缩信息的损失,通过多尺度特征提取和残差学习进行恢复重建CSI。仿真结果表明,所提方案相对其他轻量化网络表现出较好的反馈精度。 展开更多
关键词 频分双工 大规模多输入多输出 深度可分离卷积 多尺度特征提取网络 轻量化 信道状态信息反馈
在线阅读 下载PDF
基于深度非对称可分离卷积的人脸表情识别
15
作者 戚星烁 胡黄水 +1 位作者 唐志振 王玲 《长春工业大学学报》 2025年第2期143-148,共6页
提出深度非对称可分离卷积在网络结构不变的情况下,有效地降低了网络的参数。为了提高人脸表情的识别准确率,提出了改进通道注意力机制,通过指数函数增大不同通道特征图之间的差异,更突出关键特征。在Fer2013数据集上的实验表明,验证了... 提出深度非对称可分离卷积在网络结构不变的情况下,有效地降低了网络的参数。为了提高人脸表情的识别准确率,提出了改进通道注意力机制,通过指数函数增大不同通道特征图之间的差异,更突出关键特征。在Fer2013数据集上的实验表明,验证了文中提出的深度非对称可分离卷积和改进通道注意力机制的有效性。 展开更多
关键词 计算机视觉 人脸表情识别 深度可分离卷积 通道注意力机制
在线阅读 下载PDF
卷积增强Vision Mamba模型的构建及其应用
16
作者 俞焕友 范静 黄凡 《计算机技术与发展》 2025年第8期45-52,共8页
针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模... 针对Vision Mamba(Vim)模型的局限性,该文提出了一种改进的模型——Convolutional Vision Mamba(CvM)。此模型通过摒弃Vim中的图形切割和位置编码机制,转而采用卷积操作进行替代,以实现对全局视觉信息的更高效处理。同时,此模型对Vim模型中的位置嵌入模块进行了优化,以解决其固有的高计算量和内存消耗问题。进而,该文将CvM模型应用于医学图像分类领域,选用了血细胞图像、脑肿瘤图像、胸部CT扫描、病理性近视眼底图像以及肺炎X射线影像等数据集进行实验。实验结果表明,与Vim模型及其他5个神经网络模型相比,CvM模型在准确率上表现更为出色,在内存占用和参数数量方面也展现出明显的优势。消融实验表明,深度可分离卷积比标准卷积使用的参数和显存占用更少,而且在血细胞图像、脑肿瘤图像等医学图像分类上,准确率还有了显著提升。这些结果充分说明了CvM模型的优势和可行性。 展开更多
关键词 深度学习 Vision Mamba 卷积神经网络 深度可分离卷积 医学图像分类
在线阅读 下载PDF
基于通道注意力和特征融合的伪造语音检测研究
17
作者 汤龙 雷震春 《计算机技术与发展》 2025年第10期131-138,共8页
随着深度学习技术的迅猛发展,语音伪造技术对自动说话人验证系统的安全性构成严峻挑战,语音伪造检测系统依旧面临准确率不足、场景单一等问题。该文提出了一种结合通道注意力和特征融合的伪造语音检测方法,以解决语音伪造检测系统面临... 随着深度学习技术的迅猛发展,语音伪造技术对自动说话人验证系统的安全性构成严峻挑战,语音伪造检测系统依旧面临准确率不足、场景单一等问题。该文提出了一种结合通道注意力和特征融合的伪造语音检测方法,以解决语音伪造检测系统面临的一系列问题。为了聚集丰富的上下文信息和融合尺度不一致的特征,该文提出了双分支通道注意力模块,利用深度卷积沿通道维度聚合多尺度上下文信息,同时在两个分支上捕捉全局和局部特征信息;然后提出了注意力特征融合模块,将LFCC特征经过真实语音GMM和欺骗语音GMM得到对数高斯概率特征,随后基于注意力进行特征融合以学习具有通道上下文信息和全局局部特征信息的交互特征,解决了特征融合机制场景单一的问题。与基线系统相比,文中最佳系统AFF-ResNet在ASVSpoof2021LA数据集上的EER和min t-DCF分别降低37.5%和15.3%。实验结果表明,该方法显著提升了语音欺骗检测的准确率。 展开更多
关键词 伪造语音检测 对数高斯概率特征 通道注意力 深度卷积 多尺度上下文信息 特征融合
在线阅读 下载PDF
结合深度信息引导和多尺度通道注意力机制的单目三维目标检测算法 被引量:3
18
作者 刘青 李伟 +3 位作者 余少勇 宋宇萍 周启迪 邹伟林 《山东大学学报(理学版)》 北大核心 2025年第1期63-73,82,共12页
针对三维边界框无法从缺少空间线索的单目图像中准确估计的问题,本文提出一种基于深度信息引导和多尺度通道注意力机制的单目三维目标检测算法。为了引入三维信息并有效地获取和利用不同尺度特征图的空间信息,在特征提取模块中利用多尺... 针对三维边界框无法从缺少空间线索的单目图像中准确估计的问题,本文提出一种基于深度信息引导和多尺度通道注意力机制的单目三维目标检测算法。为了引入三维信息并有效地获取和利用不同尺度特征图的空间信息,在特征提取模块中利用多尺度分割注意力算法,分别从单目图像和深度图中提取多尺度预处理特征图,利用通道注意力算法进行权重标定,提高了特征图的表征能力。通过深度引导动态局部卷积网络,将包含多尺度信息的深度图特征作为单目图像特征的特定卷积核,引入三维信息作为指导,减少直接融合的误差累积,并解决单目视觉中近大远小的尺度敏感问题。选择不同的评估指标对模型的性能进行评价与比较。实验结果表明,同其他算法相比,本文算法的自动驾驶数据集中汽车、行人、骑自行车的人的三维目标检测平均精度均提高。 展开更多
关键词 单目三维目标检测 深度引导 多尺度通道注意力机制 自动驾驶
原文传递
基于上下文信息增强和深度引导的单目3D目标检测
19
作者 于家艺 吴秦 《浙江大学学报(工学版)》 北大核心 2025年第1期89-99,共11页
为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参... 为了充分利用单目图像提供的特征信息,提出上下文信息增强和深度引导的单目3D目标检测方法.设计高效的上下文信息增强模块,使用多个大核卷积自适应地增强多尺度目标的上下文信息,利用深度可分离卷积和条形卷积操作有效减少大核卷积的参数量和计算复杂度.统计分析3D目标框各个属性的预测误差,发现3D目标框的长度和深度属性预测不准确是导致预测框偏差大的主要原因.设计深度误差加权损失函数,在训练过程中进行目标的长度和深度预测监督,提高长度和深度属性的预测精度,进而提升3D预测框的准确性.在KITTI数据集上开展实验,结果表明,所提方法在数据集的多个级别上的平均准确度高于现有的单目3D目标检测方法. 展开更多
关键词 单目3D目标检测 大核卷积 深度可分离卷积 条形卷积 多尺度目标
在线阅读 下载PDF
基于坐标注意力与多头注意力机制的孪生网络目标跟踪方法
20
作者 郭拳逸 李成龙 +1 位作者 解志鹏 张金萧 《软件导刊》 2025年第9期153-167,共15页
目标跟踪的本质是通过分析目标在连续帧中的位置和特征,实现目标在时间和空间维度上的连续追踪,跟踪过程依赖于视频序列中目标的连贯性特征变化和目标与背景的区别程度。现有的孪生网络跟踪器不能捕获目标的空间位置信息,无法有效利用... 目标跟踪的本质是通过分析目标在连续帧中的位置和特征,实现目标在时间和空间维度上的连续追踪,跟踪过程依赖于视频序列中目标的连贯性特征变化和目标与背景的区别程度。现有的孪生网络跟踪器不能捕获目标的空间位置信息,无法有效利用视频序列中的长距离依赖关系和全局特征,在面临目标形变、快速移动、遮挡、背景干扰等问题时会导致跟踪框的漂移或者跟踪失败。在SiamRPN++模型基础上,提出一种融合坐标注意力与多头自注意力机制的单目标孪生网络跟踪模型。通过坐标注意力机制捕获提取的模板和搜索区域特征图中目标的空间位置信息,后续利用多头注意力机制提取全局特征和中长距离的依赖特征,再进行逐深度互相关操作,有效提高了模型的特征表示能力。在OTB100、V0T2016、VOT2018数据集上进行测试,结果表明,该模型相比基准算法在3个数据集上的精度分别提高了0.7%、0.5%、1.6%,充分验证了模型的有效性。 展开更多
关键词 目标跟踪 SiamRPN++ 坐标注意力机制 多头注意力机制 逐深度互相关
在线阅读 下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部