期刊文献+
共找到522篇文章
< 1 2 27 >
每页显示 20 50 100
Underwater Image Enhancement Based on Depthwise Separable Convolution-Based Generative Adversarial Network
1
作者 ZENG Jun-yang SI Zhan-jun 《印刷与数字媒体技术研究》 北大核心 2026年第1期60-66,共7页
The existence of absorption and reflection of light underwater leads to problems such as color distortion and blue-green bias in underwater images.In this study,a depthwise separable convolution-based generative adver... The existence of absorption and reflection of light underwater leads to problems such as color distortion and blue-green bias in underwater images.In this study,a depthwise separable convolution-based generative adversarial network(GAN)algorithm was proposed.Taking GAN as the basic framework,it combined a depthwise separable convolution module,attention mechanism,and reconstructed convolution module to realize the enhancement of underwater degraded images.Multi-scale features were captured by the depthwise separable convolution module,and the attention mechanism was utilized to enhance attention to important features.The reconstructed convolution module further extracts and fuses local and global features.Experimental results showed that the algorithm performs well in improving the color bias and blurring of underwater images,with PSNR reaching 27.835,SSIM reaching 0.883,UIQM reaching 3.205,and UCIQE reaching 0.713.The enhanced image outperforms the comparison algorithm in both subjective and objective metrics. 展开更多
关键词 Underwater image enhancement Generating adversarial network depthwise separable convolution
在线阅读 下载PDF
SEFormer:A Lightweight CNN-Transformer Based on Separable Multiscale Depthwise Convolution and Efficient Self-Attention for Rotating Machinery Fault Diagnosis 被引量:3
2
作者 Hongxing Wang Xilai Ju +1 位作者 Hua Zhu Huafeng Li 《Computers, Materials & Continua》 SCIE EI 2025年第1期1417-1437,共21页
Traditional data-driven fault diagnosis methods depend on expert experience to manually extract effective fault features of signals,which has certain limitations.Conversely,deep learning techniques have gained promine... Traditional data-driven fault diagnosis methods depend on expert experience to manually extract effective fault features of signals,which has certain limitations.Conversely,deep learning techniques have gained prominence as a central focus of research in the field of fault diagnosis by strong fault feature extraction ability and end-to-end fault diagnosis efficiency.Recently,utilizing the respective advantages of convolution neural network(CNN)and Transformer in local and global feature extraction,research on cooperating the two have demonstrated promise in the field of fault diagnosis.However,the cross-channel convolution mechanism in CNN and the self-attention calculations in Transformer contribute to excessive complexity in the cooperative model.This complexity results in high computational costs and limited industrial applicability.To tackle the above challenges,this paper proposes a lightweight CNN-Transformer named as SEFormer for rotating machinery fault diagnosis.First,a separable multiscale depthwise convolution block is designed to extract and integrate multiscale feature information from different channel dimensions of vibration signals.Then,an efficient self-attention block is developed to capture critical fine-grained features of the signal from a global perspective.Finally,experimental results on the planetary gearbox dataset and themotor roller bearing dataset prove that the proposed framework can balance the advantages of robustness,generalization and lightweight compared to recent state-of-the-art fault diagnosis models based on CNN and Transformer.This study presents a feasible strategy for developing a lightweight rotating machinery fault diagnosis framework aimed at economical deployment. 展开更多
关键词 CNN-Transformer separable multiscale depthwise convolution efficient self-attention fault diagnosis
在线阅读 下载PDF
Fire Detection Method Based on Depthwise Separable Convolution and YOLOv3 被引量:6
3
作者 Yue-Yan Qin Jiang-Tao Cao Xiao-Fei Ji 《International Journal of Automation and computing》 EI CSCD 2021年第2期300-310,共11页
Recently,video-based fire detection technology has become an important research topic in the field of machine vision.This paper proposes a method of combining the classification model and target detection model in dee... Recently,video-based fire detection technology has become an important research topic in the field of machine vision.This paper proposes a method of combining the classification model and target detection model in deep learning for fire detection.Firstly,the depthwise separable convolution is used to classify fire images,which saves a lot of detection time under the premise of ensuring detection accuracy.Secondly,You Only Look Once version 3(YOLOv3)target regression function is used to output the fire position information for the images whose classification result is fire,which avoids the problem that the accuracy of detection cannot be guaranteed by using YOLOv3 for target classification and position regression.At the same time,the detection time of target regression for images without fire is greatly reduced saved.The experiments were tested using a network public database.The detection accuracy reached 98%and the detection rate reached 38fps.This method not only saves the workload of manually extracting flame characteristics,reduces the calculation cost,and reduces the amount of parameters,but also improves the detection accuracy and detection rate. 展开更多
关键词 Fire detection depthwise separable convolution fire classification You Only Look Once version 3(YOLOv3) target regression
原文传递
PokerNet:Expanding Features Cheaply via Depthwise Convolutions 被引量:1
4
作者 Wei Tang Yan Huang Liang Wang 《International Journal of Automation and computing》 EI CSCD 2021年第3期432-442,共11页
Pointwise convolution is usually utilized to expand or squeeze features in modern lightweight deep models.However,it takes up most of the overall computational cost(usually more than 90%).This paper proposes a novel P... Pointwise convolution is usually utilized to expand or squeeze features in modern lightweight deep models.However,it takes up most of the overall computational cost(usually more than 90%).This paper proposes a novel Poker module to expand features by taking advantage of cheap depthwise convolution.As a result,the Poker module can greatly reduce the computational cost,and meanwhile generate a large number of effective features to guarantee the performance.The proposed module is standardized and can be employed wherever the feature expansion is needed.By varying the stride and the number of channels,different kinds of bottlenecks are designed to plug the proposed Poker module into the network.Thus,a lightweight model can be easily assembled.Experiments conducted on benchmarks reveal the effectiveness of our proposed Poker module.And our Poker Net models can reduce the computational cost by 7.1%-15.6%.Poker Net models achieve comparable or even higher recognition accuracy than previous state-of-the-art(SOTA)models on the Image Net ILSVRC2012 classification dataset.Code is available at https://github.com/diaomin/pokernet. 展开更多
关键词 Deep learning depthwise convolution lightweight deep model model compression model acceleration
原文传递
A Lightweight Convolutional Neural Network with Hierarchical Multi-Scale Feature Fusion for Image Classification 被引量:2
5
作者 Adama Dembele Ronald Waweru Mwangi Ananda Omutokoh Kube 《Journal of Computer and Communications》 2024年第2期173-200,共28页
Convolutional neural networks (CNNs) are widely used in image classification tasks, but their increasing model size and computation make them challenging to implement on embedded systems with constrained hardware reso... Convolutional neural networks (CNNs) are widely used in image classification tasks, but their increasing model size and computation make them challenging to implement on embedded systems with constrained hardware resources. To address this issue, the MobileNetV1 network was developed, which employs depthwise convolution to reduce network complexity. MobileNetV1 employs a stride of 2 in several convolutional layers to decrease the spatial resolution of feature maps, thereby lowering computational costs. However, this stride setting can lead to a loss of spatial information, particularly affecting the detection and representation of smaller objects or finer details in images. To maintain the trade-off between complexity and model performance, a lightweight convolutional neural network with hierarchical multi-scale feature fusion based on the MobileNetV1 network is proposed. The network consists of two main subnetworks. The first subnetwork uses a depthwise dilated separable convolution (DDSC) layer to learn imaging features with fewer parameters, which results in a lightweight and computationally inexpensive network. Furthermore, depthwise dilated convolution in DDSC layer effectively expands the field of view of filters, allowing them to incorporate a larger context. The second subnetwork is a hierarchical multi-scale feature fusion (HMFF) module that uses parallel multi-resolution branches architecture to process the input feature map in order to extract the multi-scale feature information of the input image. Experimental results on the CIFAR-10, Malaria, and KvasirV1 datasets demonstrate that the proposed method is efficient, reducing the network parameters and computational cost by 65.02% and 39.78%, respectively, while maintaining the network performance compared to the MobileNetV1 baseline. 展开更多
关键词 MobileNet Image Classification Lightweight convolutional Neural Network depthwise Dilated Separable convolution Hierarchical Multi-Scale Feature Fusion
在线阅读 下载PDF
A Framework of Lightweight Deep Cross-Connected Convolution Kernel Mapping Support Vector Machines
6
作者 Qi Wang Zhaoying Liu +3 位作者 Ting Zhang Shanshan Tu Yujian Li Muhammad Waqas 《Journal on Artificial Intelligence》 2022年第1期37-48,共12页
Deep kernel mapping support vector machines have achieved good results in numerous tasks by mapping features from a low-dimensional space to a high-dimensional space and then using support vector machines for classifi... Deep kernel mapping support vector machines have achieved good results in numerous tasks by mapping features from a low-dimensional space to a high-dimensional space and then using support vector machines for classification.However,the depth kernel mapping support vector machine does not take into account the connection of different dimensional spaces and increases the model parameters.To further improve the recognition capability of deep kernel mapping support vector machines while reducing the number of model parameters,this paper proposes a framework of Lightweight Deep Convolutional Cross-Connected Kernel Mapping Support Vector Machines(LC-CKMSVM).The framework consists of a feature extraction module and a classification module.The feature extraction module first maps the data from low-dimensional to high-dimensional space by fusing the representations of different dimensional spaces through cross-connections;then,it uses depthwise separable convolution to replace part of the original convolution to reduce the number of parameters in the module;The classification module uses a soft margin support vector machine for classification.The results on 6 different visual datasets show that LC-CKMSVM obtains better classification accuracies on most cases than the other five models. 展开更多
关键词 convolutional neural network cross-connected lightweight framework depthwise separable convolution
在线阅读 下载PDF
频率感知驱动的深度鲁棒图像水印
7
作者 张国富 李鑫 +2 位作者 苏兆品 方涵 廉晨思 《中国图象图形学报》 北大核心 2026年第1期197-211,共15页
目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出... 目的近年来,基于深度学习的水印方法得到了广泛研究。现有方法通常对特征图的低频和高频部分同等对待,忽视了不同频率成分之间的重要差异,导致模型在处理多样化攻击时缺乏灵活性,难以同时实现水印的高保真性和强鲁棒性。为此,本文提出一种频率感知驱动的深度鲁棒图像水印技术(deep robust image watermarking driven by frequency awareness,RIWFP)。方法通过差异化机制处理低频和高频成分,提升水印性能。具体而言,低频成分通过小波卷积神经网络进行建模,利用宽感受野卷积在粗粒度层面高效学习全局结构和上下文信息;高频成分则采用深度可分离卷积和注意力机制组成的特征蒸馏块进行精炼,强化图像细节,在细粒度层面高效捕捉高频信息。此外,本文使用多频率小波损失函数,引导模型聚焦于不同频带的特征分布,进一步提升生成图像的质量。结果实验结果表明,提出的频率感知驱动的深度鲁棒图像水印技术在多个数据集上均表现出优越性能。在COCO(common objects in context)数据集上,RIWFP在随机丢弃攻击下的准确率达到91.4%;在椒盐噪声和中值滤波攻击下,RIWFP分别以100%和99.5%的准确率达到了最高水平,展现了其对高频信息的高效学习能力。在Ima⁃geNet数据集上,RIWFP在裁剪攻击下的准确率为93.4%;在JPEG压缩攻击下的准确率为99.6%,均显著优于其他对比方法。综合来看,RIWFP在COCO和ImageNet数据集上的平均准确率分别为96.7%和96.9%,均高于其他对比方法。结论本文所提方法通过频率感知的粗到细处理策略,显著增强了水印的不可见性和鲁棒性,在处理多种攻击时表现出优越性能。 展开更多
关键词 鲁棒图像水印 小波卷积神经网络 深度可分离卷积 注意力机制 多频率小波损失
原文传递
基于改进YOLOv5s的自动导引运输车托盘孔位视觉定位方法
8
作者 崔升 唐芳丽 +2 位作者 郑亮宇 曾伟理 曲伟伟 《食品与机械》 北大核心 2026年第1期79-85,共7页
[目的]自动导引运输车在搬运过程中,需定位的托盘孔位中存在的细小、形变、低对比度孔位的视觉定位不准的问题。因此,提出一种基于改进YOLOv5s的自动导引运输车托盘孔位视觉定位方法。[方法]结合ShuffleNetV2的通道混洗操作改进和CBAM... [目的]自动导引运输车在搬运过程中,需定位的托盘孔位中存在的细小、形变、低对比度孔位的视觉定位不准的问题。因此,提出一种基于改进YOLOv5s的自动导引运输车托盘孔位视觉定位方法。[方法]结合ShuffleNetV2的通道混洗操作改进和CBAM注意力机制改进,对基本YOLOv5s框架进行改进,使其聚焦于形变关键区域中亚像素级边界模糊的孔位区域;基于SloU损失函数关注微小孔位,并计算托盘孔位在相机坐标系下的空间三维坐标,得到相机坐标系到孔位区域坐标系的变换关系,采用改进的YOLOv5s框架输出AGV机械臂坐标系下的托盘孔位三维坐标。[结果]试验方法可有效捕捉亚像素级定位精度边界,绝对误差<0.03 cm,相对误差<0.83%;F1分数、mAP指标分别为95.2%、94.8%;浮点运算次数、参数量和模型体积分别为4.8 G、2.6 M、4.28 MB。[结论]试验方法有效解决了需定位托盘孔位中存在的细小、形变、低对比度孔位的视觉定位难题,提升了自动导引运输车托盘搬运效率。 展开更多
关键词 YOLOv5s 自动导引运输车 托盘孔位定位 深度可分离卷积 CBAM注意力
在线阅读 下载PDF
基于扩散先验的脑部MRI超分辨率重建
9
作者 熊承义 曹雨轩 高志荣 《中南民族大学学报(自然科学版)》 2026年第2期202-211,共10页
现有基于Transformer的MRI超分辨率方法虽具有良好的全局建模能力,但忽略了深度先验约束建模的重要性.为此,提出了一种基于扩散先验的脑部MRI超分辨率方法,利用潜在扩散模型生成的先验来引导Transformer进行超分辨率重建,以提升MRI细节... 现有基于Transformer的MRI超分辨率方法虽具有良好的全局建模能力,但忽略了深度先验约束建模的重要性.为此,提出了一种基于扩散先验的脑部MRI超分辨率方法,利用潜在扩散模型生成的先验来引导Transformer进行超分辨率重建,以提升MRI细节重建能力.具体而言,采用两阶段协同训练策略:第一阶段通过真实图像潜编码构建内容先验;第二阶段引入扩散模型重构先验,并联合优化去噪与重建过程,实现无监督条件下的图像超分辨率.此外,采用深度可分离卷积与置换自注意力机制,实现编码器的高效建模与感受野扩展.在IXI多模态MRI数据集上的4倍超分辨率实验表明:所提出方法在提升重建图像主客观质量与重建效率方面优于已有方法 . 展开更多
关键词 MRI超分辨率 扩散先验 置换自注意力 深度可分离卷积
在线阅读 下载PDF
基于EFFA-CNN的光纤周界安防信号识别方法
10
作者 尚秋峰 谢晓宇 《南京信息工程大学学报》 北大核心 2026年第2期160-172,共13页
应用含注意力机制的网络模型进行模式识别已成为相位敏感光时域反射计(Phase-senstive Optical Time Domain Reflectometer,Φ-OTDR)周界安防领域的研究热点.针对周界安防信号时序图像,本文提出一种基于可解释性全特征注意力机制的卷积... 应用含注意力机制的网络模型进行模式识别已成为相位敏感光时域反射计(Phase-senstive Optical Time Domain Reflectometer,Φ-OTDR)周界安防领域的研究热点.针对周界安防信号时序图像,本文提出一种基于可解释性全特征注意力机制的卷积网络模型.以VGG模型架构为基础,引入深度可分离卷积模块和Leaky ReLU激活函数构成全新的卷积模块,提高模型实时性.为增强卷积模型的全局信息提取能力和可解释性(即特征重要性评价能力),采用元卷积核代替空间注意力机制的池化层,从而设计了可解释性全特征注意力机制,并将其添加到卷积模块和全连接层之间.采用实验获得Φ-OTDR周界安防信号,对本文所提网络和典型的ANN、CNN、VGG、CNN-CBAMBiLSTM、CNN-LSTM进行对比实验.结果表明:本文模型特征提取过程可解释性强,对测试样本的识别准确率达99.06%,在95%置信水平下对周界安防信号的平均置信区间为[0.9606,0.9992],F1-score达到0.9922,性能优于对比模型. 展开更多
关键词 光纤传感 Φ-OTDR 周界安防 注意力机制 深度可分离卷积
在线阅读 下载PDF
基于人工智能交互技术的友好型智能玩具创新设计研究
11
作者 周冰洁 《自动化与仪器仪表》 2026年第2期280-284,共5页
针对智能玩具机器人情感识别准确率低的问题,研究提出了基于深度可分离卷积和多头注意力机制的情感识别模型,并设计了相应的友好型智能玩具机器人。性能对比实验结果显示,该模型的平均加权准确率和平均加权F1值分别为97.81%和97.23%,均... 针对智能玩具机器人情感识别准确率低的问题,研究提出了基于深度可分离卷积和多头注意力机制的情感识别模型,并设计了相应的友好型智能玩具机器人。性能对比实验结果显示,该模型的平均加权准确率和平均加权F1值分别为97.81%和97.23%,均优于对比模型。在对话回复中,该模型对4种情感的识别正确率最高达到98.4%,显著高于其他模型。以上结果说明,研究提出的所提出的模型和机器人具有较高的性能和实用价值,有助于提高机器人情感识别的准确率,能为智能友好型机器人玩具相关研究提供理论基础。 展开更多
关键词 玩具 机器人 深度可分离卷积 多头注意力机制 情感识别
原文传递
YOLOv8s-EWD:一种雷达网线接线缺陷检测模型
12
作者 李文锋 陆施楷 +1 位作者 颜振亚 沙超 《现代雷达》 北大核心 2026年第3期117-124,共8页
随着雷达系统对智能故障诊断需求的不断提升以及机器学习技术的快速发展,机器学习方法在雷达内部部件故障快速定位领域得到了广泛应用。针对当前雷达系统线类故障无法通过系统直接反馈,需依赖人工排查导致效率低下,以及网线接线缺陷目... 随着雷达系统对智能故障诊断需求的不断提升以及机器学习技术的快速发展,机器学习方法在雷达内部部件故障快速定位领域得到了广泛应用。针对当前雷达系统线类故障无法通过系统直接反馈,需依赖人工排查导致效率低下,以及网线接线缺陷目标尺寸小、环境复杂多样导致检测困难等问题,提出了一种雷达网线接线缺陷检测模型——YOLOv8s-EWD。首先,该模型中的HA_C2f模块,提升了模型对局部特征的表达能力;其次,该模型在头部网络下采样过程中使用深度卷积模块组合C2f模块来降低头部网络的部分参数量,在保证检测精度的同时有效降低了模型参数量;最后,该模型通过新增P2检测层强化了对细粒度特征的捕捉能力。实验结果表明:YOLOv8s-EWD模型在细粒度特征识别、局部特征描述、模型轻量化以及检测精度等方面均取得了显著提升。 展开更多
关键词 YOLOv8s模型 HA_C2f模块 深度卷积 缺陷检测 雷达网线
原文传递
基于DenseNet优化Swin Transformer模型的苹果叶部病害多尺度特征分类
13
作者 谷伟 叶峥 矫桂娥 《农业机械学报》 北大核心 2026年第2期181-192,共12页
针对人工检测苹果病害效率低、成本高且准确性差的问题,本文以Swin Transformer作为基础模型,在核心模块中引入DenseNet思想,增强特征传递和梯度流动;使用Outlook Attention捕捉图像中细节特征,提升模型细粒度信息提取能力。为了进一步... 针对人工检测苹果病害效率低、成本高且准确性差的问题,本文以Swin Transformer作为基础模型,在核心模块中引入DenseNet思想,增强特征传递和梯度流动;使用Outlook Attention捕捉图像中细节特征,提升模型细粒度信息提取能力。为了进一步优化模型性能,引入了深度可分离卷积和膨胀卷积,实现在较小参数量前提下捕捉不同尺度的特征;在模型中引入Non-Local,以整合全局上下文信息,进一步提高模型的综合性能。以上改进共同作用,使得本文模型在多个任务上表现出了优异的性能和鲁棒性。实验结果显示,苹果叶部病害分类识别准确率达到95.8%,精确率、召回率和F1分数分别达到95.80%、95.74%、95.76%,均超过基线模型。基于改进Swin Transformer的苹果叶部病害分类模型能够有效实现苹果叶部病害的种类识别及其严重程度分类,为大规模作物病害监测提供了理论支持和研究基础,助力精准防控与绿色农业。 展开更多
关键词 苹果叶部病害 深度可分离卷积 细粒度信息 全局上下文信息 特征传递
在线阅读 下载PDF
一种基于FL-TransCNN神经网络的水声智能频谱感知算法
14
作者 李玉芳 王锴 +2 位作者 张力良 徐凌伟 Thomas Aaron Gulliver 《电讯技术》 北大核心 2026年第1期11-20,共10页
为了提高频谱利用率,提出了一种基于联邦学习(Federated Learning,FL)、Transformer和卷积神经网络(Convolutional Neural Network,CNN)的水声智能频谱感知算法。首先,基于FL实现数据隔离状态下的信息共享,并应用Paillier加密技术进行... 为了提高频谱利用率,提出了一种基于联邦学习(Federated Learning,FL)、Transformer和卷积神经网络(Convolutional Neural Network,CNN)的水声智能频谱感知算法。首先,基于FL实现数据隔离状态下的信息共享,并应用Paillier加密技术进行权重加密保障;其次,本地感知数据经连续小波变换构建为时频谱图;最后,融合CNN与Transformer构建了TransCNN感知器,通过并行分支实现了高精度感知。在信噪比-18~0 dB范围内,与RepVGG、Swin-Transformer、YOLOv7、MobileNet算法相比,所提的水声智能频谱感知算法的平均检测概率提升了4%~10%,平均虚警概率降低了2%~9%。 展开更多
关键词 海洋物联网 智能频谱感知 联邦学习 连续小波变换 深度可分离卷积
在线阅读 下载PDF
基于多尺度注意力与双流融合特征的微表情识别
15
作者 郭小龙 薛珮芸 +1 位作者 白静 徐姜帅 《现代电子技术》 北大核心 2026年第5期175-184,共10页
为了解决微表情识别中特征提取能力不足和样本数据不均衡导致的识别偏差问题,文中提出一种基于多尺度注意力与双流融合特征的微表情识别方法。首先设计多尺度注意力模块,通过光流和差分序列特征的融合提升微表情关键动态信息的提取能力... 为了解决微表情识别中特征提取能力不足和样本数据不均衡导致的识别偏差问题,文中提出一种基于多尺度注意力与双流融合特征的微表情识别方法。首先设计多尺度注意力模块,通过光流和差分序列特征的融合提升微表情关键动态信息的提取能力;其次设计了改进的多核Inception模块,结合深度可分离卷积和多尺寸卷积核,在提升特征表达能力的同时降低计算复杂度;最后采用数据扩充策略和Focal Loss损失函数以缓解样本类间不均导致的识别偏移。实验结果显示,该方法在CASMEⅡ、SMIC-HS、SAMM和MEGC2019等4个自发微表情数据集上实现了优异性能。其中UAR和UF1指标分别达到最高,为0.914和0.912,显著优于近期主流方法。同时,设计的消融实验验证了多尺度注意力模块和多核Inception模块在特征提取中的关键作用。实验结果表明,所提方法通过多维度融合、创新特征提取、数据扩充和改善损失函数等操作,获得了高精度且具有竞争力的微表情识别性能。 展开更多
关键词 微表情识别 多尺度注意力 双流特征融合 深度可分离卷积 数据扩充 Focal Loss损失函数
在线阅读 下载PDF
CPViG-Net:基于局部跨阶段视觉图卷积的学生课堂行为识别
16
作者 张浩鹏 施铮 +1 位作者 刘峰 宋婉茹 《计算机科学》 北大核心 2026年第2期57-66,共10页
随着教育范式从“人机协同”向“人智协同共育”演进,课堂教学的智能化评价也面临着新的要求和挑战,其中以学生行为为出发点的任务近些年来获得了广泛的关注。针对真实课堂环境中存在的学生行为多样、遮挡频繁及背景干扰严重等问题,提... 随着教育范式从“人机协同”向“人智协同共育”演进,课堂教学的智能化评价也面临着新的要求和挑战,其中以学生行为为出发点的任务近些年来获得了广泛的关注。针对真实课堂环境中存在的学生行为多样、遮挡频繁及背景干扰严重等问题,提出一种局部跨阶段视觉图卷积模型,旨在提升复杂课堂环境下的学生行为识别精度。该模型以经典目标检测算法为基准框架,通过融合视觉图卷积神经网络的动态特征建模能力,构建了局部最大相对图卷积模块(PMG)与局部跨阶段融合(CPF)模块。其中,PMG模块通过嵌入最大相对图卷积来捕捉节点间特征差异最大的邻域信息,进而针对性地解决局部区域遮挡引起的信息丢失问题,并结合了深度可分离卷积降低图卷积算法的计算开销;CPF模块利用全连接层重构特征结构,并通过C2f模块的跨阶段连接机制,实现多层级的特征融合,从而增强模型对小尺度目标的识别能力。此外,模型通过近邻K值优化,提出针对不同数据集的优化策略。在公开数据集SCB03-S上,CPViG-Net的mAP@50达到70.9%,较基准模型提升2个百分点;在多个公开数据集上的实验表明,该模型在处理真实课堂情境下学生行为识别面临的诸多问题中表现出较好的性能和较高的鲁棒性。 展开更多
关键词 学生行为 最大相对图卷积 多尺度目标识别 遮挡 深度可分离卷积
在线阅读 下载PDF
空对地观测目标识别轻量化网络构建方法
17
作者 倪平 张维光 +1 位作者 刘亚红 杨小勇 《西安工业大学学报》 2026年第1期69-82,共14页
针对空对地观测目标识别网络向嵌入式载体硬件平台移植时,因网络模型参数规模大而引起系统目标识别性能大幅下降等问题,提出了一种目标识别轻量化网络构建方法。选用深度可分离卷积来替代标准卷积,同时在Mobilenetv3网络中引入三重注意... 针对空对地观测目标识别网络向嵌入式载体硬件平台移植时,因网络模型参数规模大而引起系统目标识别性能大幅下降等问题,提出了一种目标识别轻量化网络构建方法。选用深度可分离卷积来替代标准卷积,同时在Mobilenetv3网络中引入三重注意力机制提升对目标的识别能力,完成骨干网络构建,基于Jonson准则设计了目标检测网络,选用PAFPN颈部网络和EIOU_Loss损失函数,完成了轻量化网络MPDNET构建。在PASCAL VOC2007数据集和自建数据集上进行对比分析,与YOLOv5s网络相比,MPDNET网络精度降低了4.4%,但网络模型参数减少了62%,运算量减少了52%,并对小目标具有较高的识别精度。在自建数据库中,与YOLOv5s网络相比,MPDNET网络精度降低了3.8%。最后在Jetson TX2平台上进行部署,使用TensorRT优化后的网络模型推理速度可达到每秒80帧以上。 展开更多
关键词 目标识别网络 网络模型参数 轻量化网络 深度可分离卷积 运算量
在线阅读 下载PDF
融合最大池化的Conformer中文语音识别
18
作者 胡从刚 杨立鹏 +2 位作者 孙永奇 陈华龙 韩可可 《计算机工程》 北大核心 2026年第1期105-115,共11页
语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取... 语音识别旨在通过先进的算法与信号处理技术,赋予机器理解人类语音的能力,使得人与机器之间的交流更加便捷、顺畅。目前,大多数端到端语音识别的研究工作主要围绕Conformer模型进行优化。针对Conformer编码器对语音细粒度局部特征提取能力不足的问题,提出一种融合最大池化(MP)的Conformer中文语音识别模型。首先,将编码器卷积模块中门控线性单元的输出在时间维度上进行MP,以提取多帧语音信号对应一个字符的细粒度局部特征。然后,将池化后的特征与逐通道卷积(DWC)提取的粗粒度局部特征以逐元素相加的方式进行融合,以增加语音局部特征的信息量,从而提高Conformer模型的语音识别准确率。最后,在公开的中文数据集Aishell-1上的实验结果表明:采用贪心搜索方式进行解码,所提模型可以将基线模型的字错误率(CER)从5.58%降低至5.32%;采用注意力重打分方式进行解码,所提模型可以将基线模型的CER从5.06%降低至4.92%。 展开更多
关键词 语音识别 细粒度局部特征 Conformer模型 最大池化 逐通道卷积
在线阅读 下载PDF
基于改进YOLOv8的脑肿瘤图像检测算法
19
作者 郑泽毅 曹嘉璇 +3 位作者 王家琪 邹北骥 郭纯 刘青萍 《计算技术与自动化》 2026年第1期18-25,共8页
脑肿瘤是严重威胁人类健康的疾病,早期检测对提高治疗效果至关重要。针对现有脑肿瘤检测算法在复杂背景或边缘模糊的情况下检测精度不足的问题,本文提出了一种基于改进YOLOv8的脑肿瘤检测算法。该算法引入协调注意力机制,强化肿瘤区域... 脑肿瘤是严重威胁人类健康的疾病,早期检测对提高治疗效果至关重要。针对现有脑肿瘤检测算法在复杂背景或边缘模糊的情况下检测精度不足的问题,本文提出了一种基于改进YOLOv8的脑肿瘤检测算法。该算法引入协调注意力机制,强化肿瘤区域的特征聚焦;在主干网络中采用深度可分离卷积,降低计算复杂度并提升特征提取效率;结合Bottleneck Transformer模块,增强了全局信息建模能力。实验在Brain Tumor Detection数据集上进行,结果显示检测精度达到93%,相较于原算法提升1.1%,mAP0.5和mAP0.5∶0.95分别提升了2.1%和1.7%。实验结果表明,改进算法在脑肿瘤检测任务中表现出显著优势,为医学影像辅助诊断提供了更加精准和高效的支持。 展开更多
关键词 脑肿瘤检测 YOLOv8 协调注意力机制 深度可分离卷积 Bottleneck Transformer
在线阅读 下载PDF
一种基于网络剪枝和知识蒸馏相结合的目标跟踪加速方法
20
作者 姚坤 耿朝阳 穆静 《微电子学与计算机》 2026年第4期28-36,共9页
近年来基于深度学习的目标跟踪算法在精准度和鲁棒性方面已经超越了传统跟踪方法,但其实际应用中却因跟踪模型参数多和计算量大而面临挑战。选取经典的SiamFC深度跟踪网络作为研究案例,通过引入轻量化的卷积结构来取代传统卷积,并结合... 近年来基于深度学习的目标跟踪算法在精准度和鲁棒性方面已经超越了传统跟踪方法,但其实际应用中却因跟踪模型参数多和计算量大而面临挑战。选取经典的SiamFC深度跟踪网络作为研究案例,通过引入轻量化的卷积结构来取代传统卷积,并结合网络剪枝与知识蒸馏的方法来精简网络的计算量。在剪枝过程中,为了避免网络跟踪精度降低,运用知识蒸馏策略,借助原始的一个预训练高性能教师模型,将其在大量数据上积累的知识传授给待剪枝的学生模型。学生模型剪枝过程中在维持跟踪精度的基础上,可以进一步削减了所需的计算资源。在VOT数据集上的实验结果表明,该方法在基本保持跟踪性能的同时,可以显著降低了目标跟踪模型的参数量和计算量。 展开更多
关键词 目标跟踪 网络加速 深度可分离卷积 网络剪枝 知识蒸馏
在线阅读 下载PDF
上一页 1 2 27 下一页 到第
使用帮助 返回顶部