期刊文献+
共找到270篇文章
< 1 2 14 >
每页显示 20 50 100
Multi-scale object detection by top-down and bottom-up feature pyramid network 被引量:14
1
作者 ZHAO Baojun ZHAO Boya +2 位作者 TANG Linbo WANG Wenzheng WU Chen 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2019年第1期1-12,共12页
While moving ahead with the object detection technology, especially deep neural networks, many related tasks, such as medical application and industrial automation, have achieved great success. However, the detection ... While moving ahead with the object detection technology, especially deep neural networks, many related tasks, such as medical application and industrial automation, have achieved great success. However, the detection of objects with multiple aspect ratios and scales is still a key problem. This paper proposes a top-down and bottom-up feature pyramid network(TDBU-FPN),which combines multi-scale feature representation and anchor generation at multiple aspect ratios. First, in order to build the multi-scale feature map, this paper puts a number of fully convolutional layers after the backbone. Second, to link neighboring feature maps, top-down and bottom-up flows are adopted to introduce context information via top-down flow and supplement suboriginal information via bottom-up flow. The top-down flow refers to the deconvolution procedure, and the bottom-up flow refers to the pooling procedure. Third, the problem of adapting different object aspect ratios is tackled via many anchor shapes with different aspect ratios on each multi-scale feature map. The proposed method is evaluated on the pattern analysis, statistical modeling and computational learning visual object classes(PASCAL VOC)dataset and reaches an accuracy of 79%, which exhibits a 1.8% improvement with a detection speed of 23 fps. 展开更多
关键词 convolutional neural network (CNN) FEATURE pyramid network (FPN) object detection deconvolution.
在线阅读 下载PDF
Dual Attention Based Feature Pyramid Network 被引量:5
2
作者 Huijun Xing Shuai Wang +1 位作者 Dezhi Zheng Xiaotong Zhao 《China Communications》 SCIE CSCD 2020年第8期242-252,共11页
Object detection could be recognized as an essential part of the research to scenarios such as automatic driving and pedestrian detection, etc. Among multiple types of target objects, the identification of small-scale... Object detection could be recognized as an essential part of the research to scenarios such as automatic driving and pedestrian detection, etc. Among multiple types of target objects, the identification of small-scale objects faces significant challenges. We would introduce a new feature pyramid framework called Dual Attention based Feature Pyramid Network(DAFPN), which is designed to avoid predicament about multi-scale object recognition. In DAFPN, the attention mechanism is introduced by calculating the topdown pathway and lateral pathway, where the spatial attention, as well as channel attention, would participate, respectively, such that the pyramidal feature maps can be generated with enhanced spatial and channel interdependencies, which bring more semantical information for the feature pyramid. Using the COCO data set, which consists of a considerable quantity of small-scale objects, the experiments are implemented. The analysis results verify the optimized performance of DAFPN compared with the original Feature Pyramid Network(FPN) specifically for the identification on a small scale. The proposed DAFPN is promising for object detection in an era full of intelligent machines that need to detect multi-scale objects. 展开更多
关键词 object detection convolutional neural networks feature pyramid
在线阅读 下载PDF
Neighborhood fusion-based hierarchical parallel feature pyramid network for object detection 被引量:3
3
作者 Mo Lingfei Hu Shuming 《Journal of Southeast University(English Edition)》 EI CAS 2020年第3期252-263,共12页
In order to improve the detection accuracy of small objects,a neighborhood fusion-based hierarchical parallel feature pyramid network(NFPN)is proposed.Unlike the layer-by-layer structure adopted in the feature pyramid... In order to improve the detection accuracy of small objects,a neighborhood fusion-based hierarchical parallel feature pyramid network(NFPN)is proposed.Unlike the layer-by-layer structure adopted in the feature pyramid network(FPN)and deconvolutional single shot detector(DSSD),where the bottom layer of the feature pyramid network relies on the top layer,NFPN builds the feature pyramid network with no connections between the upper and lower layers.That is,it only fuses shallow features on similar scales.NFPN is highly portable and can be embedded in many models to further boost performance.Extensive experiments on PASCAL VOC 2007,2012,and COCO datasets demonstrate that the NFPN-based SSD without intricate tricks can exceed the DSSD model in terms of detection accuracy and inference speed,especially for small objects,e.g.,4%to 5%higher mAP(mean average precision)than SSD,and 2%to 3%higher mAP than DSSD.On VOC 2007 test set,the NFPN-based SSD with 300×300 input reaches 79.4%mAP at 34.6 frame/s,and the mAP can raise to 82.9%after using the multi-scale testing strategy. 展开更多
关键词 computer vision deep convolutional neural network object detection hierarchical parallel feature pyramid network multi-scale feature fusion
在线阅读 下载PDF
A Novel Self-Supervised Learning Network for Binocular Disparity Estimation 被引量:1
4
作者 Jiawei Tian Yu Zhou +5 位作者 Xiaobing Chen Salman A.AlQahtani Hongrong Chen Bo Yang Siyu Lu Wenfeng Zheng 《Computer Modeling in Engineering & Sciences》 SCIE EI 2025年第1期209-229,共21页
Two-dimensional endoscopic images are susceptible to interferences such as specular reflections and monotonous texture illumination,hindering accurate three-dimensional lesion reconstruction by surgical robots.This st... Two-dimensional endoscopic images are susceptible to interferences such as specular reflections and monotonous texture illumination,hindering accurate three-dimensional lesion reconstruction by surgical robots.This study proposes a novel end-to-end disparity estimation model to address these challenges.Our approach combines a Pseudo-Siamese neural network architecture with pyramid dilated convolutions,integrating multi-scale image information to enhance robustness against lighting interferences.This study introduces a Pseudo-Siamese structure-based disparity regression model that simplifies left-right image comparison,improving accuracy and efficiency.The model was evaluated using a dataset of stereo endoscopic videos captured by the Da Vinci surgical robot,comprising simulated silicone heart sequences and real heart video data.Experimental results demonstrate significant improvement in the network’s resistance to lighting interference without substantially increasing parameters.Moreover,the model exhibited faster convergence during training,contributing to overall performance enhancement.This study advances endoscopic image processing accuracy and has potential implications for surgical robot applications in complex environments. 展开更多
关键词 Parallax estimation parallax regression model self-supervised learning Pseudo-Siamese neural network pyramid dilated convolution binocular disparity estimation
在线阅读 下载PDF
Pyramid Pooling-Based Vision Transformer for Tool Condition Recognition
5
作者 ZHENG Kun LI Yonglin +2 位作者 GU Xinyan DING Zhiying ZHU Haihua 《Transactions of Nanjing University of Aeronautics and Astronautics》 2025年第3期322-336,共15页
This study focuses on tool condition recognition through data-driven approaches to enhance the intelligence level of computerized numerical control(CNC)machining processes and improve tool utilization efficiency.Tradi... This study focuses on tool condition recognition through data-driven approaches to enhance the intelligence level of computerized numerical control(CNC)machining processes and improve tool utilization efficiency.Traditional tool monitoring methods that rely on empirical knowledge or limited mathematical models struggle to adapt to complex and dynamic machining environments.To address this,we implement real-time tool condition recognition by introducing deep learning technology.Aiming to the insufficient recognition accuracy,we propose a pyramid pooling-based vision Transformer network(P2ViT-Net)method for tool condition recognition.Using images as input effectively mitigates the issue of low-dimensional signal features.We enhance the vision Transformer(ViT)framework for image classification by developing the P2ViT model and adapt it to tool condition recognition.Experimental results demonstrate that our improved P2ViT model achieves 94.4%recognition accuracy,showing a 10%improvement over conventional ViT and outperforming all comparative convolutional neural network models. 展开更多
关键词 tool condition recognition TRANSFORMER pyramid pooling deep convolutional neural network
在线阅读 下载PDF
FEC-PVT:基于PVT架构的甲骨钻凿图像分割网络
6
作者 刘国奇 李文格 +3 位作者 茹琳媛 宋黎明 刘杰 韩燕彪 《河南师范大学学报(自然科学版)》 北大核心 2026年第1期8-16,I0003,共10页
由于长时间埋藏于地下和风化腐蚀,造成甲骨片破损和甲骨钻凿边界模糊不易分辨,给甲骨钻凿分割带来极大挑战.从甲骨数据库及著录书中系统收集并标注甲骨钻凿图像.基于该数据集,提出一种以Transformer为编码器的甲骨钻凿分割网络FEC-PVT(f... 由于长时间埋藏于地下和风化腐蚀,造成甲骨片破损和甲骨钻凿边界模糊不易分辨,给甲骨钻凿分割带来极大挑战.从甲骨数据库及著录书中系统收集并标注甲骨钻凿图像.基于该数据集,提出一种以Transformer为编码器的甲骨钻凿分割网络FEC-PVT(feature extraction and connection pyramid vision transformer).首先,FEC-PVT利用FE_C和FE_D模块分别补充低层和高层特征,以获取细节和全局特征;其次,FCOM模块用交叉注意力让不同层特征交互,获取有效细节;最后,FFDM模块逐层解码并整合多层次特征,提升解码精度,避免特征丢失.实验验证,所提FEC-PVT优于其他的方法,与次优的DuAT方法相比,IoU提高5.18%. 展开更多
关键词 图像分割 甲骨钻凿 金字塔视觉变换器 卷积神经网络
在线阅读 下载PDF
Fine-grained classification of grape leaves via a pyramid residual convolution neural network 被引量:2
7
作者 Hanghao Li Yana Wei +2 位作者 Hongming Zhang Huan Chen Jiangfei Meng 《International Journal of Agricultural and Biological Engineering》 SCIE CAS 2022年第2期197-203,共7页
The value of grape cultivars varies.The use of a mixture of cultivars can negate the benefits of improved cultivars and hamper the protection of genetic resources and the identification of new hybrid cultivars.Classif... The value of grape cultivars varies.The use of a mixture of cultivars can negate the benefits of improved cultivars and hamper the protection of genetic resources and the identification of new hybrid cultivars.Classifying cultivars based on their leaves is therefore highly practical.Transplanted grape seedlings take years to bear fruit,but leaves mature in months.Foliar morphology differs among cultivars,so identifying cultivars based on leaves is feasible.Different cultivars,however,can be bred from the same parents,so the leaves of some cultivars can have similar morphologies.In this work,a pyramid residual convolution neural network was developed to classify images of eleven grape cultivars.The model extracts multi-scale feature maps of the leaf images through the convolution layer and enters them into three residual convolution neural networks.Features are fused by adding the value of the convolution kernel feature matrix to enhance the attention on the edge and center regions of the leaves and classify the images.The results indicated that the average accuracy of the model was 92.26%for the proposed leaf dataset.The proposed model is superior to previous models and provides a reliable method for the fine-grained classification and identification of plant cultivars. 展开更多
关键词 fine-grained classification grape cultivars identification pyramid residual network convolution neural network
原文传递
Power Grid Fault Diagnosis Based on Deep Pyramid Convolutional Neural Network 被引量:2
8
作者 Xu Zhang Huiting Zhang +4 位作者 Dongying Zhang Yixian Wang Ruiting Ding Yuchuan Zheng Yongxu Zhang 《CSEE Journal of Power and Energy Systems》 SCIE EI CSCD 2023年第6期2188-2203,共16页
Existing power grid fault diagnosis methods relyon manual experience to design diagnosis models, lack theability to extract fault knowledge, and are difficult to adaptto complex and changeable engineering sites. Consi... Existing power grid fault diagnosis methods relyon manual experience to design diagnosis models, lack theability to extract fault knowledge, and are difficult to adaptto complex and changeable engineering sites. Considering thissituation, this paper proposes a power grid fault diagnosismethod based on a deep pyramid convolutional neural networkfor the alarm information set. This approach uses the deepfeature extraction ability of the network to extract fault featureknowledge from alarm information texts and achieve end-to-endfault classification and fault device identification. First, a deeppyramid convolutional neural network model for extracting theoverall characteristics of fault events is constructed to identifyfault types. Second, a deep pyramidal convolutional neuralnetwork model for alarm information text is constructed, thetext description characteristics associated with alarm informationtexts are extracted, the key information corresponding to faultsin the alarm information set is identified, and suspicious faultydevices are selected. Then, a fault device identification strategythat integrates fault-type and time sequence priorities is proposedto identify faulty devices. Finally, the actual fault cases and thefault cases generated by the simulation are studied, and theresults verify the effectiveness and practicability of the methodpresented in this paper. 展开更多
关键词 Alarm information deep pyramid convolutional neural network fault classification fault device identification feature extraction key information
原文传递
融合多光谱成像与卷积神经网络的储粮害虫智能识别方法
9
作者 苏靖 《粮食与饲料工业》 2026年第1期52-58,共7页
当前储粮害虫识别技术因传统可见光成像难以捕捉害虫与粮粒间的光谱差异,导致多尺度虫态特征割裂;同时,基于单一尺度特征的识别模型易受光照变化、粮粒遮挡等复杂仓储环境干扰,造成识别精度低、漏检与误检严重的问题。为此,研究提出一... 当前储粮害虫识别技术因传统可见光成像难以捕捉害虫与粮粒间的光谱差异,导致多尺度虫态特征割裂;同时,基于单一尺度特征的识别模型易受光照变化、粮粒遮挡等复杂仓储环境干扰,造成识别精度低、漏检与误检严重的问题。为此,研究提出一种融合多光谱成像与改进YOLOv4卷积神经网络的储粮害虫智能识别方法。通过构建涵盖图像输入、图像处理与图像输出组件的多光谱成像采集框架,利用多光谱相机获取659 nm和955 nm关键波段图像,并经过黑白板校正、多光谱配准及最小噪声分离变换进行预处理;将预处理数据输入改进YOLOv4模型,依托CSPDarknet53逐层提取害虫层级特征,采用双向特征金字塔网络替代原PANet结构实现跨尺度自适应融合,通过多任务损失函数协同优化定位与分类。在自建储粮害虫多光谱数据集上的实验结果表明,多光谱成像在659 nm和955 nm关键波段具有显著的光谱区分性;经最小噪声分离降维后,多光谱特征的平均J-M距离达到0.89,与识别模型高度适配。改进后的模型能够实现储粮害虫的精准识别,无漏检与误判现象。 展开更多
关键词 多光谱成像 卷积神经网络 储粮害虫识别 YOLOv4 多光谱相机 特征金字塔
在线阅读 下载PDF
基于模块化AI模组的火灾图像智能检测
10
作者 杨涛 汪友杰 王伟 《齐鲁工业大学学报》 2026年第1期57-64,共8页
火灾监测对减少生命财产损失至关重要,但传统方法在复杂环境中存在实时性与准确性不足的问题。本文提出一种基于改进YOLOv5s的轻量化火灾图像检测算法,结合边缘计算技术优化监测系统。通过引入卷积块注意力模块(CBAM)增强特征学习能力,... 火灾监测对减少生命财产损失至关重要,但传统方法在复杂环境中存在实时性与准确性不足的问题。本文提出一种基于改进YOLOv5s的轻量化火灾图像检测算法,结合边缘计算技术优化监测系统。通过引入卷积块注意力模块(CBAM)增强特征学习能力,采用多孔空间金字塔池化(ASPP)扩大模型感受野,并利用EIoU Loss损失函数加速收敛、提升回归精度。实验表明,改进后模型的火灾识别率提高至94%,精确率与召回率分别达到94.2%和92.4%。通过将系统搭载在模块化AI模组上,直接处理视频数据,避免了云端传输延迟,显著提升了检测实时性。该方法为复杂场景下的火灾监测提供了高效解决方案,对提升应急响应能力具有重要意义。 展开更多
关键词 边缘计算 火灾监测 神经网络 卷积块注意力模块 多孔空间金字塔池化
在线阅读 下载PDF
基于卷积神经网络的线结构光高精度三维测量方法 被引量:2
11
作者 叶涛 何威燃 +2 位作者 刘国鹏 欧阳煜 王斌 《仪器仪表学报》 北大核心 2025年第2期183-195,共13页
线结构光视觉三维测量技术因其高精度和非接触的三维重建优势而被广泛应用。然而,现有的线结构光三维测量方法在标定过程中往往面临较高的耦合性问题,且在复杂环境下,背景噪声和光照变化会严重干扰条纹的提取,导致结构光条纹中心定位精... 线结构光视觉三维测量技术因其高精度和非接触的三维重建优势而被广泛应用。然而,现有的线结构光三维测量方法在标定过程中往往面临较高的耦合性问题,且在复杂环境下,背景噪声和光照变化会严重干扰条纹的提取,导致结构光条纹中心定位精度下降,进而影响整体三维测量的精度和鲁棒性。针对上述问题,提出了一种基于卷积神经网络的鲁棒三维测量方法。首先,设计了一种创新性的残差U型块特征金字塔网络(RSU-FPN),旨在实现背景噪声的干扰抑制和结构光条纹区域中心的高精度鲁棒提取。其次,构建了一种新型的线结构光视觉传感器,并提出了一种分离式测量模型,成功将摄像机标定与光平面标定解耦,极大地提高了系统的灵活性与扩展性。通过这种解耦的标定方式,避免了传统标定方法中存在的耦合问题,使得整个测量系统更加高效且易于调整。实验结果表明,所提出的基于卷积神经网络的鲁棒三维测量方法,在复杂背景下能够实现结构光条纹中心的高精度提取,利用提取出的光条纹中心进行标定,其均方根误差分别为x方向0.005 mm、y方向0.009 mm以及z方向0.097 mm。并且,该方法在不同表面类型(如漫反射表面和光滑反射表面)上均能实现高精度的三维重建,验证了其在实际应用中的优越性和强大的鲁棒性。 展开更多
关键词 线结构光 三维测量 卷积神经网络 残差U型块特征金字塔网络 背景噪声抑制
原文传递
双流解码器辅助配准算法
12
作者 周丰丰 赵天齐 杜伟 《吉林大学学报(信息科学版)》 2025年第6期1310-1322,共13页
为解决当前医学图像配准算法普遍存在的精度不足的问题,设计了基于金字塔结构的双流解码器辅助配准算法。该算法将卷积神经网络的局部依赖特性与注意力机制的全局依赖建模能力相结合,通过独特的双流解码器设计,实现对核磁共振脑图像的... 为解决当前医学图像配准算法普遍存在的精度不足的问题,设计了基于金字塔结构的双流解码器辅助配准算法。该算法将卷积神经网络的局部依赖特性与注意力机制的全局依赖建模能力相结合,通过独特的双流解码器设计,实现对核磁共振脑图像的逐级精细配准。与传统将待配准图像简单拼接后处理的方法相比,其巧妙结合了交叉注意力计算和通道维度拼接两种特征融合方式的优势,能识别多种变形模式并筛选出合适的变形场,同时在保证性能的前提下最大限度地减少计算量。为验证算法的有效性,在2个3D脑部MRI(Magnetic Resonance Imaging)数据集LPBA(LONI Probabilistic Brain Atlas)和Mindboggle上进行了综合实验。实验结果表明,与常用配准算法相比,该方法在多个评估指标上实现了最先进的性能,充分展示了模型在可变形医学图像配准中的强大能力与应用潜力。 展开更多
关键词 可变形图像配准 卷积神经网络 注意力机制 金字塔结构
在线阅读 下载PDF
基于改进卷积神经网络的红外图像弱小目标检测方法研究
13
作者 唐亮 王海云 陈晓范 《计算技术与自动化》 2025年第3期100-105,共6页
针对现有红外小目标检测精度低、虚警率高的现实问题,提出了一种基于改进U-Net的红外小目标检测方法。利用级联通道和空间注意模块捕获红外目标特征,实现渐进式特征交互和自适应特征增强,并将其应用特征金字塔融合模块提取不同尺度的特... 针对现有红外小目标检测精度低、虚警率高的现实问题,提出了一种基于改进U-Net的红外小目标检测方法。利用级联通道和空间注意模块捕获红外目标特征,实现渐进式特征交互和自适应特征增强,并将其应用特征金字塔融合模块提取不同尺度的特征信息。通过重复特征融合和增强,从而有效融合和充分利用小目标的上下文信息,提高模型处理和提取深层特征的能力。实验结果表明,与Transformer检测方法相比,所提方法IOU、POD分别提升1.16%、1.40%,FAR降低19.16%。实验结果验证了所提方法的有效性和实用性,该方法具有广阔的应用前景。 展开更多
关键词 红外图像 小目标检测 卷积神经网络 特征提取 注意力 特征金字塔
在线阅读 下载PDF
集装箱编码轻量化实时检测识别算法
14
作者 郭云飞 林志赟 +1 位作者 王博 韩志敏 《计算机仿真》 2025年第8期351-357,共7页
集装箱编码的检测和识别是自动化码头的重要组成部分。目前基于深度学习的文字检测识别算法的鲁棒性和准确率都达到了较高水平,但其难以同时满足高实时性和高准确率的要求。在码头机器人巡检或闸道口集装箱识别等对实时性、准确性都有... 集装箱编码的检测和识别是自动化码头的重要组成部分。目前基于深度学习的文字检测识别算法的鲁棒性和准确率都达到了较高水平,但其难以同时满足高实时性和高准确率的要求。在码头机器人巡检或闸道口集装箱识别等对实时性、准确性都有比较高需求的任务中,常见的文字检测识别算法表现不佳。为此,提出一种实时集装箱编码识别模型Real-time Container Code Recognition Net(RCCRNET)。RCCRNET在达到较高实时性的同时也保持了较高的准确率。RCCRNET由主干网络模块、文字检测模块和文字解码模块构成。其中主干网络为全卷积残差神经网络;文字检测器模块由特征金字塔和检测头构成;文字解码模块由循环神经网络构成。RCCRNET可以快速可靠的检测和识别规则排布的文本,在集装箱数据集上对RCCRNET进行了实验验证,结果表明RCCRNET在保持91.0%的较高的精度下以55帧每秒的高帧率比其它常见模型在实时性上有明显优势。 展开更多
关键词 目标检测 特征金字塔 卷积神经网络 注意力 光学字符识别
在线阅读 下载PDF
基于改进SN-RetinaNet的车辆目标检测方法
15
作者 陈鑫影 吕硕 胡明捷 《大连交通大学学报》 2025年第4期147-154,共8页
针对复杂交通场景下密集车辆检测存在的目标遮挡、尺度变化大等难题,提出一种基于改进RetinaNet的车辆检测算法SN-RetinaNet。该方法首先在特征提取网络中引入可切换空洞卷积模块,通过动态调整感受野增强多尺度特征提取能力;其次结合神... 针对复杂交通场景下密集车辆检测存在的目标遮挡、尺度变化大等难题,提出一种基于改进RetinaNet的车辆检测算法SN-RetinaNet。该方法首先在特征提取网络中引入可切换空洞卷积模块,通过动态调整感受野增强多尺度特征提取能力;其次结合神经架构搜索技术优化特征金字塔网络结构,提升算法对不同尺度目标的适应性;最后提出一种基于统计先验的锚框比例优化策略。在SODA10M数据集上的试验结果表明,此方法平均检测精度(mAP)达到48.7%,较基准方法提升3.7个百分点。研究结果为智能交通系统中的车辆检测任务提供了有效的解决方案。 展开更多
关键词 目标检测 可切换空洞卷积 特征金字塔网络 神经架构搜索
在线阅读 下载PDF
基于改进多尺度特征金字塔网络的轻量化图像超分辨率重建模型
16
作者 许光宇 吴敏 《湖北民族大学学报(自然科学版)》 2025年第3期334-340,共7页
针对神经网络在图像超分辨率(super-resolution,SR)任务中因结构复杂导致的参数量过大、训练困难等问题,提出基于改进多尺度特征金字塔网络(multi-scale feature pyramid network,MFPNet)的轻量化图像SR重建模型。首先,设计改进MFPNet架... 针对神经网络在图像超分辨率(super-resolution,SR)任务中因结构复杂导致的参数量过大、训练困难等问题,提出基于改进多尺度特征金字塔网络(multi-scale feature pyramid network,MFPNet)的轻量化图像SR重建模型。首先,设计改进MFPNet架构,通过迭代下采样操作构建不同尺度的特征表达空间,有效增强网络对图像多粒度细节特征的捕获能力。其次,采用位置感知循环卷积(position aware circular convolution,ParC)作为网络的主要信息提取模块,在降低参数量的同时扩大网络的感受野大小。最后,设计动态注意力块(dynamic attention block,DAB),通过注意力引导层(attention guidance layer,AGL)动态调整高效通道注意力(efficient channel attention,ECA)和空间注意力(spatial attention,SA)模块的占比,提升网络对纹理细节的恢复能力。实验结果表明,改进MFPNet模型与其他前沿模型相比,结构相似性指数度量(structure similarity index measure,SSIM)最高为0.9613,峰值信噪比(peak signal-to-noise ratio,PSNR)最高为38.11 dB。该研究证实改进MFPNet模型能够应用于重建图像任务,细节纹理更自然。 展开更多
关键词 卷积神经网络 超分辨率重建 注意力机制 轻量化 多尺度特征金字塔
在线阅读 下载PDF
基于多维度感知特征金字塔的人群计数算法
17
作者 陈慧 《南通职业大学学报》 2025年第1期72-79,共8页
针对人群计数中存在的尺度多变和人头误判问题,提出一种基于多维度感知特征金字塔的人群计数算法。该算法以特征金字塔编解码网络为基础,由特征聚合模块组成高效双解码结构,通过多次融合相邻层次语义信息,保留不同尺度下的细节特征,更... 针对人群计数中存在的尺度多变和人头误判问题,提出一种基于多维度感知特征金字塔的人群计数算法。该算法以特征金字塔编解码网络为基础,由特征聚合模块组成高效双解码结构,通过多次融合相邻层次语义信息,保留不同尺度下的细节特征,更好地适应了人头的尺度变化。此外,在网络视野最高处引入多维度感知模块,从空间和通道等多个维度汇聚人头关键特征,更新不同位置下的特征权重,将人头信息从背景中有效加以区分,进一步缩小了单个目标的预测范围。采用多层次监督进行网络整体训练,定性与定量分析结果表明,所提算法在四个公共数据集上表现达到预期。 展开更多
关键词 人群计数 多维度感知特征金字塔 卷积神经网络 注意力机制 特征融合
在线阅读 下载PDF
基于改进Faster-RCNN的起重机钢丝绳表面缺陷识别方法 被引量:6
18
作者 苏立鹏 娄益凡 +3 位作者 杨吴奔 高建貌 王雪迎 易灿灿 《机电工程》 北大核心 2025年第7期1341-1349,共9页
针对现有的起重机钢丝绳表面缺陷检测中存在的检测效率低、准确度差、鲁棒性有限等问题,提出了一种基于改进快速区域卷积神经网络(Faster-RCNN)的起重机钢丝绳表面缺陷识别检测方法,该方法结合多个关键技术,显著提升了钢丝绳表面缺陷识... 针对现有的起重机钢丝绳表面缺陷检测中存在的检测效率低、准确度差、鲁棒性有限等问题,提出了一种基于改进快速区域卷积神经网络(Faster-RCNN)的起重机钢丝绳表面缺陷识别检测方法,该方法结合多个关键技术,显著提升了钢丝绳表面缺陷识别的性能。首先,采用了多尺度策略提高输入图像的分辨率,从而更好地检测不同大小的缺陷;其次,在网络中引入了可变形卷积,以增强其捕捉传统卷积技术难以检测的钢丝绳缺陷复杂形状特征的能力;采用了路径增强技术融合低维和高维特征,有效解决了在下采样和特征融合过程中信息丢失的问题,极大提升了模型在各层之间保持关键信息的能力;最后,采用了广义交并比(GIOU)损失函数替代传统的交并比(IOU)损失函数,显著提高了边界框预测的准确性,验证了改进后的Faster-RCNN算法在起重机钢丝绳损伤检测的性能提升方面较为显著。研究结果表明:改进版Faster-RCNN模型相比原算法在精度上有了显著提高,准确率从81.8%提升至90.2%,召回率从83.8%提高至94.2%,最终平均精度达到0.934,提升了9.6%。与传统检测算法如SSD和原版YOLOv5相比,该方法的准确率分别提高了17.6%和11.0%,证明了其在钢丝绳损伤图像识别中的有效性。 展开更多
关键词 起重机械 损伤检测 改进的快速区域卷积神经网络 多尺度和自定义锚框策略 广义交并比损失函数 可变形卷积 路径增强特征金字塔 区域提议网络 消融实验
在线阅读 下载PDF
基于卷积金字塔网络的PPO算法求解作业车间调度问题 被引量:1
19
作者 徐帅 李艳武 +1 位作者 谢辉 牛晓伟 《现代制造工程》 北大核心 2025年第3期19-30,共12页
作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网... 作业车间调度问题是一个经典的NP-hard组合优化问题,其调度方案的优劣直接影响制造系统的运行效率。为得到更优的调度策略,以最小化最大完工时间为优化目标,提出了一种基于近端策略优化(Proximal Policy Optimization,PPO)和卷积神经网络(Convolutional Neural Network,CNN)的深度强化学习(Deep Reinforcement Learning,DRL)调度方法。设计了一种三通道状态表示方法,选取16种启发式调度规则作为动作空间,将奖励函数等价为最小化机器总空闲时间。为使训练得到的调度策略能够处理不同规模的调度算例,在卷积神经网络中使用空间金字塔池化(Spatial Pyramid Pooling,SPP),将不同维度的特征矩阵转化为固定长度的特征向量。在公开OR-Library的42个作业车间调度(Job-Shop Scheduling Problem,JSSP)算例上进行了计算实验。仿真实验结果表明,该算法优于单一启发式调度规则和遗传算法,在大部分算例中取得了比现有深度强化学习算法更好的结果,且平均完工时间最小。 展开更多
关键词 深度强化学习 作业车间调度 卷积神经网络 近端策略优化 空间金字塔池化
在线阅读 下载PDF
多模态数据特征融合的广角图像生成 被引量:1
20
作者 姜智颖 张曾翕 +1 位作者 刘晋源 刘日升 《中国图象图形学报》 北大核心 2025年第1期173-187,共15页
目的图像拼接通过整合不同视角的可见光数据获得广角合成图。不利的天气因素会使采集到的可见光数据退化,导致拼接效果不佳。红外传感器通过热辐射成像,在不利的条件下也能突出目标,克服环境和人为因素的影响。方法考虑到红外传感器和... 目的图像拼接通过整合不同视角的可见光数据获得广角合成图。不利的天气因素会使采集到的可见光数据退化,导致拼接效果不佳。红外传感器通过热辐射成像,在不利的条件下也能突出目标,克服环境和人为因素的影响。方法考虑到红外传感器和可见光传感器的成像互补性,本文提出了一个基于多模态数据(红外和可见光数据)特征融合的图像拼接算法。首先利用红外数据准确的结构特征和可见光数据丰富的纹理细节由粗到细地进行偏移估计,并通过非参数化的直接线性变换得到变形矩阵。然后将拼接后的红外和可见光数据进行融合,丰富了场景感知信息。结果本文选择包含530对可拼接多模态图像的真实数据集以及包含200对合成数据集作为测试数据,选取了3个最新的融合方法,包括RFN(residual fusion network)、ReCoNet(recurrent correction network)和DATFuse(dual attention transformer),以及7个拼接方法,包括APAP(as projective as possible)、SPW(single-perspective warps)、WPIS(wide parallax image stitching)、SLAS(seam-guided local alignment and stitching)、VFIS(view-free image stitching)、RSFI(reconstructing stitched features to images)和UDIS++(unsupervised deep image stitching)组成的21种融合—拼接策略进行了定性和定量的性能对比。在拼接性能上,本文方法实现了准确的跨视角场景对齐,平均角点误差降低了53%,避免了鬼影的出现;在多模态互补信息整合方面,本文方法能自适应兼顾红外图像的结构信息以及可见光图像的丰富纹理细节,信息熵较DATFuse-UDIS++策略提升了24.6%。结论本文方法在结合了红外和可见光图像成像互补优势的基础上,通过多尺度递归估计实现了更加准确的大视角场景生成;与常规可见光图像拼接相比鲁棒性更强。 展开更多
关键词 多模态图像融合 图像拼接 卷积神经网络(CNN) 红外—可见光图像 多尺度金字塔
原文传递
上一页 1 2 14 下一页 到第
使用帮助 返回顶部