期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
Impedance flow cytometry empowered by ConvNet algorithm to differentiate bladder cancer cells based on electro-mechanical characteristics
1
作者 Shuaihua Zhang Zhiwen Zheng +2 位作者 Yongqi Chen Zhihong Zhang Ziyu Han 《Nanotechnology and Precision Engineering》 2025年第3期88-97,共10页
Bladder cancer(BC)is a common malignancy and among the leading causes of cancer death worldwide.Analysis of BC cells is of great significance for clinical diagnosis and disease treatment.Current approaches rely mainly... Bladder cancer(BC)is a common malignancy and among the leading causes of cancer death worldwide.Analysis of BC cells is of great significance for clinical diagnosis and disease treatment.Current approaches rely mainly on imaging-based technology,which requires complex staining and sophisticated instrumentation.In this work,we develop a label-free method based on artificial intelligence(AI)-assisted impedance-based flow cytometry(IFC)to differentiate between various BC cells and epithelial cells at single-cell resolution.By applying multiple-frequency excitations,the electrical characteristics of cells,including membrane and nuclear opacities,are extracted,allowing distinction to be made between epithelial cells,low-grade,and high-grade BC cells.Through the use of a constriction channel,the electro-mechanical properties associated with active deformation behavior of cells are investigated,and it is demonstrated that BC cells have a greater capability of shape recovery,an observation that further increases differentiation accuracy.With the assistance of a convolutional neural network-based AI algorithm,IFC is able to effectively differentiate various BC and epithelial cells with accuracies of over 95%.In addition,different grades of BC cells are successfully differentiated in both spiked mixed samples and bladder tumor tissues. 展开更多
关键词 Impedance flow cytometry convnet model Differentiation between cells Bladder cancer analysis
暂未订购
VNLSTM-PoseNet: A novel deep ConvNet for real-time 6-DOF camera relocalization in urban streets 被引量:6
2
作者 Ming Li Jiangying Qin +3 位作者 Deren Li Ruizhi Chen Xuan Liao Bingxuan Guo 《Geo-Spatial Information Science》 SCIE EI CSCD 2021年第3期422-437,共16页
Image-based relocalization is a renewed interest in outdoor environments,because it is an important problem with many applications.PoseNet introduces Convolutional Neural Network(CNN)for the first time to realize the ... Image-based relocalization is a renewed interest in outdoor environments,because it is an important problem with many applications.PoseNet introduces Convolutional Neural Network(CNN)for the first time to realize the real-time camera pose solution based on a single image.In order to solve the problem of precision and robustness of PoseNet and its improved algorithms in complex environment,this paper proposes and implements a new visual relocation method based on deep convolutional neural networks(VNLSTM-PoseNet).Firstly,this method directly resizes the input image without cropping to increase the receptive field of the training image.Then,the image and the corresponding pose labels are put into the improved Long Short-Term Memory based(LSTM-based)PoseNet network for training and the network is optimized by the Nadam optimizer.Finally,the trained network is used for image localization to obtain the camera pose.Experimental results on outdoor public datasets show our VNLSTM-PoseNet can lead to drastic improvements in relocalization performance compared to existing state-of-theart CNN-based methods. 展开更多
关键词 Camera relocalization pose regression deep convnet RGB image camera pose
原文传递
Segment differential aggregation representation and supervised compensation learning of ConvNets for human action recognition
3
作者 REN ZiLiang ZHANG QieShi +3 位作者 CHENG Qin XU ZhenYu YUAN Shuai LUO DeLin 《Science China(Technological Sciences)》 SCIE EI CAS CSCD 2024年第1期197-208,共12页
With more multi-modal data available for visual classification tasks,human action recognition has become an increasingly attractive topic.However,one of the main challenges is to effectively extract complementary feat... With more multi-modal data available for visual classification tasks,human action recognition has become an increasingly attractive topic.However,one of the main challenges is to effectively extract complementary features from different modalities for action recognition.In this work,a novel multimodal supervised learning framework based on convolution neural networks(Conv Nets)is proposed to facilitate extracting the compensation features from different modalities for human action recognition.Built on information aggregation mechanism and deep Conv Nets,our recognition framework represents spatial-temporal information from the base modalities by a designed frame difference aggregation spatial-temporal module(FDA-STM),that the networks bridges information from skeleton data through a multimodal supervised compensation block(SCB)to supervise the extraction of compensation features.We evaluate the proposed recognition framework on three human action datasets,including NTU RGB+D 60,NTU RGB+D 120,and PKU-MMD.The results demonstrate that our model with FDA-STM and SCB achieves the state-of-the-art recognition performance on three benchmark datasets. 展开更多
关键词 action recognition segment frame difference aggregation supervised compensation learning convnets
原文传递
Fusing Geometric and Temporal Deep Features for High-Precision Arabic Sign Language Recognition
4
作者 Yazeed Alkharijah Shehzad Khalid +2 位作者 Syed Muhammad Usman Amina Jameel Danish Hamid 《Computer Modeling in Engineering & Sciences》 2025年第7期1113-1141,共29页
Arabic Sign Language(ArSL)recognition plays a vital role in enhancing the communication for the Deaf and Hard of Hearing(DHH)community.Researchers have proposed multiple methods for automated recognition of ArSL;howev... Arabic Sign Language(ArSL)recognition plays a vital role in enhancing the communication for the Deaf and Hard of Hearing(DHH)community.Researchers have proposed multiple methods for automated recognition of ArSL;however,these methods face multiple challenges that include high gesture variability,occlusions,limited signer diversity,and the scarcity of large annotated datasets.Existing methods,often relying solely on either skeletal data or video-based features,struggle with generalization and robustness,especially in dynamic and real-world conditions.This paper proposes a novel multimodal ensemble classification framework that integrates geometric features derived from 3D skeletal joint distances and angles with temporal features extracted from RGB videos using the Inflated 3D ConvNet(I3D).By fusing these complementary modalities at the feature level and applying a majority-voting ensemble of XGBoost,Random Forest,and Support Vector Machine classifiers,the framework robustly captures both spatial configurations and motion dynamics of sign gestures.Feature selection using the Pearson Correlation Coefficient further enhances efficiency by reducing redundancy.Extensive experiments on the ArabSign dataset,which includes RGB videos and corresponding skeletal data,demonstrate that the proposed approach significantly outperforms state-of-the-art methods,achieving an average F1-score of 97%using a majority-voting ensemble of XGBoost,Random Forest,and SVM classifiers,and improving recognition accuracy by more than 7%over previous best methods.This work not only advances the technical stateof-the-art in ArSL recognition but also provides a scalable,real-time solution for practical deployment in educational,social,and assistive communication technologies.Even though this study is about Arabic Sign Language,the framework proposed here can be extended to different sign languages,creating possibilities for potentially worldwide applicability in sign language recognition tasks. 展开更多
关键词 Arabic sign language recognition multimodal feature fusion ensemble classification skeletal data inflated 3D convnet(I3D)
在线阅读 下载PDF
基于改进的YOLOv8n海洋动物目标检测算法:DPSC-YOLO 被引量:1
5
作者 梁佳杰 徐慧英 +3 位作者 朱信忠 王舒梦 刘子洋 李琛 《计算机工程与科学》 北大核心 2025年第4期695-705,共11页
在海洋复杂的环境中,由于图像拍摄模糊、背景复杂,导致基于深度学习的目标检测算法存在特征提取困难和目标漏检等问题,因此海洋目标检测算法需要更加高效且性能优越。为此提出了一种基于YOLOv8n改进的海洋动物目标检测算法:DPSC-YOLO。... 在海洋复杂的环境中,由于图像拍摄模糊、背景复杂,导致基于深度学习的目标检测算法存在特征提取困难和目标漏检等问题,因此海洋目标检测算法需要更加高效且性能优越。为此提出了一种基于YOLOv8n改进的海洋动物目标检测算法:DPSC-YOLO。在主干网络中引入DCNv2模块,通过增强空间建模能力来适应对象的几何变化;在主干网络末端引入空间金字塔池化SPPFCSPC,在保持模型感知场不变的同时减少模型的计算量;在颈部网络增加F 2极小目标检测头,结合其余3个尺度,使用4个不同的感受野检测层提高小目标检测精度;在颈部网络的C2f模块中结合CoTAttention注意力机制更好地利用相邻键之间的上下文信息,并根据数据的特点动态调整注意力分配。实验结果表明,DPSC-YOLO目标检测算法与YOLOv8n相比mAP@0.5提升了1.1%,mAP@0.5:0.95提升了4.6%,同时仅有较少的参数量和计算量的增加,证明DPSC-YOLO更适合复杂海洋环境中的目标检测任务。 展开更多
关键词 YOLOv8 DCNv2 SPPFCSPC 上下文注意力机制 小目标检测头
在线阅读 下载PDF
基于全局频域池化的行为识别算法 被引量:2
6
作者 贾志超 张海超 +3 位作者 张闯 颜蒙蒙 储金祺 颜之岳 《计算机应用研究》 CSCD 北大核心 2024年第9期2867-2873,共7页
目前基于3D-ConvNet的行为识别算法普遍使用全局平均池化(global average pooling,GAP)压缩特征信息,但会产生信息损失、信息冗余和网络过拟合等问题。为了解决上述问题,更好地保留卷积层提取到的高级语义信息,提出了基于全局频域池化(g... 目前基于3D-ConvNet的行为识别算法普遍使用全局平均池化(global average pooling,GAP)压缩特征信息,但会产生信息损失、信息冗余和网络过拟合等问题。为了解决上述问题,更好地保留卷积层提取到的高级语义信息,提出了基于全局频域池化(global frequency domain pooling,GFDP)的行为识别算法。首先,根据离散余弦变换(discrete cosine transform,DCT)看出,GAP是频域中特征分解的一种特例,从而引入更多频率分量增加特征通道间的特异性,减少信息压缩后的信息冗余;其次,为了更好地抑制过拟合问题,引入卷积层的批标准化策略,并将其拓展在以ERB(efficient residual block)-Res3D为骨架的行为识别模型的全连接层以优化数据分布;最后,将该方法在UCF101数据集上进行验证。结果表明,模型计算量为3.5 GFlops,参数量为7.4 M,最终的识别准确率在ERB-Res3D模型的基础上提升了3.9%,在原始Res3D模型基础上提升了17.4%,高效实现了更加准确的行为识别结果。 展开更多
关键词 3D-convnet 人体行为识别 全局平均池化 离散余弦变换
在线阅读 下载PDF
基于优化Faster R-CNN算法的金属板材表面缺陷检测 被引量:8
7
作者 孔思曼 周晨阳 +2 位作者 王家华 李林 孙践知 《制造技术与机床》 北大核心 2024年第1期171-178,共8页
传统的图像处理方法对生产过程中各种金属板材表面缺陷检测效率低,难以满足工业生产的需求。为了提高金属板材表面缺陷检测的精度,文章提出了一种基于优化Faster R-CNN算法的金属板材表面缺陷检测方法,以残差网络ResNet50作为主干特征... 传统的图像处理方法对生产过程中各种金属板材表面缺陷检测效率低,难以满足工业生产的需求。为了提高金属板材表面缺陷检测的精度,文章提出了一种基于优化Faster R-CNN算法的金属板材表面缺陷检测方法,以残差网络ResNet50作为主干特征提取网络。首先,融合特征金字塔网络和可变形卷积网络以提高对小目标和不规则性缺陷的检测能力。然后,采用RoI Align和K-means++聚类算法对候选框进行优化,实现缺陷的精准定位。最后,将提出的模型运用在NEU-DET数据集中进行多次实验。实验结果表明,优化后的Faster R-CNN算法在此数据集上的mAP为78.7%,与原始网络相比提高了7.7%,并且其检测性能优于SSD、YOLOv5s和YOLOv7三类目标检测算法。 展开更多
关键词 缺陷检测 Faster R-CNN 特征金字塔网络 可变形卷积网络 聚类算法
在线阅读 下载PDF
基于Swin Transformer和Style-based Generator的盲人脸修复 被引量:1
8
作者 向泽林 楼旭东 李旭伟 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第3期59-67,共9页
盲人脸修复任务是从低质量的图像(例如模糊、噪声和压缩图像)中恢复高质量的图像.由于事先不知道低质量图像的退化类型和退化参数,因此盲人脸修复是一个高度病态的问题,在修复过程中严重依赖各种先验指导.然而,由于面部成分和面部标志... 盲人脸修复任务是从低质量的图像(例如模糊、噪声和压缩图像)中恢复高质量的图像.由于事先不知道低质量图像的退化类型和退化参数,因此盲人脸修复是一个高度病态的问题,在修复过程中严重依赖各种先验指导.然而,由于面部成分和面部标志等面部先验通常是从低质量图像中提取或估计的,可能存在不准确的情况,这直接影响最终的修复性能,因此难以有效利用这些先验知识.此外,目前的主流方法基本都是依赖ConvNets进行特征提取,没有很好地考虑长距离特征,导致最终结果缺乏连续一致性.本文提出了一种改进的StyleGAN模型,命名为SwinStyleGAN,应用在高级视觉任务上表现出色的Swin Transformer来提取长距离特征,并通过改进后的类StyleGAN合成网络逐步生成图像.本文设计了一个空间注意力转换模块SAT来重新分配每个阶段特征的像素权重,以进一步约束生成器.大量实验表明,本文提出的方法具有更好的盲人脸修复性能. 展开更多
关键词 盲人脸修复 convnets Swin Transformer StyleGAN 空间注意力转换模块
在线阅读 下载PDF
来自大别山深成侵入岩图像深度迁移学习的可解释性研究 被引量:3
9
作者 陈忠良 袁峰 +1 位作者 李晓晖 郑超杰 《地质论评》 CAS CSCD 北大核心 2023年第6期2263-2273,共11页
岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这... 岩石图像识别是以深度学习为代表的感知智能在地质领域的典型应用场景。已有研究显示网络结构简单的深度卷积神经网络能够在岩石图像上取得比复杂网络结构高的分类准确率。这与ImageNet数据集上网络结构越深越好的趋势相悖。如何解释这一现象?深成侵入岩为显晶质,自形—半自形粒状结构,块状构造,其分类的依据是其矿物成分及相对含量。大别山地区岩浆活动广泛,中生代深成侵入岩广泛出露。岩石类型包括超镁铁质岩类、辉长岩类、闪长岩类、正长岩类、二长岩类和花岗岩类,基本覆盖IUGS推荐的深成侵入岩分类方案中的岩石类型。选取大别山地区中生代深成岩图像开展不同网络结构预训练模型迁移学习对比试验,能够专注于深度学习对矿物成分特征的学习解释,降低构造因素的影响。借助局部可理解的模型解释技术和特征图可视化技术,分别从全连接层分类决策区域可视化和卷积隐层可视化两方面对深度学习模型开展可解释性研究。结果表明简单网络结构的卷积神经网络能够提取不同矿物所表现出的颜色特征以及不同矿物组合所表现出的纹理特征。AlexNet模型的削减试验进一步证明:对于岩石图像深度学习,网络结构并不总是越深越好。 展开更多
关键词 深度学习 岩性识别 可解释性 特征图可视化 局部可理解的模型解释
在线阅读 下载PDF
Dynamic Hand Gesture Recognition Based on Short-Term Sampling Neural Networks 被引量:14
10
作者 Wenjin Zhang Jiacun Wang Fangping Lan 《IEEE/CAA Journal of Automatica Sinica》 SCIE EI CSCD 2021年第1期110-120,共11页
Hand gestures are a natural way for human-robot interaction.Vision based dynamic hand gesture recognition has become a hot research topic due to its various applications.This paper presents a novel deep learning netwo... Hand gestures are a natural way for human-robot interaction.Vision based dynamic hand gesture recognition has become a hot research topic due to its various applications.This paper presents a novel deep learning network for hand gesture recognition.The network integrates several well-proved modules together to learn both short-term and long-term features from video inputs and meanwhile avoid intensive computation.To learn short-term features,each video input is segmented into a fixed number of frame groups.A frame is randomly selected from each group and represented as an RGB image as well as an optical flow snapshot.These two entities are fused and fed into a convolutional neural network(Conv Net)for feature extraction.The Conv Nets for all groups share parameters.To learn longterm features,outputs from all Conv Nets are fed into a long short-term memory(LSTM)network,by which a final classification result is predicted.The new model has been tested with two popular hand gesture datasets,namely the Jester dataset and Nvidia dataset.Comparing with other models,our model produced very competitive results.The robustness of the new model has also been proved with an augmented dataset with enhanced diversity of hand gestures. 展开更多
关键词 Convolutional neural network(convnet) hand gesture recognition long short-term memory(LSTM)network short-term sampling transfer learning
在线阅读 下载PDF
基于深度学习的交通标志识别智能车的设计与实现 被引量:1
11
作者 熊旋锦 潘小琴 +1 位作者 唐楷 康勇 《自动化与仪表》 2018年第6期104-108,共5页
汽车智能技术已成为汽车技术进步的主要方向,针对传统智能车自动驾驶中交通标志检测不准确、不及时等问题,提出了基于深度学习的检测交通标志的算法,并将该算法与小型智能车相结合进行模拟测试。智能车图像处理以树莓派作为主控,核心算... 汽车智能技术已成为汽车技术进步的主要方向,针对传统智能车自动驾驶中交通标志检测不准确、不及时等问题,提出了基于深度学习的检测交通标志的算法,并将该算法与小型智能车相结合进行模拟测试。智能车图像处理以树莓派作为主控,核心算法采用卷积网络(Conv Nets)解决交通标志的分类任务,智能车模拟控制部分用STM32作为控制端,根据图像处理结果,精细控制小车前进、停止、左右转弯等动作。由算法的仿真结果可知,该算法的CCR已提高至98.82%;根据模拟测试,该智能车在十字路口可根据交通标志规划路线,实现主动避障和自动前行。 展开更多
关键词 深度学习 交通标志识别 小型智能车 STM32 树莓派 convnets
在线阅读 下载PDF
基于深度学习的行为识别算法综述 被引量:28
12
作者 赫磊 邵展鹏 +1 位作者 张剑华 周小龙 《计算机科学》 CSCD 北大核心 2020年第S01期139-147,共9页
行为识别是计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。在已有的研究中,传统特征提取方法一般是通过人工观察和设计,手动设计出能够表征视频动作的特征。然而,在手工特征表达的基础上构建复杂... 行为识别是计算机视觉领域的基本问题之一,基于深度学习的行为识别算法是当前行为识别的主流算法。在已有的研究中,传统特征提取方法一般是通过人工观察和设计,手动设计出能够表征视频动作的特征。然而,在手工特征表达的基础上构建复杂分类模型的方法已经不能适应高识别精度和应用性的要求,而深度学习的引入为行为识别带来了新的发展方向。文中主要综述了基于深度学习的行为识别算法,首先介绍了行为识别的研究背景和意义,并分别对行为识别的传统学习方法和深度学习方法进行了介绍;然后对深度学习下的算法模型结构进行分类介绍,包括Two-Stream、3D-ConvNet、融合CNN-LSTM 3种算法模型结构;最后介绍了目前常用的公开验证数据集,并主要针对基于两种数据模态的识别算法进行了横向比较,一种是基于RGB视频的UCF101和HMDB51数据集,一种是基于人体骨架序列视频的NTU RGB+D数据集。实验结果表明:深度学习方法已经取得了很大的进步,卷积神经网络的应用极大地促进了行为识别算法的发展,逐步替代了基于手工提取特征的传统方法,尤其采用了卷积神经网络算法之后在行为数据集上的准确率有了显著提高。对于RGB视频而言,Two-Stream和3DConvNet是算法模型结构的主流,对于骨架序列视频而言,Two-Stream和融合时空图模型是算法模型结构的主流。 展开更多
关键词 行为识别 深度学习 卷积神经网络 循环神经网络 3D卷积
在线阅读 下载PDF
注意力引导的三维卷积网络用于遥感场景变化检测 被引量:7
13
作者 张涵 秦昆 +2 位作者 毕奇 张晔 许凯 《应用科学学报》 CAS CSCD 北大核心 2021年第2期272-280,共9页
场景级变化检测策略可以容忍高分遥感影像的大量噪声,进而从语义层级更准确地描述遥感图像在前后时相的变化,为高分辨率影像变化检测提供了可能。本文提出了一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法。首先... 场景级变化检测策略可以容忍高分遥感影像的大量噪声,进而从语义层级更准确地描述遥感图像在前后时相的变化,为高分辨率影像变化检测提供了可能。本文提出了一种注意力引导的三维卷积神经网络用于高分遥感影像场景变化检测的方法。首先构建一个在AlexNet基础上进行简化的三维卷积网络,然后加入一个语义注意力模块来进一步提取地表覆盖变化显著的候选判别区域;最后输入分类层得到分类结果,整个框架以端对端、可训练的方式进行组织,直接由双时相场景切片通过卷积网络得到变化检测结果。为评估场景级变化检测方法性能,本文制作了一个语义级高分遥感影像场景变化检测数据集,在该数据集上的实验结果显示本文方法变化检测的准确率高于相关方法,验证了方法的有效性,初步展示了基于深度学习的场景级遥感变化检测的发展前景。 展开更多
关键词 场景级变化检测 语义注意力模块 三维卷积神经网络 高分遥感解译 场景变化检测数据集
在线阅读 下载PDF
基于双流非局部残差网络的行为识别方法 被引量:7
14
作者 周云 陈淑荣 《计算机应用》 CSCD 北大核心 2020年第8期2236-2240,共5页
针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入... 针对传统卷积神经网络(CNN)对人体行为动作仅能提取局部特征易导致相似行为动作识别准确率不高的问题,提出了一种基于双流非局部残差网络(NL-ResNet)的行为识别方法。首先提取视频的RGB帧和密集光流图,分别作为空间流和时间流网络的输入,并通过角落裁剪和多尺度相结合的预处理方法进行数据增强;其次分别利用残差网络的残差块提取视频的局部表观特征和运动特征,再通过在残差块之后接入的非局部CNN模块提取视频的全局信息,实现网络局部特征和全局特征的交叉提取;最后将两个分支网络分别通过A-softmax损失函数进行更精细的分类,并输出加权融合后的识别结果。该方法能充分利用局部和全局特征提高模型的表征能力。在UCF101数据集上,NL-ResNet取得了93.5%的识别精度,与原始双流网络相比提高了5.5个百分点。实验结果表明,所提模型能更好地提取行为特征,有效提高行为识别的准确率。 展开更多
关键词 行为识别 双流卷积神经网络 非局部 特征提取 A-softmax
在线阅读 下载PDF
基于非监督深度学习的闭环检测方法 被引量:3
15
作者 汪丹 石朝侠 王燕清 《计算机科学》 CSCD 北大核心 2020年第10期228-232,共5页
闭环检测是同时定位与建图(Simultaneous localization and mapping,SLAM)的重要组成部分,能够有效减小SLAM系统中的累积误差,并且如果在定位与建图过程中跟踪丢失,还可以利用闭环检测进行重定位。与传统的手动设计的特征(hand-crafted ... 闭环检测是同时定位与建图(Simultaneous localization and mapping,SLAM)的重要组成部分,能够有效减小SLAM系统中的累积误差,并且如果在定位与建图过程中跟踪丢失,还可以利用闭环检测进行重定位。与传统的手动设计的特征(hand-crafted feature)相比,从神经网络中学习到的图像特征具有更好的环境不变性和语义识别能力。考虑到基于陆标(landmark)的卷积特征能够克服整个图像特征对视点变化敏感的缺陷,文中提出了一种新的闭环检测算法。其首先通过卷积神经网络的卷积层直接识别出图像的感兴趣区域生成陆标,然后对图像中识别出的每个陆标提取卷积特征,生成图像的最终表示以检测闭环。为了验证算法的有效性,在典型的数据集上进行了对比实验,结果表明所提算法具有优异的性能,且即使是在极端的视点和外观变化的情况下仍然具有高鲁棒性。 展开更多
关键词 同时定位与建图 闭环检测 人为设计特征 卷积特征 深度学习
在线阅读 下载PDF
基于视觉定位与改进RRT的机械臂自动拾放系统 被引量:5
16
作者 张师瑜 任永杰 张腾 《自动化与仪器仪表》 2022年第7期221-228,共8页
为解决传统工业机械臂在进行拾放操作时自主性弱、可移植性差、运动路径非最优等方面的问题,基于ROS机器人操作系统,以六自由度工业机械臂为研究对象,设计了一种机械臂零件自动拾放系统。系统利用RGBD相机作为视觉传感器,通过生成残差... 为解决传统工业机械臂在进行拾放操作时自主性弱、可移植性差、运动路径非最优等方面的问题,基于ROS机器人操作系统,以六自由度工业机械臂为研究对象,设计了一种机械臂零件自动拾放系统。系统利用RGBD相机作为视觉传感器,通过生成残差卷积神经网络(GR-ConvNet)处理图像信息进行目标点定位。在路径规划上,基于传统RRT算法,设计采样点偏置选择策略、动态步长调整策略以及局部最小值优化机制,对算法进行了改进,又结合五次多项式插补方法,保障了机械臂运行过程中各关节的轨迹平滑性,令机械臂运行时间减少36.05%,运行路径降低16.47%。仿真与实验结果验证了本系统可以较好地完成自动拾放操作。 展开更多
关键词 ROS 六自由度 生成残差卷积神经网络 路径规划 改进RRT算法
原文传递
基于YOLOv3的布匹瑕疵检测方法 被引量:2
17
作者 伍洪健 邓作杰 +2 位作者 章银萍 张金召 王小康 《湖南工程学院学报(自然科学版)》 2023年第3期39-43,共5页
针对布匹瑕疵差异较大、分布不均匀等问题,在YOLOv3中引入SwinTransformerBlock模块,用自注意力机制专注于有效特征排除无效特征的干扰,解决瑕疵差异大、分布不均等问题.同时用可变形卷积v2替换普通卷积,增大网络的感受野和多尺度建模能... 针对布匹瑕疵差异较大、分布不均匀等问题,在YOLOv3中引入SwinTransformerBlock模块,用自注意力机制专注于有效特征排除无效特征的干扰,解决瑕疵差异大、分布不均等问题.同时用可变形卷积v2替换普通卷积,增大网络的感受野和多尺度建模能力,更好地适应瑕疵的形状和位置变化,从而提高目标检测的准确性和鲁棒性.实验结果表明,改进后算法在mAP上比原算法提高了3.80%,在检测速度上下降了2.86帧每秒. 展开更多
关键词 布匹瑕疵检测 目标检测 SwinTransformerBlock 可变形卷积v2
在线阅读 下载PDF
多特征融合的行为识别模型 被引量:6
18
作者 谭等泰 李世超 +1 位作者 常文文 李登楼 《中国图象图形学报》 CSCD 北大核心 2020年第12期2541-2552,共12页
目的视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问... 目的视频行为识别和理解是智能监控、人机交互和虚拟现实等诸多应用中的一项基础技术,由于视频时空结构的复杂性,以及视频内容的多样性,当前行为识别仍面临如何高效提取视频的时域表示、如何高效提取视频特征并在时间轴上建模的难点问题。针对这些难点,提出了一种多特征融合的行为识别模型。方法首先,提取视频中高频信息和低频信息,采用本文提出的两帧融合算法和三帧融合算法压缩原始数据,保留原始视频绝大多数信息,增强原始数据集,更好地表达原始行为信息。其次,设计双路特征提取网络,一路将融合数据正向输入网络提取细节特征,另一路将融合数据逆向输入网络提取整体特征,接着将两路特征加权融合,每一路特征提取网络均使用通用视频描述符——3D ConvNets(3D convolutional neural networks)结构。然后,采用BiConvLSTM(bidirectional convolutional long short-term memory network)网络对融合特征进一步提取局部信息并在时间轴上建模,解决视频序列中某些行为间隔相对较长的问题。最后,利用Softmax最大化似然函数分类行为动作。结果为了验证本文算法的有效性,在公开的行为识别数据集UCF101和HMDB51上,采用5折交叉验证的方式进行整体测试与分析,然后针对每类行为动作进行比较统计。结果表明,本文算法在两个验证集上的平均准确率分别为96.47%和80.03%。结论通过与目前主流行为识别模型比较,本文提出的多特征模型获得了最高的识别精度,具有通用、紧凑、简单和高效的特点。 展开更多
关键词 行为识别 双路特征提取网络 3维卷积神经网络 双向卷积长短期记忆网络 加权融合 高频特征 低频特征
原文传递
基于残差融合网络的定量磁敏感图像与T1加权图像配准 被引量:1
19
作者 王毅 田梨梨 +1 位作者 程欣宇 王丽会 《计算机系统应用》 2022年第8期46-54,共9页
医学图像配准对医学图像处理和分析至关重要,由于定量磁敏感图像(quantitative susceptibility mapping,QSM)与T1加权图像的灰度、纹理等信息存在较大的差异,现有的医学图像配准算法难以高效精确地完成两者配准.因此,本文提出了一个基... 医学图像配准对医学图像处理和分析至关重要,由于定量磁敏感图像(quantitative susceptibility mapping,QSM)与T1加权图像的灰度、纹理等信息存在较大的差异,现有的医学图像配准算法难以高效精确地完成两者配准.因此,本文提出了一个基于残差融合的无监督深度学习配准模型RF-RegNet(residual fusion registration network,RF-RegNet).RF-RegNet由编解码器、重采样器以及上下文自相似特征提取器3部分组成.编解码器用于提取待配准图像对的特征和预测两者的位移矢量场(displacement vector field,DVF),重采样器根据估计的DVF对浮动QSM图像重采样,上下文自相似特征提取器分别用于提取参考T1加权图像和重采样后的QSM图像的上下文自相似特征并计算两者的平均绝对误差(mean absolute error,MAE)以驱动卷积神经网络(convolutional neural network,ConvNet)学习.实验结果表明本文提出的方法显著地提高了QSM图像与T1加权图像的配准精度,满足临床的配准需求. 展开更多
关键词 卷积神经网络 医学图像配准 QSM 残差融合 图像处理
在线阅读 下载PDF
Visual attention network 被引量:106
20
作者 Meng-Hao Guo Cheng-Ze Lu +2 位作者 Zheng-Ning Liu Ming-Ming Cheng Shi-Min Hu 《Computational Visual Media》 SCIE EI CSCD 2023年第4期733-752,共20页
While originally designed for natural language processing tasks,the self-attention mechanism has recently taken various computer vision areas by storm.However,the 2D nature of images brings three challenges for applyi... While originally designed for natural language processing tasks,the self-attention mechanism has recently taken various computer vision areas by storm.However,the 2D nature of images brings three challenges for applying self-attention in computer vision:(1)treating images as 1D sequences neglects their 2D structures;(2)the quadratic complexity is too expensive for high-resolution images;(3)it only captures spatial adaptability but ignores channel adaptability.In this paper,we propose a novel linear attention named large kernel attention(LKA)to enable self-adaptive and long-range correlations in self-attention while avoiding its shortcomings.Furthermore,we present a neural network based on LKA,namely Visual Attention Network(VAN).While extremely simple,VAN achieves comparable results with similar size convolutional neural networks(CNNs)and vision transformers(ViTs)in various tasks,including image classification,object detection,semantic segmentation,panoptic segmentation,pose estimation,etc.For example,VAN-B6 achieves 87.8%accuracy on ImageNet benchmark,and sets new state-of-the-art performance(58.2%PQ)for panoptic segmentation.Besides,VAN-B2 surpasses Swin-T 4%mloU(50.1%vs.46.1%)for semantic segmentation on ADE20K benchmark,2.6%AP(48.8%vs.46.2%)for object detection on COCO dataset.It provides a novel method and a simple yet strong baseline for the community.The code is available at https://github.com/Visual-Attention-Network. 展开更多
关键词 vision backbone deep learning convnets ATTENTION
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部