期刊文献+
共找到925篇文章
< 1 2 47 >
每页显示 20 50 100
Multi-focus image fusion based on block matching in 3D transform domain 被引量:6
1
作者 YANG Dongsheng HU Shaohai +2 位作者 LIU Shuaiqi MA Xiaole SUN Yuchao 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2018年第2期415-428,共14页
Fusion methods based on multi-scale transforms have become the mainstream of the pixel-level image fusion. However,most of these methods cannot fully exploit spatial domain information of source images, which lead to ... Fusion methods based on multi-scale transforms have become the mainstream of the pixel-level image fusion. However,most of these methods cannot fully exploit spatial domain information of source images, which lead to the degradation of image.This paper presents a fusion framework based on block-matching and 3D(BM3D) multi-scale transform. The algorithm first divides the image into different blocks and groups these 2D image blocks into 3D arrays by their similarity. Then it uses a 3D transform which consists of a 2D multi-scale and a 1D transform to transfer the arrays into transform coefficients, and then the obtained low-and high-coefficients are fused by different fusion rules. The final fused image is obtained from a series of fused 3D image block groups after the inverse transform by using an aggregation process. In the experimental part, we comparatively analyze some existing algorithms and the using of different transforms, e.g. non-subsampled Contourlet transform(NSCT), non-subsampled Shearlet transform(NSST), in the 3D transform step. Experimental results show that the proposed fusion framework can not only improve subjective visual effect, but also obtain better objective evaluation criteria than state-of-the-art methods. 展开更多
关键词 image fusion block matching 3d transform block-matching and 3d(BM3d) non-subsampled Shearlet transform(NSST)
在线阅读 下载PDF
面向跨域高光谱图像分类的嵌入Transformer层的轻量型Res-3D-CNN
2
作者 杨丽霞 鲍雅君 +1 位作者 张瑞 杨淑媛 《中国图象图形学报》 北大核心 2026年第3期927-943,共17页
目的跨域分类是高光谱图像分类的主要挑战之一。结合域适应与少样本学习的跨域少样本学习(cross domain few shot learning,CDFSL)方法已广泛应用于跨域高光谱图像分类(cross domain hyperspectral image classification,CD-HIC)问题。... 目的跨域分类是高光谱图像分类的主要挑战之一。结合域适应与少样本学习的跨域少样本学习(cross domain few shot learning,CDFSL)方法已广泛应用于跨域高光谱图像分类(cross domain hyperspectral image classification,CD-HIC)问题。由于光谱序列编码的复杂度和类间的光谱相似性,现有的CDFSL方法大多使用卷积神经网络(convolutional neural network,CNN)或其他优秀的空间特征提取器来获取空间信息,以提高分类精度。然而,提取空间特征通常伴随着地面物体分布和类别边界的扭曲。为解决该问题,本文提出了嵌入Transformer层的轻量型Res-3D-CNN(lightweight Res-3D-CNN with Transformer layer embedding,LRCT)作为CD-HIC的特征提取器。LRCT能在提取空间信息的同时获取光谱的长期依赖性,从而显著提高光谱特征方法的判别性能。方法CNN中的卷积(Conv)通过局部感受野的权重共享机制捕捉图像高频特征。而Transformer可通过自注意力机制建模特征间的长程依赖关系,并自适应聚焦关键区域。此外,Transformer表现出低通滤波特性,主要捕获图像的低频全局信息。基于Conv和Transformer的互补特性,将Transformer层嵌入Res-3D-CNN构建轻量型双流特征提取网络,分别对源域和目标域进行特征提取,通过CDFSL框架迁移源域通用特征,实现目标域少样本场景下的高精度分类。结果以Chikusei数据为源域,Indian Pines、Salinas和Pavia University为目标域进行验证。实验结果表明,在每类仅有5个标记样本时,目标域上的总体精度分别达到71.01%、92.06%和84.14%。相较于主流的CDFSL方法,基于LRCT网络的CDFSL(LRCT network based CDFSL,LRCT-CDFSL)方法在各个目标域上均展现出更优的分类性能。结论LRCT-CDFSL结合了残差三维卷积神经网络(residual 3-dimensionl CNN,Res-3D-CNN)、Transformer网络、域适应和少样本学习方法的优势,使CD-HIC精度提升。 展开更多
关键词 高光谱图像分类(HIC) 跨域分类 少样本学习(FSL) 域适应 残差三维卷积神经网络(Res-3d-CNN) transformER
原文传递
基于3D DSC-STUNet模型的核磁共振图像配准
3
作者 王雷 韩曜隆 +1 位作者 黄子臻 李彬 《华中科技大学学报(自然科学版)》 北大核心 2026年第2期175-181,共7页
为解决基于Transformer模型的配准方法不能有效表示待配准图像的全局和局部特征、解码器无法有效还原全局上下文信息等问题,基于Swin-Transformer和UNet模型,对Swin-UNet网络架构进行扩展,增强其表示全局和局部特征的能力.并且将最新的... 为解决基于Transformer模型的配准方法不能有效表示待配准图像的全局和局部特征、解码器无法有效还原全局上下文信息等问题,基于Swin-Transformer和UNet模型,对Swin-UNet网络架构进行扩展,增强其表示全局和局部特征的能力.并且将最新的动态蛇形卷积推广到三维空间,建立3D DSC-STUNet(Swin TransformerUNet with 3D Dynamic Snake Convolution)模型用于图像配准.相比传统卷积方法,三维动态蛇形卷积能利用可变卷积核能更好地关注图像的局部细节,提高网络处理局部特征的能力.所提出的配准方法利用特征变换提取图像特征来生成形变场,并在此基础上以无监督的方式生成配准图像.在IXI(脑部信息数据集)和OASIS(开源影像数据集)脑部MRI(核磁共振成像)图像数据集上与五种经典的配准方法相比,实验结果表明:提出的方法能够得到更好的配准结果,Dice(戴斯相似系数)值最高可以提高18.1%. 展开更多
关键词 核磁共振图像 图像配准 Swin transformer UNet 三维动态蛇形卷积
原文传递
基于3D-CNN和融合Transformer的步态识别算法 被引量:1
4
作者 李金成 代雪晶 闫睿骜 《科学技术与工程》 北大核心 2025年第17期7276-7284,共9页
当前,步态识别的主流方法常依赖堆叠卷积层来逐步扩大感受野,以融合局部特征,这种方法大多采用浅层网络,在提取步态图像的全局特征时存在一定的局限性,并缺乏对时序周期特征信息的关注。因此提出一种融合Transformer和3D卷积的深层神经... 当前,步态识别的主流方法常依赖堆叠卷积层来逐步扩大感受野,以融合局部特征,这种方法大多采用浅层网络,在提取步态图像的全局特征时存在一定的局限性,并缺乏对时序周期特征信息的关注。因此提出一种融合Transformer和3D卷积的深层神经网络算法(3D convolutional gait recognition network based on adaptFormer and spect-conv,3D-ASgaitNet)。首先,初始残差卷积层将二进制轮廓数据转换为浮点编码特征图,以提供密集的低级结构特征;在此基础上,光谱层通过频域和时域的联合处理增强特征提取能力,并使用伪3D残差卷积模块进一步提取高级时空特征;最后融合AdaptFormer模块,通过轻量级的下采样-上采样网络结构,以适应不同的数据分布和任务需求,提供灵活的特征变换能力。3D-ASgaitNet分别在4个公开的室内数据集(CASIA-B、OU-MVLP)、室外数据集(GREW、Gait3D)上进行,分别取得99.84%、87.83%、45.32%、72.12%的识别准确率。实验结果表明,所提出方法在CASIA-B、Gait3D数据集中的识别准确率接近SOTA性能。 展开更多
关键词 步态识别 融合transformer 3d残差卷积 二进制轮廓数据
在线阅读 下载PDF
基于Transformer模型的3D NAND闪存剩余寿命预测方法
5
作者 石颖 杨少华 +2 位作者 周斌 吴福根 胡湘洪 《微电子学》 北大核心 2025年第2期327-334,共8页
为了预测3D NAND闪存的剩余使用寿命以及提高数据存储的可靠性,设计了3D NAND闪存的高温和温度循环实验,分析了各项操作时间和原始错误比特数的变化趋势。同时建立了一种改进的Transformer模型,以预处理后的寿命特征数据为输入,对3D NAN... 为了预测3D NAND闪存的剩余使用寿命以及提高数据存储的可靠性,设计了3D NAND闪存的高温和温度循环实验,分析了各项操作时间和原始错误比特数的变化趋势。同时建立了一种改进的Transformer模型,以预处理后的寿命特征数据为输入,对3D NAND闪存的剩余使用寿命进行预测。与LSTM、GRU相比,所建立模型在高温擦写实验数据集中的均方根误差分别下降了20.5%、21.0%;在温度循环擦写实验数据集中则分别下降2.5%和7.8%。实验结果表明,该模型可以准确预测3D NAND闪存的剩余寿命,优化闪存寿命管理策略。 展开更多
关键词 3d NAND闪存 剩余使用寿命 transformer模型 寿命预测
原文传递
VoxTNT:基于多尺度Transformer的点云3D目标检测方法
6
作者 郑强文 吴升 魏婧卉 《地球信息科学学报》 北大核心 2025年第6期1361-1380,共20页
【背景】传统方法因静态感受野设计较难适配城市自动驾驶场景中汽车、行人及骑行者等目标的显著尺度差异,且跨尺度特征融合易引发层级干扰。【方法】针对自动驾驶场景中多类别、多尺寸目标的3D检测中跨尺度表征一致性的关键挑战,本研究... 【背景】传统方法因静态感受野设计较难适配城市自动驾驶场景中汽车、行人及骑行者等目标的显著尺度差异,且跨尺度特征融合易引发层级干扰。【方法】针对自动驾驶场景中多类别、多尺寸目标的3D检测中跨尺度表征一致性的关键挑战,本研究提出基于均衡化感受野的3D目标检测方法VoxTNT,通过局部-全局协同注意力机制提升检测性能。在局部层面,设计了PointSetFormer模块,引入诱导集注意力模块(Induced Set Attention Block,ISAB),通过约简的交叉注意力聚合高密度点云的细粒度几何特征,突破传统体素均值池化的信息损失瓶颈;在全局层面,设计了VoxelFormerFFN模块,将非空体素抽象为超点集并实施跨体素ISAB交互,建立长程上下文依赖关系,并将全局特征学习计算负载从O(N^(2))压缩至O(M^(2))(M<<N,M为非空体素数量),规避了复杂的Transformer直接使用在原始点云造成的高计算复杂度。该双域耦合架构实现了局部细粒度感知与全局语义关联的动态平衡,有效缓解固定感受野和多尺度融合导致的特征建模偏差。【结果】实验表明,该方法在KITTI数据集单阶段检测下,中等难度级别的行人检测精度AP(Average Precision)值达到59.56%,较SECOND基线提高约12.4%,两阶段检测下以66.54%的综合指标mAP(mean Average Precision)领先次优方法BSAODet的66.10%。同时,在WOD数据集中验证了方法的有效性,综合指标mAP达到66.09%分别超越SECOND和PointPillars基线7.7%和8.5%。消融实验进一步表明,均衡化局部和全局感受野的3D特征学习机制能显著提升小目标检测精度(如在KITTI数据集中全组件消融的情况下,中等难度级别的行人和骑行者检测精度分别下降10.8%和10.0%),同时保持大目标检测的稳定性。【结论】本研究为解决自动驾驶多尺度目标检测难题提供了新思路,未来将优化模型结构以进一步提升效能。 展开更多
关键词 智能交通工程 自动驾驶 点云 三维目标检测 体素 transformER
原文传递
融合Vision Transformer与3D CNN的深度伪造视频篡改检测
7
作者 孙立信 吴永飞 +2 位作者 李心宇 任杰煌 刘西林 《计算机应用与软件》 北大核心 2025年第11期121-127,共7页
Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针... Deepfake技术的出现,使人们可以轻松地对人脸视频进行篡改,对社会造成巨大的危害。现有的篡改检测方法主要侧重于视频帧间的局部人脸区域空间特征变化检测,并没有考虑连续全局区域的时域特征,且不能检测视频帧中的细微空域特征变化。针对此问题,提出融合Vision Transformer和3D CNN的视频篡改检测方法ViT-3DCNN。该方法无需对人脸进行裁剪,直接学习视频帧间的连续时域特征以及每一帧的空间特征。实验结果表明,不依赖于人脸剪裁的情况下,ViT-3DCNN模型分别在DFDC数据集及Celeb-DF数据集上取得了93.3%与90.65%的分类准确性,充分验证了该模型在检测精度和泛化性等方面相较于现有检测方法具有明显的优势。 展开更多
关键词 伪造视频篡改检测 时空特征 Vision transformer 3d卷积
在线阅读 下载PDF
融合多重卷积和Dense Transformer的高光谱图像分类
8
作者 魏林 杨霄 尹玉萍 《红外技术》 北大核心 2026年第2期193-203,共11页
高光谱图像蕴含丰富的光谱空间信息。如何充分挖掘空谱信息进行分类,是一个关键的研究问题。在处理高光谱图像分类时,卷积擅长提取局部特征,Transformer能够捕获长距离特征依赖性,学习全局特征信息。针对卷积和Transformer的优势,提出... 高光谱图像蕴含丰富的光谱空间信息。如何充分挖掘空谱信息进行分类,是一个关键的研究问题。在处理高光谱图像分类时,卷积擅长提取局部特征,Transformer能够捕获长距离特征依赖性,学习全局特征信息。针对卷积和Transformer的优势,提出了一种结合三维卷积、空间通道重建卷积和Transformer的高光谱图像分类方法。首先将降维后的图像块,利用三维卷积进行综合的空谱特征提取;随后用空间通道重建卷积过滤冗余信息;最后用具有密集连接的Transformer对卷积提取的空谱特征建立长距离依赖关系,并使用多层感知机进行分类。实验表明,该方法在Pavia University、Salinas和Botswana数据集上总体分类精度分别为99.51%、99.85%、97.57%,均表现优异。 展开更多
关键词 高光谱图像 特征提取 三维卷积 空间通道重建卷积 transformER
在线阅读 下载PDF
Style 3D技术在服装企业数字化设计中的应用落地研究
9
作者 吕卫 朱锦华 《江苏丝绸》 2026年第1期33-37,43,共6页
在服装产业数字化转型加速推进的背景下,传统服装设计模式面临周期长、样衣浪费大、市场响应慢等突出问题。Style 3D技术凭借其先进的面料仿真、3D建模与虚拟试穿核心功能,以及庞大的面料库与款式库资源支撑,为服装企业数字化设计提供... 在服装产业数字化转型加速推进的背景下,传统服装设计模式面临周期长、样衣浪费大、市场响应慢等突出问题。Style 3D技术凭借其先进的面料仿真、3D建模与虚拟试穿核心功能,以及庞大的面料库与款式库资源支撑,为服装企业数字化设计提供了全新解决方案。本文立足服装企业实际应用需求,系统解析Style 3D技术架构与企业适配特性,深入分析其在创意设计、研发生产、营销展示全流程的智能应用场景,结合企业实践探讨技术应用的核心价值与落地痛点,并提出针对性优化路径。 展开更多
关键词 Style 3d 服装企业 智能设计 数字化转型 应用落地
在线阅读 下载PDF
Estimating primaries by sparse inversion of the 3D Curvelet transform and the L1-norm constraint 被引量:7
10
作者 冯飞 王德利 +1 位作者 朱恒 程浩 《Applied Geophysics》 SCIE CSCD 2013年第2期201-209,237,共10页
In this paper, we built upon the estimating primaries by sparse inversion (EPSI) method. We use the 3D curvelet transform and modify the EPSI method to the sparse inversion of the biconvex optimization and Ll-norm r... In this paper, we built upon the estimating primaries by sparse inversion (EPSI) method. We use the 3D curvelet transform and modify the EPSI method to the sparse inversion of the biconvex optimization and Ll-norm regularization, and use alternating optimization to directly estimate the primary reflection coefficients and source wavelet. The 3D curvelet transform is used as a sparseness constraint when inverting the primary reflection coefficients, which results in avoiding the prediction subtraction process in the surface-related multiples elimination (SRME) method. The proposed method not only reduces the damage to the effective waves but also improves the elimination of multiples. It is also a wave equation- based method for elimination of surface multiple reflections, which effectively removes surface multiples under complex submarine conditions. 展开更多
关键词 Sparse inversion primary reflection coefficients 3d Curvelet transformation L1regularization convex optimization
在线阅读 下载PDF
Applications of Lodrigues Matrix in 3D Coordinate Transformation 被引量:3
11
作者 YAO Jili XU Yufei XIAO Wei 《Geo-Spatial Information Science》 2007年第3期173-176,共4页
Three transformation models (Bursa-Wolf, Molodensky, and WTUSM) are generally used between two data systems transformation. The linear models are used when the rotation angles are small; however, when the rotation a... Three transformation models (Bursa-Wolf, Molodensky, and WTUSM) are generally used between two data systems transformation. The linear models are used when the rotation angles are small; however, when the rotation angles get bigger, model errors will be produced. In this paper, we present a method with three main terms:① the traditional rotation angles θ,φ,ψ are substituted with a,b,c which are three respective values in the anti-symmetrical or Lodrigues matrix; ② directly and accurately calculating the formula of seven parameters in any value of rotation angles; and ③ a corresponding adjustment model is established. This method does not use the triangle function. Instead it uses addition, subtraction, multiplication and division, and the complexity of the equation is reduced, making the calculation easy and quick. 展开更多
关键词 3d transformation linear model transformation equation Lodrigues matrix
在线阅读 下载PDF
融合3D注意力和Transformer的图像去雨网络 被引量:5
12
作者 王美华 柯凡晖 +2 位作者 梁云 范衠 廖磊 《中国图象图形学报》 CSCD 北大核心 2022年第5期1509-1521,共13页
目的因为有雨图像中雨线存在方向、密度和大小等各方面的差异,单幅图像去雨依旧是一个充满挑战的研究问题。现有算法在某些复杂图像上仍存在过度去雨或去雨不足等问题,部分复杂图像的边缘高频信息在去雨过程中被抹除,或图像中残留雨成... 目的因为有雨图像中雨线存在方向、密度和大小等各方面的差异,单幅图像去雨依旧是一个充满挑战的研究问题。现有算法在某些复杂图像上仍存在过度去雨或去雨不足等问题,部分复杂图像的边缘高频信息在去雨过程中被抹除,或图像中残留雨成分。针对上述问题,本文提出三维注意力和Transformer去雨网络(three-dimension attention and Transformer deraining network,TDATDN)。方法将三维注意力机制与残差密集块结构相结合,以解决残差密集块通道高维度特征融合问题;使用Transformer计算特征全局关联性;针对去雨过程中图像高频信息被破坏和结构信息被抹除的问题,将多尺度结构相似性损失与常用图像去雨损失函数结合参与去雨网络训练。结果本文将提出的TDATDN网络在Rain12000雨线数据集上进行实验。其中,峰值信噪比(peak signal to noise ratio,PSNR)达到33.01 d B,结构相似性(structural similarity,SSIM)达到0.9278。实验结果表明,本文算法对比以往基于深度学习的神经网络去雨算法,显著改善了单幅图像去雨效果。结论本文提出的TDATDN图像去雨网络结合了3D注意力机制、Transformer和编码器—解码器架构的优点,可较好地完成单幅图像去雨工作。 展开更多
关键词 单幅图像去雨 卷积神经网络(CNN) transformER 3d注意力 U-Net
原文传递
基于Contextual Transformer的自动驾驶单目3D目标检测 被引量:1
13
作者 厍向阳 颜唯佳 董立红 《计算机工程与应用》 CSCD 北大核心 2024年第19期178-189,共12页
针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构... 针对当前单目3D目标检测中存在的漏检和多尺度目标检测效果不佳的问题,提出了一种基于Contextual Transformer的自动驾驶单目3D目标检测算法(CM-RTM3D)。在ResNet-50网络中引入Contextual Transformer(CoT),构建ResNet-Transformer架构以提取特征。设计多尺度空间感知模块(MSP),通过尺度空间响应操作改善浅层特征的丢失情况,嵌入沿水平和竖直两个空间方向的坐标注意力机制(CA),使用softmax函数生成各尺度的重要性软权重。在偏移损失中采用Huber损失函数代替L1损失函数。实验结果表明:在KITTI自动驾驶数据集上,相较于RTM3D算法,该算法在简单、中等、困难三个难度级别下,AP3D分别提升了4.84、3.82、5.36个百分点,APBEV分别提升了4.75、6.26、3.56个百分点。 展开更多
关键词 自动驾驶 单目3d目标检测 Contextual transformer 多尺度感知 坐标注意力机制
在线阅读 下载PDF
基于轻量3D CNNs和Transformer的手语识别 被引量:6
14
作者 路飞 韩祥祖 +1 位作者 程显鹏 田国会 《华中科技大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第5期13-18,共6页
针对传统基于3D CNNs(三维卷积神经网络)的手语识别方法模型计算复杂度和内存占用较高,及基于RNNs(循环神经网络)的连续手语识别方法的长距离建模能力不足的问题,提出一种基于轻量3D CNNs和Transformer的手语识别方法.首先使用轻量3D C... 针对传统基于3D CNNs(三维卷积神经网络)的手语识别方法模型计算复杂度和内存占用较高,及基于RNNs(循环神经网络)的连续手语识别方法的长距离建模能力不足的问题,提出一种基于轻量3D CNNs和Transformer的手语识别方法.首先使用轻量3D CNNs进行孤立词手语识别的时空建模,然后提出RKD(随机知识蒸馏),从多个教师模型中提取知识以提高轻量三维卷积的特征提取能力;针对连续手语,在特征提取后使用完全基于自注意力的Transformer进行全局建模.实验结果表明:所提方法在CSL-500和CSL-continuous数据集上可以获得95.10%的识别率和1.9的WER(词错误率),证明了所提方法的有效性. 展开更多
关键词 手语识别 轻量三维卷积神经网络 知识蒸馏 transformer网络 特征提取
原文传递
多尺度Transformer激光雷达点云3D物体检测 被引量:3
15
作者 孙刘杰 赵进 +1 位作者 王文举 张煜森 《计算机工程与应用》 CSCD 北大核心 2022年第8期136-146,共11页
激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法 MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,... 激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法 MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度。该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCNN)。RPN阶段通过多尺度Transformer网络提取点云特征,该网络包含多尺度邻域嵌入模块和跳跃连接偏移注意力模块,获取多尺度邻域几何信息和不同层次全局语义信息,生成高质量初始3D包围盒;在RCNN阶段,引入包围盒内的点云多尺度邻域几何信息,优化了包围盒位置、尺寸、朝向和置信度等信息。实验结果表明,该方法(MSPT-RCNN)具有较高检测精度,特别是对于远处和较小物体,提升更高。MSPT-RCNN通过有效学习点云数据中的多尺度几何信息,提取不同层次有效的语义信息,能够有效提升3D物体检测精度。 展开更多
关键词 transformER 多尺度 偏移注意力 点云 3d物体检测
在线阅读 下载PDF
基于局部特征编解码的自动驾驶3D目标检测 被引量:1
16
作者 邵凯 吴广 +2 位作者 梁燕 奚兴发 高琳珈 《系统工程与电子技术》 北大核心 2025年第10期3168-3178,共11页
针对自动驾驶三维目标检测中多层次特征提取和多尺度特征上下文依赖性问题,采用点-体素的检测框架,提出一种综合多项技术的基于局部特征编解码区域卷积神经网络(local feature encode-decode region-based convolutional neural network... 针对自动驾驶三维目标检测中多层次特征提取和多尺度特征上下文依赖性问题,采用点-体素的检测框架,提出一种综合多项技术的基于局部特征编解码区域卷积神经网络(local feature encode-decode region-based convolutional neural network,LFED-RCNN)。首先,在三维特征提取阶段提出结合卷积网络和Transformer编解码结构的卷积编解码主干,其中额外下采样卷积网络提取多层次三维特征,局部编解码网络建模特征间关联并融合深浅层特征,提升模型在复杂背景下对前景目标的特征获取能力。其次,设计位置编码模块对鸟瞰图视角下的二维特征进行位置编码,建立长期依赖关系,提升检测精度。所提方案LFED-RCNN在KITTI和ONCE数据集上进行验证,在KITTI数据集的困难等级下,对车、行人、骑行者三类检测对象分别可达到82.95%、57.48%、72.14%的平均准确率(mean average precision,mAP)。实验结果证明,所提方法在困难模式上表现出优异性能。 展开更多
关键词 三维目标检测 点云 transformER 编码器 解码器 接受域
在线阅读 下载PDF
基于Transformer的融合信息增强3D目标检测算法 被引量:20
17
作者 金宇锋 陶重犇 《仪器仪表学报》 EI CAS CSCD 北大核心 2023年第12期297-306,共10页
针对当前3D目标检测算法将不同模态数据融合时会产生错位现象,从而破坏数据之间的关联性并造成数据损失的问题,提出了一种基于Transformer的融合信息增强3D目标检测算法。首先设计了Transformer双域融合特征区域建议模块,利用变形注意... 针对当前3D目标检测算法将不同模态数据融合时会产生错位现象,从而破坏数据之间的关联性并造成数据损失的问题,提出了一种基于Transformer的融合信息增强3D目标检测算法。首先设计了Transformer双域融合特征区域建议模块,利用变形注意力机制,将提取到的雷达点云特征和图像特征进行双域特征融合,用于生成3D预选框;其次,通过设计的深度补全机制的特征信息增强模块,补全密集的深度和特征语义信息来完成框的细化;最后,设计了多模态特征交叉注意力模块,采用动态交叉注意力机制来获得不同模态间的相关性,从而将特征信息有效对齐融合。在Kitti、Nuscences和Waymo数据集上的实验结果证明了该算法的有效性和通用性。大量的消融实验证明了该算法各个模块的有效性。在实车平台上的实验结果表明,该算法在复杂的实际环境中具有优秀的鲁棒性。 展开更多
关键词 3d目标检测 transformER 深度补全 多模态融合 自动驾驶
原文传递
Transformer注意力引导的三维模型最优视图选择与分类方法
18
作者 陈松乐 黄茹玥 +2 位作者 黄思轩 陈怡 李骞 《中国图象图形学报》 北大核心 2025年第12期3927-3940,共14页
目的现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型,然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在,每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图,不仅... 目的现有的基于多视图的三维模型分类方法通常基于预设的多个视点渲染三维模型,然后将所有渲染的视图送入神经网络模型实现分类。显然由于冗余和无效视图的存在,每个视图对于分类目标的作用并不相同。选择对分类目标贡献大的视图,不仅有利于提高基于多视图的三维模型分类的性能,而且能够提供表征三维模型的代表性视图。方法提出一种Transformer注意力引导的三维模型最优视图选择与分类方法。在从正十二面体20个视角对待预测的三维模型渲染后,首先采用卷积神经网络从多个视图提取特征信息,获得多视图局部特征Token序列,并对其进行位置编码,以保留其空间位置信息。随后,将可学习的全局分类Token与多视图特征Token序列合并,输入至Transformer编码器进行全局视图特征融合,获得初始全局分类特征。接下来,最优视图选择模块基于全局视图特征融合过程中的注意力得分矩阵计算各视图对初始全局分类Token的贡献,并选择得分高的视图作为最优视图。最后,将最优视图特征Token序列与初始全局分类Token拼接后输入到Transformer编码器进行最优视图融合,并获得最终的全局分类Token,将其输入分类预测模块获得最终分类概率,并输出选择的最优视图。本文在训练过程中采用了随机丢弃视图和对比学习策略,以进一步提高模型的泛化性能。结果在ModelNet40基准数据集上,所提方法总体识别精度和平均识别精度分别为97.61%和96.36%,在达到当前先进分类水平的同时,基于Transformer注意力得分矩阵选择出的最优视图更具有表征性。结论本文方法利用Transformer实现不同视图特征之间的融合,通过自注意力、残差连接以及多层堆叠机制,Transformer能够有效学习数据的复杂特征,并捕捉不同视图之间的全局上下文关系。同时,其注意力得分矩阵为最优视图选择提供了依据,在实现高效分类的同时,能够选择出最具有表征性的视图。 展开更多
关键词 三维模型分类 transformER 最优视图选择 对比学习 多视图学习
原文传递
跨模态交互学习与迭代融合的3D视觉定位 被引量:1
19
作者 才华 冉越 +3 位作者 张海峰 张高鹏 付强 孙俊喜 《光学精密工程》 北大核心 2025年第24期3915-3930,共16页
针对现有3D视觉定位方法存在的对单一模态信息依赖过强、视角变化适应性差以及跨模态特征融合效果有限的问题,提出了一种跨模态交互学习与迭代融合的3D视觉定位方法。该方法包括多模态特征提取与跨模态特征融合两个阶段。在特征提取阶段... 针对现有3D视觉定位方法存在的对单一模态信息依赖过强、视角变化适应性差以及跨模态特征融合效果有限的问题,提出了一种跨模态交互学习与迭代融合的3D视觉定位方法。该方法包括多模态特征提取与跨模态特征融合两个阶段。在特征提取阶段,分别采用点云编码器和文本编码器提取点云与文本特征,并引入点云的类别信息;在特征融合阶段,设计基于Transformer的点云特征增强模块,以提升点云特征的表达能力;通过对称交互学习模块捕捉点云与文本特征之间的深层关联,有效抑制无关特征干扰;跨模态迭代融合模块逐步融合跨模态信息,增强模型在复杂场景下的定位能力。实验结果表明,本文方法在ScanRefer、Nr3D和Sr3D这3个经典的3D视觉定位数据集上均取得了综合的精度提升。在ScanRefer的unique子集上,Acc@0.25和Acc@0.5分别达到了86.19%和69.68%;在Nr3D和Sr3D的easy子集上,定位准确率分别达到了65.20%和74.87%。本文方法在多种3D场景中均展现出稳定的定位能力,验证了其在增强多模态交互与跨模态融合方面的卓越性能。 展开更多
关键词 3d视觉定位 点云 交互学习 迭代融合 transformER
在线阅读 下载PDF
A complete solution of an improved universal 3D coordinate similarity transformation model 被引量:3
20
作者 Leyang Wang Jianqiang Sun Qiwen Wu 《Geodesy and Geodynamics》 CSCD 2021年第2期125-132,共8页
When linearizing three-dimensional(3 D)coordinate similarity transformation model with large rotations,we usually encounter the ill-posed normal matrix which may aggravate the instability of solutions.To alleviate the... When linearizing three-dimensional(3 D)coordinate similarity transformation model with large rotations,we usually encounter the ill-posed normal matrix which may aggravate the instability of solutions.To alleviate the problem,a series of conversions are contributed to the 3 D coordinate similarity transformation model in this paper.We deduced a complete solution for the 3 D coordinate similarity transformation at any rotation with the nonlinear adjustment methodology,which involves the errors of the common and the non-common points.Furthermore,as the large condition number of the normal matrix resulted in an intractable form,we introduced the bary-centralization technique and a surrogate process for deterministic element of the normal matrix,and proved its benefit for alleviating the condition number.The experimental results show that our approach can obtain the smaller condition number to stabilize the convergence of the interested parameters.Especially,our approach can be implemented for considering the errors of the common and the non-common points,thus the accuracy of the transformed coordinates improves. 展开更多
关键词 3d coordinate transformation Nonlinear adjustment Complete solution Condition number Bary-centralization
原文传递
上一页 1 2 47 下一页 到第
使用帮助 返回顶部