期刊文献+
共找到1,021篇文章
< 1 2 52 >
每页显示 20 50 100
基于CNN和Transformer的轻量化电能质量扰动识别模型 被引量:4
1
作者 张彼德 邱杰 +3 位作者 娄广鑫 周灿 罗蜻清 李天倩 《电力工程技术》 北大核心 2025年第1期69-78,共10页
针对目前基于深度学习的电能质量扰动(power quality disturbances,PQDs)识别模型参数量多和计算复杂度较高的问题,文中提出了一种卷积神经网络(convolutional neural networks,CNN)融合Transformer(CNN and Transformer,CaT)的轻量化P... 针对目前基于深度学习的电能质量扰动(power quality disturbances,PQDs)识别模型参数量多和计算复杂度较高的问题,文中提出了一种卷积神经网络(convolutional neural networks,CNN)融合Transformer(CNN and Transformer,CaT)的轻量化PQDs识别模型。首先,利用深度可分离卷积初步提取扰动信号的局部特征;其次,提出一种高效的软阈值模块,在不显著增加模型参数量与计算复杂度的同时减少特征中的噪声与冗余特征;然后,利用Transformer模型挖掘PQDs信号的全局特征;最后,通过池化层、线性层和Softmax层完成PQDs识别。仿真实验表明,文中所提CaT模型在参数量和浮点运算数较少的情况下能够有效完成PQDs识别,对PQDs信号识别准确率高,具有良好的噪声鲁棒性。同时,得益于轻量化和端到端的模型设计,CaT模型相对于其他深度学习模型的推理时间更短。 展开更多
关键词 电能质量扰动(PQDs) 轻量化 参数量 高效软阈值模块 深度可分离卷积 transformer模型
在线阅读 下载PDF
New Blocking Artifacts Reduction Method Based on Wavelet Transform
2
作者 SHI Min YI Qing-ming 《Semiconductor Photonics and Technology》 CAS 2007年第1期43-47,共5页
It is well known that a block discrete cosine transform compressed image exhibits visually annoying blocking artifacts at low-bit-rate. A new post-processing deblocking algorithm in wavelet domain is proposed. The alg... It is well known that a block discrete cosine transform compressed image exhibits visually annoying blocking artifacts at low-bit-rate. A new post-processing deblocking algorithm in wavelet domain is proposed. The algorithm exploits blocking-artifact features shown in wavelet domain. The energy of blocking artifacts is concentrated into some lines to form annoying visual effects after wavelet transform. The aim of reducing blocking artifacts is to capture excessive energy on the block boundary effectively and reduce it below the visual scope. Adaptive operators for different subbands are computed based on the wavelet coefficients. The operators are made adaptive to different images and characteristics of blocking artifacts. Experimental results show that the proposed method can significantly improve the visual quality and also increase the peak signal-noise-ratio(PSNR) in the output image. 展开更多
关键词 block discrete cosine transform(BDCT) blocking artifacts wavelet transform
在线阅读 下载PDF
融合U-Net和Transformer的医学图像分割算法
3
作者 程阳 黄锦娜 朱家兵 《现代信息科技》 2025年第19期62-69,共8页
针对U-Net网络因难以捕获全局特征,导致对形状和结构变化显著的医学图像分割性能受限;同时Transformer网络因单独使用时缺乏足够局部特征,可能造成定位能力不足的问题,文章提出了一种深度分割框架——SeriTransUNet。首先,将Transforme... 针对U-Net网络因难以捕获全局特征,导致对形状和结构变化显著的医学图像分割性能受限;同时Transformer网络因单独使用时缺乏足够局部特征,可能造成定位能力不足的问题,文章提出了一种深度分割框架——SeriTransUNet。首先,将Transformer模块嵌入到U-Net的瓶颈部分,提升全局上下文感知能力;其次,在U-Net编码器卷积神经网络(CNN)与Transformer之间引入特征增强模块(Feature Enhancement Block,FEB),从多语义空间和多维度通道的角度丰富特征信息;最后,在跳跃连接中设计融合模块(Fusion),在通道维度上深度融合Transformer与CNN编码器提取的特征,从而能够充分利用两者的优势提升分割精度。实验表明,所提出的SeriTransUNet框架在Synapse数据集上实现了卓越的分割性能,DSC为81.53%,HD为24.15。 展开更多
关键词 CNN transformer 特征增强模块 融合模块
在线阅读 下载PDF
融合FPN与SFB的Swin Transformer图像去噪网络
4
作者 袁姮 华乾勇 《计算机系统应用》 2025年第10期32-43,共12页
为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在... 为了提升图像去噪网络对局部与全局信息的捕捉能力,本文提出一种基于特征金字塔网络(feature pyramid network, FPN)和空间频率块(spatial frequency block, SFB)的Swin Transformer图像去噪网络(SwinFPSFNet).该网络由3个阶段组成:在浅层特征提取阶段,设计了特征金字塔网络以增强局部特征提取能力;在深层特征提取阶段,结合快速傅里叶卷积(fast Fourier convolution, FFC)设计空间频率块,用于同时捕捉全局与局部信息;最后,通过聚合浅层与深层特征,进一步增强网络去噪能力.此外,本文构建了一种高斯噪声退化模型并结合多种数据增强策略,以提升网络的泛化能力.在CBSD68、Kodak24和Urban100数据集上的实验结果表明,与当前主流去噪方法如BM3D、DnCNN、FFDNet、SwinIR等相比, SwinFPSFNet能够兼顾局部与全局信息,在噪声抑制和保留图像细节方面表现出显著优势. 展开更多
关键词 图像去噪 Swin transformer 特征金字塔网络 空间频率块
在线阅读 下载PDF
语义感知下的多尺度U型Swin Transformer人脸超分辨方法
5
作者 张凯兵 张智启 孟雅蕾 《西安工程大学学报》 2025年第5期135-145,共11页
现有的基于卷积神经网络的人脸超分辨方法在细节恢复方面表现出色,然而卷积处理在保持图像整体结构和捕捉长距离依赖方面存在局限性,导致重建质量达不到人们满意的效果。针对上述问题,提出一种新的人脸图像超分辨方法。该方法采用多尺... 现有的基于卷积神经网络的人脸超分辨方法在细节恢复方面表现出色,然而卷积处理在保持图像整体结构和捕捉长距离依赖方面存在局限性,导致重建质量达不到人们满意的效果。针对上述问题,提出一种新的人脸图像超分辨方法。该方法采用多尺度连接的编码器和解码器结构作为主干,旨在重建出结构完整、细节丰富的高分辨人脸图像。具体而言,该方法首先通过浅层特征提取模块提取浅层特征,然后分别通过语义先验模块提取人脸语义信息和多尺度连接的U型Swin Transformer提取深层细节特征,并且将人脸语义信息融合进U型结构中,最后通过图像重建模块重建出高分辨图像。该研究将语义感知与多尺度连接的Transformer架构结合起来,克服了传统卷积网络在长距离依赖和结构保持方面的不足。实验表明:文中方法重建不仅在视觉效果上更清晰,同时为后续相关研究提供了新的思路,与SPARNet相比,在CelebA数据集和Helen数据集上PSNR分别提高了0.99 dB和0.84 dB,在SSIM和LPIPS指标上也具有一定优势。 展开更多
关键词 人脸超分辨 Swin transformer 生成对抗网络(GAN) 多头自注意力(MSA) 多尺度特征融合块
在线阅读 下载PDF
基于CNN和Transformer并行编码的腹部多器官图像分割 被引量:3
6
作者 赵欣 李森 李智生 《吉林大学学报(理学版)》 CAS 北大核心 2024年第5期1145-1154,共10页
针对现有方法在腹部中小器官图像分割性能方面存在的不足,提出一种基于局部和全局并行编码的网络模型用于腹部多器官图像分割.首先,设计一种提取多尺度特征信息的局部编码分支;其次,全局特征编码分支采用分块Transformer,通过块内Transf... 针对现有方法在腹部中小器官图像分割性能方面存在的不足,提出一种基于局部和全局并行编码的网络模型用于腹部多器官图像分割.首先,设计一种提取多尺度特征信息的局部编码分支;其次,全局特征编码分支采用分块Transformer,通过块内Transformer和块间Transformer的组合,既捕获了全局的长距离依赖信息又降低了计算量;再次,设计特征融合模块,以融合来自两条编码分支的上下文信息;最后,设计解码模块,实现全局信息与局部上下文信息的交互,更好地补偿解码阶段的信息损失.在Synapse多器官CT数据集上进行实验,与目前9种先进方法相比,在平均Dice相似系数(DSC)和Hausdorff距离(HD)指标上都达到了最佳性能,分别为83.10%和17.80 mm. 展开更多
关键词 多器官图像分割 分块transformer 特征融合
在线阅读 下载PDF
基于多尺度时间序列块自编码Transformer神经网络模型的风电超短期功率预测 被引量:41
7
作者 骆钊 吴谕侯 +3 位作者 朱家祥 赵伟杰 王钢 沈鑫 《电网技术》 EI CSCD 北大核心 2023年第9期3527-3536,共10页
风电超短期功率预测过程中对时间依赖性的有效捕捉与建模,将直接影响风电功率时间序列预测模型的稳定性和泛化性。为此,提出一种新型时序Transformer风电功率预测模型。模型架构在逻辑上分为时间块自编码、隐空间Transformer自注意力时... 风电超短期功率预测过程中对时间依赖性的有效捕捉与建模,将直接影响风电功率时间序列预测模型的稳定性和泛化性。为此,提出一种新型时序Transformer风电功率预测模型。模型架构在逻辑上分为时间块自编码、隐空间Transformer自注意力时序自回归、随机方差缩减梯度(stochastic variance reduce gradient,SVRG)优化3个部分。首先,依稀疏约束及低秩近似规则,风电功率时空数据被半监督映射至隐空间;其次,隐空间编码经由多头自注意力网络完成时序自回归预测;最后,模型采用方差缩减SVRG优化算法降低噪声,达到更高预测效能。实验结果表明,所提新型Transformer架构能稳定有效进行超短期风电功率预测,预测结果在准确性、泛化性方面相较于传统机器学习模型都有明显提升。 展开更多
关键词 风电功率预测 时间依赖性 时间序列块自编码 时间序列transformer 自注意力网络
原文传递
基于Transformer的小样本细粒度图像分类方法 被引量:5
8
作者 陆妍 王阳萍 王文润 《计算机工程与应用》 CSCD 北大核心 2023年第23期219-227,共9页
针对小样本细粒度图像分类任务中存在的相似性度量单一以及细粒度特征提取效果不佳的问题,提出了一种基于Transformer的小样本细粒度图像分类方法,克服了小样本学习在细粒度图像分类中由于样本数量较少从而分类效果较差的问题。构建以... 针对小样本细粒度图像分类任务中存在的相似性度量单一以及细粒度特征提取效果不佳的问题,提出了一种基于Transformer的小样本细粒度图像分类方法,克服了小样本学习在细粒度图像分类中由于样本数量较少从而分类效果较差的问题。构建以多轴注意力模块与卷积算子为基本组件的新模块CBG Transformer Block,通过该模块的重复堆叠提高了网络的特征提取能力;采用关系网络和余弦网络组成的双相似度模块进行相似性度量,避免了在训练数据量较小的情况下单一度量造成的相似性偏差;通过计算两个相似度得分的平均值得出最终预测结果。实验结果表明,提出的方法在CUB-200-2011、Stanford Cars和Stanford Dogs三个公开细粒度图像数据集上的5-way5-shot任务分类精度分别达到了82.70%、74.22%和69.68%,可见在小样本细粒度图像分类任务中取得了优异效果。 展开更多
关键词 细粒度图像分类 小样本学习 多轴注意力 CBG transformer block 双相似度
在线阅读 下载PDF
Multi-focus image fusion based on block matching in 3D transform domain 被引量:5
9
作者 YANG Dongsheng HU Shaohai +2 位作者 LIU Shuaiqi MA Xiaole SUN Yuchao 《Journal of Systems Engineering and Electronics》 SCIE EI CSCD 2018年第2期415-428,共14页
Fusion methods based on multi-scale transforms have become the mainstream of the pixel-level image fusion. However,most of these methods cannot fully exploit spatial domain information of source images, which lead to ... Fusion methods based on multi-scale transforms have become the mainstream of the pixel-level image fusion. However,most of these methods cannot fully exploit spatial domain information of source images, which lead to the degradation of image.This paper presents a fusion framework based on block-matching and 3D(BM3D) multi-scale transform. The algorithm first divides the image into different blocks and groups these 2D image blocks into 3D arrays by their similarity. Then it uses a 3D transform which consists of a 2D multi-scale and a 1D transform to transfer the arrays into transform coefficients, and then the obtained low-and high-coefficients are fused by different fusion rules. The final fused image is obtained from a series of fused 3D image block groups after the inverse transform by using an aggregation process. In the experimental part, we comparatively analyze some existing algorithms and the using of different transforms, e.g. non-subsampled Contourlet transform(NSCT), non-subsampled Shearlet transform(NSST), in the 3D transform step. Experimental results show that the proposed fusion framework can not only improve subjective visual effect, but also obtain better objective evaluation criteria than state-of-the-art methods. 展开更多
关键词 image fusion block matching 3D transform block-matching and 3D(BM3D) non-subsampled Shearlet transform(NSST)
在线阅读 下载PDF
A new all-zero 4×4 block determination rule for integer transform and quantization in AVS-M encoder 被引量:1
10
作者 LIU Dong-hua CHEN Yi-qiang 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2006年第z1期89-94,共6页
A new all-zero block determination rule was used to reduce the complexity of the AVS-M encoder. It reuses the sum of absolute difference of 4x4 block obtained from motion estimation or intra prediction as parameters s... A new all-zero block determination rule was used to reduce the complexity of the AVS-M encoder. It reuses the sum of absolute difference of 4x4 block obtained from motion estimation or intra prediction as parameters so that the determination threshold need to be computed only once when quantization parameter (QP) is invariable for given video sequence. This method avoids a lot of computation for transform, quantization, inverse transform, inverse quantization and block reconstruction. Simulation results showed that it can save about 20%~50% computation without any video quality degradation. 展开更多
关键词 AVS-M Integer DCT transform QUANTIZATION All-zero 4x4 block PSNR
在线阅读 下载PDF
基于卷积和Transformer联合网络的地震数据插值 被引量:2
11
作者 郭元奇 李志明 《工程地球物理学报》 2023年第3期393-401,共9页
地震数据插值是地震数据处理的关键步骤,旨在高精度地恢复出缺失地震数据,提升地震数据信噪比。近年来,基于卷积神经网络的插值方法发展迅速,该方法基于数据驱动,通过搭建卷积神经网络恢复缺失数据。卷积神经网络依赖卷积提取地震数据特... 地震数据插值是地震数据处理的关键步骤,旨在高精度地恢复出缺失地震数据,提升地震数据信噪比。近年来,基于卷积神经网络的插值方法发展迅速,该方法基于数据驱动,通过搭建卷积神经网络恢复缺失数据。卷积神经网络依赖卷积提取地震数据特征,然而由于受到卷积核局部感受野的限制,卷积运算只能捕捉地震数据局部信息,限制了网络的插值性能。因此本文提出了基于卷积和Transformer联合网络的地震数据插值方法,该方法通过引入Transformer,构建卷积和Transformer融合模块提取地震数据特征,旨在捕捉地震数据更多的细节信息,提升地震数据插值性能。通过仿真数据实验和真实数据实验显示,和基于Unet网络的插值方法相比,本文方法具有更好的插值性能,能够恢复地震数据更多纹理细节,插值结果的信噪比提升了2~3 dB。 展开更多
关键词 地震数据插值 卷积神经网络 transformer 卷积和transformer融合模块
在线阅读 下载PDF
基于双通道Transformer的地铁站台异物检测 被引量:1
12
作者 刘瑞康 刘伟铭 +2 位作者 段梦飞 谢玮 戴愿 《计算机工程》 CAS CSCD 北大核心 2024年第4期197-207,共11页
Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transforme... Transformer因其全局注意力优势在异物检测上取得了比卷积神经网络(CNN)更具竞争力的结果,但依然面临计算成本高、输入图像块尺寸固定、局部与全局信息交互匮乏等问题。提出一种基于双通道Transformer骨干网络、金字塔轻量化Transformer块和通道交叉注意力机制的DualF ormer模型,用以检测地铁站台屏蔽门与列车门间隙中存在的异物。针对输入图像块尺寸固定的问题,提出双通道策略,通过设计2种不同的特征提取通道对不同尺度的输入图像块进行特征提取,增强网络对粗、细粒度特征的提取能力,提高对多尺度目标的识别精度;针对计算成本高的问题,构建金字塔轻量化Transformer块,将级联卷积引入到多头自注意力(MHSA)模块中,并利用卷积的维度压缩能力来降低模型的计算成本;针对局部与全局信息交互匮乏的问题,提出通道交叉注意力机制,利用提取到的粗细粒度特征在通道层面进行交互,优化局部与全局信息在网络中的权重。在标准化地铁异物检测数据集上的实验结果表明,DualFormer模型参数量为1.98×10^(7),实现了89.7%的精度和24帧/s的速度,优于对比的Transformer检测算法。 展开更多
关键词 视觉transformer 异物检测 双通道策略 金字塔轻量化transformer 注意力融合
在线阅读 下载PDF
ARoad Segmentation Model Based on Mixture of the Convolutional Neural Network and the Transformer Network 被引量:1
13
作者 Fenglei Xu Haokai Zhao +2 位作者 Fuyuan Hu Mingfei Shen Yifei Wu 《Computer Modeling in Engineering & Sciences》 SCIE EI 2023年第5期1559-1570,共12页
Convolutional neural networks(CNN)based on U-shaped structures and skip connections play a pivotal role in various image segmentation tasks.Recently,Transformer starts to lead new trends in the image segmentation task... Convolutional neural networks(CNN)based on U-shaped structures and skip connections play a pivotal role in various image segmentation tasks.Recently,Transformer starts to lead new trends in the image segmentation task.Transformer layer can construct the relationship between all pixels,and the two parties can complement each other well.On the basis of these characteristics,we try to combine Transformer pipeline and convolutional neural network pipeline to gain the advantages of both.The image is put into the U-shaped encoder-decoder architecture based on empirical combination of self-attention and convolution,in which skip connections are utilized for localglobal semantic feature learning.At the same time,the image is also put into the convolutional neural network architecture.The final segmentation result will be formed by Mix block which combines both.The mixture model of the convolutional neural network and the Transformer network for road segmentation(MCTNet)can achieve effective segmentation results on KITTI dataset and Unstructured Road Scene(URS)dataset built by ourselves.Codes,self-built datasets and trainable models will be available on https://github.com/xflxfl1992/MCTNet. 展开更多
关键词 Image segmentation transformer mix block U-shaped structures
在线阅读 下载PDF
面向CT图像新冠肺炎识别的密集重参轻量化Transformer模型 被引量:1
14
作者 周涛 叶鑫宇 +3 位作者 刘凤珍 陆惠玲 周敬策 杜玉虎 《电子与信息学报》 EI CSCD 北大核心 2023年第10期3520-3528,共9页
新冠(COVID-19)肺炎严重威胁人类健康,基于深度学习的计算机辅助诊断方法能有效提高新冠肺炎的诊断效率。但是深度学习模型结构复杂、参数量和计算量大,在保持模型性能的前提下提高网络轻量化的程度具有重要研究意义,因此,该文提出一种... 新冠(COVID-19)肺炎严重威胁人类健康,基于深度学习的计算机辅助诊断方法能有效提高新冠肺炎的诊断效率。但是深度学习模型结构复杂、参数量和计算量大,在保持模型性能的前提下提高网络轻量化的程度具有重要研究意义,因此,该文提出一种面向CT图像新冠肺炎识别的密集重参轻量化Transformer模型(DRLTrans-former)。首先,为提高模型的轻量化程度,构造了重参密集块和层次化Transformer,在保持模型精度的同时提高计算速度,降低模型参数量;然后,为充分提取新冠肺炎病灶的全局与局部信息,设计层次化Transformer增强全局注意力对局部特征相关性的关注程度,其中采用分组提取全局特征,在不同组之间进行融合获得多层次信息,并且进行信息融合,进一步提高组内和组间特征的交互能力,此外对所有全局特征进行聚合,实现深浅层特征深度融合。最后,在新冠肺炎CT数据集中进行对比实验,结果表明该模型参数量和计算量分别为1.47 M和81.232 M,相比密集网络(DenseNet)参数量降低29倍、计算量降低23倍,该模型对新冠肺炎计算机辅助诊断具有积极的意义,为深度学习模型轻量化提供了新思路。 展开更多
关键词 新冠肺炎 密集网络 重参密集块 层次化transformer 轻量化
在线阅读 下载PDF
融合MobileNetv3与Transformer的钢板缺陷实时检测算法 被引量:7
15
作者 张林 谢刚 +1 位作者 谢新林 张涛源 《计算机集成制造系统》 EI CSCD 北大核心 2023年第12期3951-3963,共13页
钢板表面的缺陷检测是分析和判断钢板质量的基础和关键。针对钢板表面龟裂等小缺陷检测效率低、精度差的问题,提出一种融合Transformer的钢板表面缺陷实时检测算法。首先,融合协调注意力(CA)模块以及最大动态转移(DY)激活函数构建CA-Bn... 钢板表面的缺陷检测是分析和判断钢板质量的基础和关键。针对钢板表面龟裂等小缺陷检测效率低、精度差的问题,提出一种融合Transformer的钢板表面缺陷实时检测算法。首先,融合协调注意力(CA)模块以及最大动态转移(DY)激活函数构建CA-Bneck模块,提高缺陷特征的表示能力;其次,将MobileNetV3、CA-Bneck以及Transformer编码模块相融合,构建一种新的主干特征提取网络MobileNetV3-CATr,用于减轻模型的复杂度;最后,提出一种BiFPN-Lite模块,使得模型复杂度不增加的条件下融合更多缺陷特征;并通过YOLO Head输出缺陷的信息。在热轧钢公开数据集NEU-DET上实验结果表明,所提算法在性能和速度之间取得了平衡,mAP值相较于YOLOv4提升了5.96%,速度达到了20.1FPS,能够有效地完成钢板表面缺陷的实时和高精度检测。 展开更多
关键词 机器视觉 缺陷检测 MobileNetv3网络 transformer模块
在线阅读 下载PDF
基于局部特征融合Transformer的牛身识别算法 被引量:1
16
作者 刘浩 沈雷 +1 位作者 牟家乐 郑鹏 《杭州电子科技大学学报(自然科学版)》 2023年第1期49-55,共7页
目前,牛身识别技术大多采用卷积神经网络(Convolutional Neural Networks,CNN),CNN只能处理局部邻域信息,容易丢失细节信息。为此,提出一种基于局部特征融合Transformer的牛身识别算法。首先,运用卷积将相邻空间内的牛身局部信息进行融... 目前,牛身识别技术大多采用卷积神经网络(Convolutional Neural Networks,CNN),CNN只能处理局部邻域信息,容易丢失细节信息。为此,提出一种基于局部特征融合Transformer的牛身识别算法。首先,运用卷积将相邻空间内的牛身局部信息进行融合,增强融合后局部特征信息在不同姿态下的辨别力和鲁棒性;其次,将融合后的局部信息和全局分类信息通过数个多层感知机模块进行分类训练,损失函数采用三元组和标签平滑交叉熵损失,有效提高了牛只多姿态场景下特征的提取。仿真实验结果表明,在复杂场景下,与基于CNN的牛身识别算法相比,提出的算法有效降低了拒识率,提高了Top1排序性能和AUC值。 展开更多
关键词 牛身识别 空间融合 卷积块 transformer
在线阅读 下载PDF
基于Transformer的多模态级联文档布局分析网络
17
作者 温绍杰 吴瑞刚 +1 位作者 冯超文 刘英莉 《浙江大学学报(工学版)》 EI CAS CSCD 北大核心 2024年第2期317-324,369,共9页
针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAE... 针对现有方法在文本和图像模态的预训练目标上存在嵌入不对齐,文档图像采用基于卷积神经网络(CNN)的结构进行预处理,流程复杂,模型参数量大的问题,提出基于Transformer的多模态级联文档布局分析网络(MCOD-Net).设计词块对齐嵌入模块(WAEM),实现文本和图像模态预训练目标的对齐嵌入,使用掩码语言建模(MLM)、掩码图像建模(MIM)和词块对齐(WPA)进行预训练,以促进模型在文本和图像模态上的表征学习能力.直接使用文档原始图像,用图像块的线性投影特征来表示文档图像,简化模型结构,减小了模型参数量.实验结果表明,所提模型在PubLayNet公开数据集上的平均精度均值(mAP)达到95.1%.相较于其他模型,整体性能提升了2.5%,泛化能力突出,综合效果最优. 展开更多
关键词 文档布局分析 词块对齐嵌入 transformer MCOD-Net模型
在线阅读 下载PDF
基于紧凑型Vision transformer的细粒度视觉分类 被引量:1
18
作者 徐昊 郭黎 李润泽 《控制与决策》 EI CSCD 北大核心 2024年第3期893-900,共8页
Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池... Vision transformer(ViT)已广泛应用于细粒度视觉分类中,针对其中存在的大数据量需求和高计算复杂度的问题,提出一种紧凑型Vi T模型.首先,使用多层卷积块生成模型输入,保留更多底层信息和归纳偏置,减少对数据量的依赖;然后,使用序列池化技术取消分类令牌的使用,减少计算复杂度;最后,使用部位选择模块和混合损失函数,进一步提升模型在细粒度视觉分类中的表现.所提出算法在公共数据集CUB-200-2011、Butterfly200、Stanford Dogs、Stanford Cars和NABirds中均进行了实验验证,在只使用少量的数据和计算资源条件下,分别获得了88.9%、87.4%、89.0%、93.4%和88.0%的准确率,训练时间平均比常用的Vi T-B_16模型下降了73.8%,同时比TransFG模型下降了93.9%,并且训练过程中的参数量只有这两种模型的1/4左右.实验结果充分表明,所提出的模型较之其他主流的方法在数据量需求和计算复杂度方面具有明显的优越性,可广泛应用于工业过程控制、设备微小故障检测与诊断中. 展开更多
关键词 紧凑型 Vision transformer 细粒度视觉分类 卷积块 归纳偏置 序列池化 混合损失
原文传递
AN IMPROVED ALL ZERO BLOCK FINDING METHOD BASED ON THE STATISTIC CHARACTERISTICS OF DCT TRANSFORM COEFFICIENTS
19
作者 Xi Yinglai Hao Chongyang 《Journal of Electronics(China)》 2006年第1期99-102,共4页
In the H.263 video codec related systems, motion estimation and Discrete Cosine Transform (DCT) have the most computational requirements. In order to reduce complexity of the encoder to dedicate more resources to othe... In the H.263 video codec related systems, motion estimation and Discrete Cosine Transform (DCT) have the most computational requirements. In order to reduce complexity of the encoder to dedicate more resources to other functions, according to the study of existing methods, an Improved All Zero Block Finding (IAZBF) method based on the statistic characteristics of DCT coefficients is proposed. Compared with existing methods, IAZBF improves the detecting efficiency by about 50% without importing too much extra computation requirement. Being computed with additions and shifts instead of complicated multiplications, IAZBF is of low computation complexity, especially for low-end processors. In addition, IAZBF upholds picture fidelity and remains compatible with the H.263 bitstream standard. 展开更多
关键词 Discrete Cosine transform (DCT) All-zero blocks Computation reduction
在线阅读 下载PDF
Novel Efficient De-blocking Method for Highly Compressed Images
20
作者 SHI Min YI Qing-ming YANG Liang 《Semiconductor Photonics and Technology》 CAS 2007年第2期122-125,145,共5页
Due to coarse quantization, block-based discrete cosine transform(BDCT) compression methods usually suffer from visible blocking artifacts at the block boundaries. A novel efficient de-blocking method in DCT domain is... Due to coarse quantization, block-based discrete cosine transform(BDCT) compression methods usually suffer from visible blocking artifacts at the block boundaries. A novel efficient de-blocking method in DCT domain is proposed. A specific criterion for edge detection is given, one-dimensional DCT is applied on each row of the adjacent blocks and the shifted block in smooth region, and the transform coefficients of the shifted block are modified by weighting the average of three coefficients of the block. Mean square difference of slope criterion is used to judge the efficiency of the proposed algorithm. Simulation results show that the new method not only obtains satisfactory image quality, but also maintains high frequency information. 展开更多
关键词 block-based discrete cosine transform(BDCT) blocking artifacts image compression
在线阅读 下载PDF
上一页 1 2 52 下一页 到第
使用帮助 返回顶部