期刊文献+
共找到2,251篇文章
< 1 2 113 >
每页显示 20 50 100
Visioneer Strobe XP 100
1
《公共支出与采购》 2003年第5期22-22,共1页
关键词 visioneer Strobe XP 100 扫描仪 产品功能 自动倾斜校正工作
在线阅读 下载PDF
扫描仪 HP ScanJet 4S和Visioneer PaperPort Vx:性格迥异的双胞胎
2
作者 Alfred Poor 黄国胜 《个人电脑》 1996年第4期33-34,共2页
Danny DeVito和Arnold Sch-warzenegger在电影Twins中扮演了一对性格各异的双胞胎。
关键词 扫描仪 HP ScanJet 4S 传感器 visioneer PaperPort Vx 灰度级 双胞胎 性格 个性心理特征
在线阅读 下载PDF
卷积神经网络与Vision Transformer在胶质瘤中的研究进展
3
作者 杨浩辉 徐涛 +3 位作者 王伟 安良良 敖用芳 朱家宝 《磁共振成像》 北大核心 2026年第1期168-174,共7页
胶质瘤因高度异质性、强侵袭性及预后差,传统诊疗面临巨大挑战。深度学习技术的引入为其精准诊疗提供了新路径,其中卷积神经网络(convolutional neural network,CNN)与Vision Transformer(ViT)是核心工具。CNN凭借层级化卷积操作在局部... 胶质瘤因高度异质性、强侵袭性及预后差,传统诊疗面临巨大挑战。深度学习技术的引入为其精准诊疗提供了新路径,其中卷积神经网络(convolutional neural network,CNN)与Vision Transformer(ViT)是核心工具。CNN凭借层级化卷积操作在局部特征提取(如肿瘤边缘、纹理细节)上具有天然优势,而ViT基于自注意力机制在全局上下文建模(如肿瘤跨区域异质性、多模态关联)方面表现突出,二者的融合策略通过整合局部精细特征与全局关联信息,在应对胶质瘤边界模糊、跨模态数据异构性等临床难题中展现出显著优势。本文综述了二者在胶质瘤检测与分割、病理分级、分子分型、预后评估等关键临床任务中的研究进展,阐述了原理、单独应用及融合策略。同时,本文也探讨了当前研究中存在的挑战,诸如对数据标注的强依赖性、模型可解释性不足等问题,并展望了未来的发展方向,例如构建轻量化架构、发展自监督学习以及推进多组学融合等前沿,以期为胶质瘤智能诊断提供系统性参考。 展开更多
关键词 胶质瘤 深度学习 卷积神经网络 Vision Transformer 磁共振成像
暂未订购
CAFE-GAN: CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination
4
作者 Xuanhong Wang Hongyu Guo +3 位作者 Jiazhen Li Mingchen Wang Xian Wang Yijun Zhang 《Computers, Materials & Continua》 2026年第1期1742-1760,共19页
Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step... Over the past decade,large-scale pre-trained autoregressive and diffusion models rejuvenated the field of text-guided image generation.However,these models require enormous datasets and parameters,and their multi-step generation processes are often inefficient and difficult to control.To address these challenges,we propose CAFE-GAN,a CLIP-Projected GAN with Attention-Aware Generation and Multi-Scale Discrimination,which incorporates a pretrained CLIP model along with several key architectural innovations.First,we embed a coordinate attention mechanism into the generator to capture long-range dependencies and enhance feature representation.Second,we introduce a trainable linear projection layer after the CLIP text encoder,which aligns textual embeddings with the generator’s semantic space.Third,we design a multi-scale discriminator that leverages pre-trained visual features and integrates a feature regularization strategy,thereby improving training stability and discrimination performance.Experiments on the CUB and COCO datasets demonstrate that CAFE-GAN outperforms existing text-to-image generation methods,achieving lower Fréchet Inception Distance(FID)scores and generating images with superior visual quality and semantic fidelity,with FID scores of 9.84 and 5.62 on the CUB and COCO datasets,respectively,surpassing current state-of-the-art text-to-image models by varying degrees.These findings offer valuable insights for future research on efficient,controllable text-to-image synthesis. 展开更多
关键词 Large vision language models deep learning computer vision text-to-image generation
在线阅读 下载PDF
From microstructure to performance optimization:Innovative applications of computer vision in materials science
5
作者 Chunyu Guo Xiangyu Tang +10 位作者 Yu’e Chen Changyou Gao Qinglin Shan Heyi Wei Xusheng Liu Chuncheng Lu Meixia Fu Enhui Wang Xinhong Liu Xinmei Hou Yanglong Hou 《International Journal of Minerals,Metallurgy and Materials》 2026年第1期94-115,共22页
The rapid advancements in computer vision(CV)technology have transformed the traditional approaches to material microstructure analysis.This review outlines the history of CV and explores the applications of deep-lear... The rapid advancements in computer vision(CV)technology have transformed the traditional approaches to material microstructure analysis.This review outlines the history of CV and explores the applications of deep-learning(DL)-driven CV in four key areas of materials science:microstructure-based performance prediction,microstructure information generation,microstructure defect detection,and crystal structure-based property prediction.The CV has significantly reduced the cost of traditional experimental methods used in material performance prediction.Moreover,recent progress made in generating microstructure images and detecting microstructural defects using CV has led to increased efficiency and reliability in material performance assessments.The DL-driven CV models can accelerate the design of new materials with optimized performance by integrating predictions based on both crystal and microstructural data,thereby allowing for the discovery and innovation of next-generation materials.Finally,the review provides insights into the rapid interdisciplinary developments in the field of materials science and future prospects. 展开更多
关键词 MICROSTRUCTURE deep learning computer vision performance prediction image generation
在线阅读 下载PDF
Ultrathin Gallium Nitride Quantum-Disk-in-Nanowire-Enabled Reconfigurable Bioinspired Sensor for High-Accuracy Human Action Recognition
6
作者 Zhixiang Gao Xin Ju +10 位作者 Huabin Yu Wei Chen Xin Liu Yuanmin Luo Yang Kang Dongyang Luo JiKai Yao Wengang Gu Muhammad Hunain Memon Yong Yan Haiding Sun 《Nano-Micro Letters》 2026年第2期439-453,共15页
Human action recognition(HAR)is crucial for the development of efficient computer vision,where bioinspired neuromorphic perception visual systems have emerged as a vital solution to address transmission bottlenecks ac... Human action recognition(HAR)is crucial for the development of efficient computer vision,where bioinspired neuromorphic perception visual systems have emerged as a vital solution to address transmission bottlenecks across sensor-processor interfaces.However,the absence of interactions among versatile biomimicking functionalities within a single device,which was developed for specific vision tasks,restricts the computational capacity,practicality,and scalability of in-sensor vision computing.Here,we propose a bioinspired vision sensor composed of a Ga N/Al N-based ultrathin quantum-disks-in-nanowires(QD-NWs)array to mimic not only Parvo cells for high-contrast vision and Magno cells for dynamic vision in the human retina but also the synergistic activity between the two cells for in-sensor vision computing.By simply tuning the applied bias voltage on each QD-NW-array-based pixel,we achieve two biosimilar photoresponse characteristics with slow and fast reactions to light stimuli that enhance the in-sensor image quality and HAR efficiency,respectively.Strikingly,the interplay and synergistic interaction of the two photoresponse modes within a single device markedly increased the HAR recognition accuracy from 51.4%to 81.4%owing to the integrated artificial vision system.The demonstration of an intelligent vision sensor offers a promising device platform for the development of highly efficient HAR systems and future smart optoelectronics. 展开更多
关键词 GaN nanowire Quantum-confined Stark effect Voltage-tunable photoresponse Bioinspired sensor Artificial vision system
在线阅读 下载PDF
Deep Learning for Brain Tumor Segmentation and Classification: A Systematic Review of Methods and Trends
7
作者 Ameer Hamza Robertas Damaševicius 《Computers, Materials & Continua》 2026年第1期132-172,共41页
This systematic review aims to comprehensively examine and compare deep learning methods for brain tumor segmentation and classification using MRI and other imaging modalities,focusing on recent trends from 2022 to 20... This systematic review aims to comprehensively examine and compare deep learning methods for brain tumor segmentation and classification using MRI and other imaging modalities,focusing on recent trends from 2022 to 2025.The primary objective is to evaluate methodological advancements,model performance,dataset usage,and existing challenges in developing clinically robust AI systems.We included peer-reviewed journal articles and highimpact conference papers published between 2022 and 2025,written in English,that proposed or evaluated deep learning methods for brain tumor segmentation and/or classification.Excluded were non-open-access publications,books,and non-English articles.A structured search was conducted across Scopus,Google Scholar,Wiley,and Taylor&Francis,with the last search performed in August 2025.Risk of bias was not formally quantified but considered during full-text screening based on dataset diversity,validation methods,and availability of performance metrics.We used narrative synthesis and tabular benchmarking to compare performance metrics(e.g.,accuracy,Dice score)across model types(CNN,Transformer,Hybrid),imaging modalities,and datasets.A total of 49 studies were included(43 journal articles and 6 conference papers).These studies spanned over 9 public datasets(e.g.,BraTS,Figshare,REMBRANDT,MOLAB)and utilized a range of imaging modalities,predominantly MRI.Hybrid models,especially ResViT and UNetFormer,consistently achieved high performance,with classification accuracy exceeding 98%and segmentation Dice scores above 0.90 across multiple studies.Transformers and hybrid architectures showed increasing adoption post2023.Many studies lacked external validation and were evaluated only on a few benchmark datasets,raising concerns about generalizability and dataset bias.Few studies addressed clinical interpretability or uncertainty quantification.Despite promising results,particularly for hybrid deep learning models,widespread clinical adoption remains limited due to lack of validation,interpretability concerns,and real-world deployment barriers. 展开更多
关键词 Brain tumor segmentation brain tumor classification deep learning vision transformers hybrid models
在线阅读 下载PDF
Privacy-Preserving Gender-Based Customer Behavior Analytics in Retail Spaces Using Computer Vision
8
作者 Ginanjar Suwasono Adi Samsul Huda +4 位作者 Griffani Megiyanto Rahmatullah Dodit Suprianto Dinda Qurrota Aini Al-Sefy Ivon Sandya Sari Putri Lalu Tri Wijaya Nata Kusuma 《Computers, Materials & Continua》 2026年第1期1839-1861,共23页
In the competitive retail industry of the digital era,data-driven insights into gender-specific customer behavior are essential.They support the optimization of store performance,layout design,product placement,and ta... In the competitive retail industry of the digital era,data-driven insights into gender-specific customer behavior are essential.They support the optimization of store performance,layout design,product placement,and targeted marketing.However,existing computer vision solutions often rely on facial recognition to gather such insights,raising significant privacy and ethical concerns.To address these issues,this paper presents a privacypreserving customer analytics system through two key strategies.First,we deploy a deep learning framework using YOLOv9s,trained on the RCA-TVGender dataset.Cameras are positioned perpendicular to observation areas to reduce facial visibility while maintaining accurate gender classification.Second,we apply AES-128 encryption to customer position data,ensuring secure access and regulatory compliance.Our system achieved overall performance,with 81.5%mAP@50,77.7%precision,and 75.7%recall.Moreover,a 90-min observational study confirmed the system’s ability to generate privacy-protected heatmaps revealing distinct behavioral patterns between male and female customers.For instance,women spent more time in certain areas and showed interest in different products.These results confirm the system’s effectiveness in enabling personalized layout and marketing strategies without compromising privacy. 展开更多
关键词 Business intelligence customer behavior privacy-preserving analytics computer vision deep learning smart retail gender recognition heatmap privacy RCA-TVGender dataset
在线阅读 下载PDF
Targeting Wallerian degeneration in glaucoma
9
作者 Melissa Jöe Pete A.Williams 《Neural Regeneration Research》 2026年第2期693-694,共2页
Neurodegenerative diseases account for a large and increasing health and economic burden worldwide.With an increasingly aged population,this burden is set to increase.Optic neuropathies make up a large proportion of n... Neurodegenerative diseases account for a large and increasing health and economic burden worldwide.With an increasingly aged population,this burden is set to increase.Optic neuropathies make up a large proportion of neurodegenerative diseases with glaucoma being highly prevalent.Glaucoma is characterized by the progressive dysfunction and loss of retinal ganglion cells and their axons which make up the optic nerve.It is the leading cause of irreversible vision loss and affects an estimated 80 million people.The mammalian central nervous system is non-regenerative and,once lost or injured,retinal ganglion cells cannot regenerate an axon into the optic nerve under basal conditions.Thus,strategies that provide neuroprotection to stressed,dysfunctional,or dying retinal ganglion cells are likely to be of high therapeutic and translational value.Advancing age,genetics,and elevated intraocular pressure are all major risk factors for glaucoma,however,all clinically available glaucoma treatments focus on intraocular pressure management and do not directly address the neurodegenerative component of glaucoma. 展开更多
关键词 health burden neurodegenerative diseases aged population Wallerian degeneration GLAUCOMA vision loss economic burden retinal ganglion cells their axons
暂未订购
层级特征融合Transformer的图像分类算法
10
作者 段士玺 王博 《电子科技》 2026年第2期72-78,共7页
针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer,HICViT)。输入数据经过ViT提取模块生成多个不同层级... 针对传统ViT(Vision Transformer)模型难以完成图像多层级分类问题,文中提出了基于ViT的图像分类模型层级特征融合视觉Transformer(Hierarchical Feature Fusion Vision Transformer,HICViT)。输入数据经过ViT提取模块生成多个不同层级的特征图,每个特征图包含不同层次的抽象特征表示。基于层级标签将ViT提取的特征映射为多级特征,运用层级特征融合策略整合不同层级信息,有效增强模型的分类性能。在CIFRA-10、CIFRA-100和CUB-200-2011这3个数据集将所提模型与多种先进深度学习模型进行对比和分析。在CIFRA-10数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为99.70%、98.80%和97.80%。在CIFRA-100数据集,所提方法在第1层级、第2层级和第3层级的分类精度分别为95.23%、93.54%和90.12%。在CUB-200-2011数据集,所提方法在第1层级和第2层级的分类精度分别为98.09%和93.66%。结果表明,所提模型的分类准确率优于其他对比模型。 展开更多
关键词 深度学习 卷积神经网络 TRANSFORMER 图像分类 层级特征 特征融合 多头注意力 Vision Transformer
在线阅读 下载PDF
Damage and repair in retinal degenerative diseases:Molecular basis through clinical translation
11
作者 Ziting Zhang Junfeng Ma +3 位作者 Wahid Shah Xin Quan Tao Ding Yuan Gao 《Neural Regeneration Research》 2026年第4期1383-1395,共13页
Retinal ganglion cells are the bridging neurons between the eye and the central nervous system,transmitting visual signals to the brain.The injury and loss of retinal ganglion cells are the primary pathological change... Retinal ganglion cells are the bridging neurons between the eye and the central nervous system,transmitting visual signals to the brain.The injury and loss of retinal ganglion cells are the primary pathological changes in several retinal degenerative diseases,including glaucoma,ischemic optic neuropathy,diabetic neuropathy,and optic neuritis.In mammals,injured retinal ganglion cells lack regenerative capacity and undergo apoptotic cell death within a few days of injury.Additionally,these cells exhibit limited regenerative ability,ultimately contributing to vision impairment and potentially leading to blindness.Currently,the only effective clinical treatment for glaucoma is to prevent vision loss by lowering intraocular pressure through medications or surgery;however,this approach cannot halt the effect of retinal ganglion cell loss on visual function.This review comprehensively investigates the mechanisms underlying retinal ganglion cell degeneration in retinal degenerative diseases and further explores the current status and potential of cell replacement therapy for regenerating retinal ganglion cells.As our understanding of the complex processes involved in retinal ganglion cell degeneration deepens,we can explore new treatment strategies,such as cell transplantation,which may offer more effective ways to mitigate the effect of retinal degenerative diseases on vision. 展开更多
关键词 cell replacement therapy DEGENERATION GLAUCOMA optic nerve damage regenerative medicine retinal degenerative disease retinal diseases retinal ganglion cells stem cell therapy vision restoration
暂未订购
一种探地雷达与深度学习的隧道衬砌健康评价方法 被引量:1
12
作者 张广伟 《测绘通报》 北大核心 2025年第3期122-126,149,共6页
隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因... 隧道在其服役期内,受多种因素影响,隧道壁后会产生空洞、不密实等多种结构病害,影响服役性能,探地雷达(GPR)无损检测技术广泛应用于隧道质量检测领域,但由于雷达数据的解译工作较为复杂,数据量大,检测效率有待提高。近年来,深度学习因其出色的数据处理能力和信息提取能力而备受瞩目,提供了多种高效、可靠的病害分类模型。本文基于GPR图像,提出了一种多级病害分类方法用于评估隧道衬砌健康状况。首先,获取雷达图像数据,并进行人工解译,创建样本数据库,用于模型的输入和输出,以训练和测试深度学习模型;然后,针对数据库的小样本特点,利用Vision Transformer网络和改进后的Compact Convolutional Transformer对数据进行分类。结果显示,Vision Transformer算法可以实现基于雷达影像的隧道衬砌健康评价,相较于其他版本,具有更好的结果及较高的准确率。 展开更多
关键词 探地雷达 神经网络 Vision Transformer 隧道衬砌健康评价
原文传递
基于多尺度空间-光谱特征提取的颜料高光谱图像分类方法
13
作者 汤斌 罗希玲 +6 位作者 王建旭 范文奇 孙玉宇 刘家路 唐欢 赵雅 钟年丙 《光谱学与光谱分析》 北大核心 2025年第8期2364-2372,共9页
颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能... 颜料不仅赋予文物色彩和美感,更承载着丰富的历史、文化与技术信息,因此对颜料的准确分类与识别是古代彩绘作品修复、保护及学术研究的重要基础。通过检测颜料的种类与化学成分,不仅能帮助确定作品的创作年代、地域特征及工艺风格,还能为科学修复提供指导依据。然而,传统颜料分析受限于样品尺寸、表面平整度,且部分分析方法需要取样,对文物造成不可逆损伤,这使得古书画颜料的检测面临诸多挑战。高光谱成像技术(HSI)凭借其无损检测、广域扫描及获取完整光谱信息的优势,成为文物颜料分析的重要工具。HSI克服了样品表面不平整、尺寸受限等问题,能够从不同波段获取细致的光谱和空间信息,帮助提取颜料的微观特征。旨在利用HSI技术实现古书画颜料的精准分类与深度特征提取,以应对复杂场景下的颜料检测挑战。为此,我们提出了一种多尺度空间-光谱特征融合的方法,在分析过程中结合不同层次的信息:利用光谱-空间注意力机制捕捉细节特征,并通过视觉转换器(ViT)模型获取图像整体的高层语义信息,从而增强对复杂颜料特征的表示能力和分类性能。实验结果表明,该方法在模拟画作样品上的分类性能显著优于传统和其他深度学习模型:与支持向量机(SVM)相比,分类精度提升了34.35%;相较于HyBridSN与SSRN模型,精度分别提高了8.93%和5.6%。本方法不仅提升了颜料检测的准确性,还为古书画的科学修复和价值保护提供了无损、可靠的技术支持,并为文物保护的智能化发展奠定了技术基础。 展开更多
关键词 高光谱成像 多尺度特征融合 Vision Transformer 光谱-空间注意力 颜料分类
在线阅读 下载PDF
基于ViT网络模型自注意力机制的干扰类型分布式识别方法
14
作者 王珣 吴志强 刘明骞 《兵工学报》 北大核心 2025年第S1期356-368,共13页
针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融... 针对传统集中式大功率干扰在现代通信对抗中存在覆盖有限、易被定位等问题,提出一种基于空海一体化架构的分布式通信干扰信号识别方法。该方法通过构建空海协同电子对抗体系,由空中无人机采集干扰信号,海上信息处理中心进行多源信号融合与特征提取,并设计融合多微信号表征的多阶段Vision Transformer识别模型,实现干扰信号的自动识别与分类。实验结果表明:该方法能够有效提升干扰信号的识别精度与效率,为通信系统的抗干扰决策提供支持。研究结论显示,该方法能够有效提升分布式通信干扰信号的识别精度与效率,具备较强的鲁棒性和适应性,能够满足现代战场对快速识别干扰信号的需求,并为分布式通信干扰技术的工程化应用提供新的可行路径,为空海一体化电子对抗体系的构建奠定技术基础。 展开更多
关键词 分布式通信干扰 空海一体化 信号识别 Vision Transformer
在线阅读 下载PDF
基于改进Vision Transformer的水稻叶片病害图像识别
15
作者 朱周华 周怡纳 +1 位作者 侯智杰 田成源 《电子测量技术》 北大核心 2025年第10期153-160,共8页
水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文... 水稻叶片病害智能识别在现代农业生产中具有重要意义。针对传统Vision Transformer网络缺乏归纳偏置,难以有效捕捉图像局部细节特征的问题,提出了一种改进的Vision Transformer模型。该模型通过引入内在归纳偏置,增强了对多尺度上下文以及局部与全局依赖关系的建模能力,同时降低了对大规模数据集的需求。此外,Vision Transformer中的多层感知器模块被Kolmogorov-Arnold网络结构取代,从而提升了模型对复杂特征的提取能力和可解释性。实验结果表明,所提模型在水稻叶片病害识别任务中取得了优异的性能,识别准确率达到了98.62%,较原始ViT模型提升了6.2%,显著提高了对水稻叶片病害的识别性能。 展开更多
关键词 水稻叶片病害 图像识别 Vision Transformer网络 归纳偏置 局部特征
原文传递
关键区域鉴别联合多粒度知识蒸馏的细粒度图像分类
16
作者 余鹰 王景辉 +1 位作者 危伟 钱进 《小型微型计算机系统》 北大核心 2025年第8期1960-1967,共8页
近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上... 近年来,随着深度学习技术的飞速发展,研究人员开始尝试将Vision Transformer(ViT)应用于细粒度图像分类.然而,尽管ViT的多头自注意力机制赋予了模型强大的全局信息捕捉能力,但在关注局部微小且判别力强的区域上仍显不足,这在一定程度上限制了其在细粒度图像分类任务中的表现.为了解决这一问题,本文提出了一种高效且平滑地融合多层自注意力权重的方法,以深入挖掘图像的局部判别特征,从而弥补传统ViT模型在细节信息捕捉上的不足,增强模型对图像细微特征的敏感性.此外,本文构建了助理教师网络来指导学生网络学习多种粒度的特征信息,进一步提升其捕捉细微特征的能力.为了验证所提出模型的有效性,本文在多个基准数据集上进行了实验.结果表明,该模型显著优于传统ViT模型,展现了强大的局部特征捕捉能力和优异的分类性能. 展开更多
关键词 细粒度图像分类 自注意力机制 知识蒸馏 vision transformer 关键区域鉴别
在线阅读 下载PDF
Vision Transformer模型在中医舌诊图像分类中的应用研究
17
作者 周坚和 王彩雄 +3 位作者 李炜 周晓玲 张丹璇 吴玉峰 《广西科技大学学报》 2025年第5期89-98,共10页
舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于... 舌诊作为中医望诊中的一项重要且常规的检查手段,在中医临床诊断中发挥着不可或缺的作用。为突破传统舌诊依赖主观经验及卷积神经网络(convolutional neural network,CNN)模型分类性能不足的局限,本文基于高质量舌象分类数据集,提出基于Vision Transformer(ViT)深度学习模型,通过预训练与微调策略优化特征提取能力,并结合数据增强技术解决类别分布不平衡问题。实验结果表明,该模型在6项关键舌象特征分类任务中,5项指标的准确率(苔色85.6%、瘀斑98.0%、质地99.6%、舌色96.6%、裂纹87.8%)显著优于现有CNN方法(如ResNet50对应准确率分别为78.0%、91.0%、92.0%、68.0%、80.1%),验证了该模型在突破传统性能瓶颈、提升中医临床智能诊断可靠性方面的有效性和应用潜力。 展开更多
关键词 舌诊 Vision Transformer(ViT) 深度学习 医学图像分类
在线阅读 下载PDF
基于轻量级卷积神经网络的雷达辐射源识别方法
18
作者 张忠民 姜嵛涵 《应用科技》 2025年第1期166-172,共7页
在雷达辐射源信号识别中,针对现有的识别方法存在实时性差、网络模型参数量大以及难以应用于资源受限的设备等问题,提出了一种基于轻量级卷积神经网络的雷达辐射源信号识别方法。首先,利用平滑伪Wigner-Ville分布(smooth pseudo Wigner-... 在雷达辐射源信号识别中,针对现有的识别方法存在实时性差、网络模型参数量大以及难以应用于资源受限的设备等问题,提出了一种基于轻量级卷积神经网络的雷达辐射源信号识别方法。首先,利用平滑伪Wigner-Ville分布(smooth pseudo Wigner-Ville distribution,SPWVD)将雷达辐射源信号转换为时频图像,并对时频图像进行图像预处理;其次,基于Vision Transformer的架构设计,结合传统的卷积神经网络,构建了轻量级网络模型RecNet;最后,利用预处理后的时频图像对RecNet网络模型进行训练,实现对9种雷达辐射源信号的高效识别。实验表明,该方法在信噪比为−8 dB时,对9种雷达辐射源信号的识别准确率达到95.7%,模型参数量为0.9×10^(6)且推理延迟仅为4.67 ms,在保证较高识别准确率的同时,具有更快的识别速度和更小的模型参数量,具有一定的工程应用价值。 展开更多
关键词 轻量级 卷积神经网络 雷达辐射源识别 时频分析 图像处理 Vision Transformer 高效识别 深度学习
在线阅读 下载PDF
基于ViT语义指导与结构感知增强的艺术风格迁移 被引量:1
19
作者 潘书煜 赵征鹏 +3 位作者 阳秋霞 普园媛 谷金晶 徐丹 《计算机学报》 北大核心 2025年第9期2131-2158,共28页
艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地... 艺术风格迁移是计算机视觉领域一个长期的研究热点,该任务旨在将参考风格图像的艺术风格迁移到内容图像中,同时保持内容图像的语义结构不变。目前基于深度学习的艺术风格迁移方法依然面临一项主要挑战:现有方法在迁移过程中无法很好地保持内容域到风格域的语义结构跨域一致性,从而导致风格化结果的内容保真度低、风格化不一致。针对以上问题,本文提出了一种基于ViT(Vision Transformer)语义指导与结构感知增强的艺术风格迁移方法。首先,利用预训练的DINO-ViT模型在内容域和风格域建立强大且一致的内容结构表示,并设计了两种损失函数:(1)DINO keys自相似性的语义结构损失,以保持内容源的跨域一致性;(2)DINO特征空间的知识蒸馏损失,以提升编码器的特征提取能力。其次,为进一步增强模型的结构感知能力,提出了基于拉普拉斯算子的空间结构损失和基于小波变换的频域纹理损失,从空间域和频率域两方面增强了对边缘轮廓与细致纹理的约束。在通用数据集MS COCO和WikiArt上的定性与定量结果表明,本文方法不仅可以产生内容保真度高、风格化一致的结果,还能推广应用于现有方法以进一步改善生成结果的视觉质量。其中,与基线方法CAP-VST相比,本文方法的SSIM值提升0.079,CLIP-IQA值提升0.024,LPIPS值小0.096,Content Loss值小1.035;将本文方法应用于其他现有方法后,SSIM值最优提升0.135,CLIP-IQA值最优提升0.011,LPIPS值最优小0.108,Content Loss值最优小1.244,证明了本文方法在艺术风格迁移任务中的有效性与灵活性。 展开更多
关键词 艺术风格迁移 Vision Transformer 知识蒸馏 结构感知 拉普拉斯算子 小波变换
在线阅读 下载PDF
视觉Transformer(ViT)发展综述 被引量:13
20
作者 李玉洁 马子航 +2 位作者 王艺甫 王星河 谭本英 《计算机科学》 北大核心 2025年第1期194-209,共16页
视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对... 视觉Transformer(Vision Transformer,ViT)是基于编码器-解码器结构的Transformer改进模型,已经被成功应用于计算机视觉领域。近几年基于ViT的研究层出不穷且效果显著,基于该模型的工作已经成为计算机视觉任务的重要研究方向,因此针对近年来ViT的发展进行概述。首先,简要回顾了ViT的基本原理及迁移过程,并分析了ViT模型的结构特点和优势;然后,根据各ViT变体模型的改进特点,归纳和梳理了基于ViT的主要骨干网络变体改进方向及其代表性改进模型,包括局部性改进、结构改进、自监督、轻量化及效率改进等改进方向,并对其进行分析比较;最后,讨论了当前ViT及其改进模型仍存在的不足,对ViT未来的研究方向进行了展望。可以作为研究人员进行基于ViT骨干网络的研究时选择深度学习相关方法的一个权衡和参考。 展开更多
关键词 计算机视觉 模式识别 Vision Transformer(ViT) 深度学习 自注意力
在线阅读 下载PDF
上一页 1 2 113 下一页 到第
使用帮助 返回顶部