期刊文献+
共找到241篇文章
< 1 2 13 >
每页显示 20 50 100
DeepSeek-R1是怎样炼成的? 被引量:61
1
作者 张慧敏 《深圳大学学报(理工版)》 北大核心 2025年第2期226-232,共7页
简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专... 简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专家策略,实现计算资源的高效利用;MoE模型架构中的稀疏激活机制和无损负载均衡策略显著提高了模型训练的效率和性能;多头潜在注意力(multi-head latent attention,MLA)机制通过减少内存使用和加速推理过程,降低了模型训练和推理成本;通过引入多token预测(multi-token prediction,MTP)和8位浮点数(floating point 8-bit,FP8)混合精度训练技术,提升了模型的上下文理解能力和训练效率;采用优化并行线程执行(parallel thread execution,PTX)代码显著提高了图形处理器(graphics processing unit,GPU)的计算效率;所提群体相对策略优化(group relative policy optimization,GRPO)对DeepSeek-R1-Zero模型进行纯强化学习训练,跳过了传统的监督微调和人类反馈阶段,显著提升了模型的推理能力.总体而言,DeepSeek系列模型通过多项创新,在人工智能领域取得了显著优势,树立了行业新标杆. 展开更多
关键词 人工智能 DeepSeek 大语言模型 混合专家模型 多头潜在注意力机制 多token预测 混合精度训练 群体相对策略优化
在线阅读 下载PDF
抑制非目标干扰的单流纯Transformer跟踪算法
2
作者 顾龙雨 张伟 高赟 《计算机应用》 北大核心 2025年第S1期60-66,共7页
针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似... 针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似token包含目标信息时,合并操作将保留目标信息,当高相似token包含混乱背景或相似目标干扰信息时,合并操作将降低这些干扰信息的注意力权重;其次,将该模块添加到单流纯Transformer骨干网络中,以抑制干扰多头注意力的计算结果;最后,将抑制干扰后的特征送进跟踪头,从而完成对目标的跟踪。在5个基准数据集上的测试结果表明:与OSTrack(One Stream Tracking)算法相比,在GOT-10k基准数据集AO指标提升1.1个百分点,在NFS、UAV123、TNL2K基准数据集AUC指标分别提升1.6、1.0、1.1个百分点,同时所提算法的跟踪推理速度即每秒帧数(FPS)可达166,证明所提算法成功抑制了非目标的干扰,提升了单流纯Transformer跟踪算法的鲁棒性并且能够保证跟踪的实时性。 展开更多
关键词 目标跟踪 视觉Transformer 干扰抑制 逐层合并的高相似token 多头注意力
在线阅读 下载PDF
应用动态Token的融合特征的持续图像字幕生成 被引量:1
3
作者 晋嘉利 余璐 《计算机工程与应用》 北大核心 2025年第4期176-191,共16页
基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑... 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。 展开更多
关键词 图像字幕生成 持续学习 TRANSFORMER 融合特征 动态Token 正则化
在线阅读 下载PDF
基于情感引导-扩散模型的藏族音乐生成网络
4
作者 宋子牛 彭春燕 +1 位作者 王龙辉 郑钰辉 《计算机应用研究》 北大核心 2025年第8期2283-2289,共7页
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基... 人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。 展开更多
关键词 藏族音乐生成 扩散模型 情感引导 token drop self-conditioning
在线阅读 下载PDF
融合IPFS+区块链技术的执法办案数据访问控制方案 被引量:1
5
作者 刘卓娴 《智能计算机与应用》 2025年第1期103-109,共7页
针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;... 针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;激励层使用Token和智能合约奖惩机制,提升了公安传送档案的准确性。应用结果表明,该方案可以保证档案内容的保密性及不可篡改性,对于防止徇私枉法、档案泄露具有重大意义。 展开更多
关键词 执法办案数据 区块链 Token机制 共识机制 访问控制
在线阅读 下载PDF
TSCS: A blockchain-based tokenized subtitling crowdsourcing system
6
作者 Huijian Han Peidong Chen +2 位作者 Feng Yang Brekhna Brekhna Rui Zhang 《Blockchain(Research and Applications)》 EI 2023年第2期146-162,共17页
The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easie... The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easiest way to solve this problem is to add subtitles in the language of the viewer.However,the current subtitling system lacks incentives,the ability to build a secure transaction environment,and a trusting relationship between video creators and subtitling makers.In response to the above situation,a tokenized subtitling crowdsourcing system(TSCS)based on blockchain and smart contract technologies is proposed.The source files for the subtitles are stored on the inter-planetary file system(IPFS)in the proposed system.Based on the ERC-721 standard,the returned corresponding address and subtitling-related information are made into a non-fungible token(NFT).At the same time,depending on the expected revenue from video view counts,the video token(VT),based on the ERC-777 standard and endorsed by the video platform,will be used as the payment token.The TSCS has two payment strategies:one-time and dividend.Through such a settlement mechanism,the subtitling maker’s revenue is also guaranteed by the code invariance and rule certainty of smart contract deployment.On the other hand,introducing an incentive mechanism for viewers to audit subtitles enables community autonomy,thus increasing the applicability of subtitles and the activity of users. 展开更多
关键词 Blockchain Smart contract Social media Subtitling system tokenized
原文传递
Profit-driven distributed trading mechanism for IoT data
7
作者 Chang Liu Zhili Wang +2 位作者 Qun Zhang Shaoyong Guo Xuesong Qiu 《Digital Communications and Networks》 2025年第4期1066-1078,共13页
Data trading is a crucial means of unlocking the value of Internet of Things(IoT)data.However,IoT data differs from traditional material goods due to its intangible and replicable nature.This difference leads to ambig... Data trading is a crucial means of unlocking the value of Internet of Things(IoT)data.However,IoT data differs from traditional material goods due to its intangible and replicable nature.This difference leads to ambiguous data rights,confusing pricing,and challenges in matching.Additionally,centralized IoT data trading platforms pose risks such as privacy leakage.To address these issues,we propose a profit-driven distributed trading mechanism for IoT data.First,a blockchain-based trading architecture for IoT data,leveraging the transparent and tamper-proof features of blockchain technology,is proposed to establish trust between data owners and data requesters.Second,an IoT data registration method that encompasses both rights confirmation and pricing is designed.The data right confirmation method uses non-fungible token to record ownership and authenticate IoT data.For pricing,we develop an IoT data value assessment index system and introduce a pricing model based on a combination of the sparrow search algorithm and the back propagation neural network.Finally,an IoT data matching method is designed based on the Stackelberg game.This establishes a Stackelberg game model involving multiple data owners and requesters,employing a hierarchical optimization method to determine the optimal purchase strategy.The security of the mechanism is analyzed and the performance of both the pricing method and matching method is evaluated.Experiments demonstrate that both methods outperform traditional approaches in terms of error rates and profit maximization. 展开更多
关键词 Data trading Blockchain Non-fungible token Data pricing Stackelberg game
在线阅读 下载PDF
Detection using mask adaptive transformers in unmanned aerial vehicle imagery
8
作者 YE Huibiao FAN Weiming +2 位作者 GUO Yuping WANG Xuna ZHOU Dalin 《Optoelectronics Letters》 2025年第2期113-120,共8页
Drone photography is an essential building block of intelligent transportation,enabling wide-ranging monitoring,precise positioning,and rapid transmission.However,the high computational cost of transformer-based metho... Drone photography is an essential building block of intelligent transportation,enabling wide-ranging monitoring,precise positioning,and rapid transmission.However,the high computational cost of transformer-based methods in object detection tasks hinders real-time result transmission in drone target detection applications.Therefore,we propose mask adaptive transformer (MAT) tailored for such scenarios.Specifically,we introduce a structure that supports collaborative token sparsification in support windows,enhancing fault tolerance and reducing computational overhead.This structure comprises two modules:a binary mask strategy and adaptive window self-attention (A-WSA).The binary mask strategy focuses on significant objects in various complex scenes.The A-WSA mechanism is employed to self-attend for balance perfomance and computational cost to select objects and isolate all contextual leakage.Extensive experiments on the challenging CarPK and VisDrone datasets demonstrate the effectiveness and superiority of the proposed method.Specifically,it achieves a mean average precision (mAP@0.5) improvement of 1.25%over car detector based on you only look once version 5 (CD-YOLOv5) on the CarPK dataset and a 3.75%average precision(AP@0.5) improvement over cascaded zoom-in detector (CZ Det) on the VisDrone dataset. 展开更多
关键词 TOKEN MASK IMAGERY
原文传递
Creating non-fungible token(NFT)-backed emoji art from user conversations on blockchain
9
作者 Maedeh Mosharraf Mohammad Hossein Khorrami 《Data Science and Management》 2025年第1期40-47,共8页
In the metaverse,digital assets are essential to define identity,shape the virtual environment,and facilitate economic transactions.This study introduces a novel feature to the metaverse by capturing a fundamental asp... In the metaverse,digital assets are essential to define identity,shape the virtual environment,and facilitate economic transactions.This study introduces a novel feature to the metaverse by capturing a fundamental aspect of individuals–their conversations–and transforming them into digital assets.It utilizes natural language processing and machine learning methods to extract key sentences from user conversations and match them with emojis that reflect their sentiments.The selected sentence,which encapsulates the essence of the user’s statements,is then transformed into digital art through a generative visual model.This digital artwork is transformed into a non-fungible token,becoming a valuable digital asset within the blockchain ecosystem that is ideal for integration into metaverse applications.Our aim is to manage personality traits as digital assets to foster individual uniqueness,enrich user experiences,and facilitate more personalized services and interactions with both like-minded users and non-player characters,thereby enhancing the overall user journey. 展开更多
关键词 Chat analysis Persian language Non-fungible token(NFT) Metaverse Digital asset Emoji matching
在线阅读 下载PDF
AI重塑IT基础架构的思考与探索
10
作者 梁泉 陈洋 +1 位作者 王荣 董林强 《通信企业管理》 2025年第9期70-75,共6页
当前人工智能(AI)技术正从辅助工具转向核心生产力,电信行业进入AI原生实践的关键转折期。2023年至2024年间电信行业生成式AI解决方案的商用部署激增4倍,大模型日均Token调用量增长近10倍。这一爆发式增长既源于对技术信任程度的提升,... 当前人工智能(AI)技术正从辅助工具转向核心生产力,电信行业进入AI原生实践的关键转折期。2023年至2024年间电信行业生成式AI解决方案的商用部署激增4倍,大模型日均Token调用量增长近10倍。这一爆发式增长既源于对技术信任程度的提升,更源于运营商面临的三重战略压力,即用户体验升级需求、收入多元化探索需求、网络价值重构需求。 展开更多
关键词 商用部署 大模型 Token调用量 生成式AI 电信行业
原文传递
AI通识教育走进西安中小学
11
《格言(校园版)》 2025年第32期5-5,共1页
通过“Token接龙游戏”理解大语言模型奥秘,在与AI对话中感受科技魅力,在情境体验中触摸未来脉搏……从人机对话到算法解密,从智能助教到创意编程,在西安市部分中小学,人工智能通识课已成为最受学生欢迎的课程。
关键词 Token接龙游戏 AI通识教育 中小学
在线阅读 下载PDF
Web API接口幂等性的设计与应用 被引量:1
12
作者 罗乐霞 《计算机应用文摘》 2024年第23期91-93,96,共4页
在分布式系统和微服务架构日益普及的今天,Web API接口的安全性、稳定性和可靠性成为系统设计的重要考量因素。作为接口设计中的一个关键特性,幂等性对于防止重复请求、保障数据一致性等具有重要意义。文章旨在探讨Web API接口幂等性的... 在分布式系统和微服务架构日益普及的今天,Web API接口的安全性、稳定性和可靠性成为系统设计的重要考量因素。作为接口设计中的一个关键特性,幂等性对于防止重复请求、保障数据一致性等具有重要意义。文章旨在探讨Web API接口幂等性的基本概念及应用场景,分析实现过程中的设计要点并通过具体案例详细说明设计过程。 展开更多
关键词 接口幂等性 RESTFul API TOKEN
在线阅读 下载PDF
农业气象实况表的设计与自动化实现
13
作者 郑文全 彭雲 何希望 《智能计算机与应用》 2024年第11期103-107,共5页
利用Excel强大的数据处理和编程功能,设计出达州市农业气象实况表。该表利用VBA进行Http远程登录、查询,完成实时气象要素的更新,并使用公式、条件格式、图表等可视化呈现农业气象指标,实现了即开即得,避免了人为失误,提高了工作效率。
关键词 VBA Http POST TOKEN 正则表达式 条件格式
在线阅读 下载PDF
局部加全局视角遮挡人脸表情识别方法 被引量:3
14
作者 南亚会 华庆一 《计算机工程与应用》 CSCD 北大核心 2024年第13期180-189,共10页
实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过... 实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过自适应计算局部特征的注意力权重来感知被遮挡的区域,提取表情局部特征。同时,表情特征图转换成Patch块,通过Patch级和Token级注意力池化的视觉Transformer,从全局角度捕获Patch块之间的相互作用和相关性。引导模型强调最具区别性的特征,而忽略遮挡减少不相关特征的影响。在三个表情数据集及其遮挡子集和一个遮挡数据集上进行实验,结果表明所提模型在遮挡表情识别上优于现有方法。 展开更多
关键词 遮挡人脸表情识别 滑块局部卷积注意力 Patch注意力池化 Token注意力池化 vision Transformer
在线阅读 下载PDF
基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割算法 被引量:1
15
作者 姚宗亮 黄荣 +2 位作者 董爱华 韩芳 王青云 《宁夏大学学报(自然科学版)》 CAS 2024年第1期16-24,共9页
脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性... 脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性和差异性,并且模型中的Transformer在捕获远程依赖性的同时,忽略了其较大的计算复杂性、冗余依赖性等问题.针对此问题,提出一种基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割方法(MF-MAPT Swin UNETR),其中多模态融合模块可以充分学习性质相近的模态间信息和不同模态不同尺度的特征变化,为后续分割提供了充分的准备;基于多模态的自适应剪枝Transformer可以降低计算复杂度,对提升性能有一定的帮助,将MF-MAPT Swin UNETR模型在两个公共数据集上进行了实验验证,结果表明,该模型较最先进的方法整体具有突出的分割性能. 展开更多
关键词 脑肿瘤分割 TRANSFORMER 模态交叉连接 多尺度特征融合 token融合 自适应剪枝
在线阅读 下载PDF
基于金字塔语义token全局信息增强的高分光学遥感影像变化检测 被引量:2
16
作者 彭代锋 翟晨晨 +3 位作者 周顶蔚 张永军 管海燕 臧玉府 《测绘学报》 EI CSCD 北大核心 2024年第6期1195-1211,共17页
针对复杂背景、光谱变化等因素导致高分辨率遥感影像中细小地物检测缺失,几何结构检测不完整等问题,本文联合卷积网络和Transformer网络优势,提出一种基于金字塔语义token全局信息增强的变化检测网络(PST-GIENet)。首先,利用无最大池化... 针对复杂背景、光谱变化等因素导致高分辨率遥感影像中细小地物检测缺失,几何结构检测不完整等问题,本文联合卷积网络和Transformer网络优势,提出一种基于金字塔语义token全局信息增强的变化检测网络(PST-GIENet)。首先,利用无最大池化层的ResNet18网络提取多时相影像深度特征以构建融合特征,并采用联合注意力机制和深监督策略提高融合特征表达能力;然后,通过空间金字塔池化将影像特征表示为多尺度语义token,进而利用Transformer编码器和解码器对融合特征空间进行全局上下文建模;最后,通过逐层上采样解码器生成最终变化图。为验证本文方法有效性,采用LEVIR-CD、CDD和WHU-CD 3个公开变化检测数据集进行对比试验与分析,定量结果表明PST-GIENet在3个数据集中均取得最优精度指标,其F 1值分别达到91.71%、96.16%和94.08%。目视结果表明PST-GIENet可有效抑制复杂背景、光谱变化等因素干扰,显著增强网络对地物边缘结构和多尺度变化的捕捉能力,取得最佳目视效果。 展开更多
关键词 高分辨率遥感影像 变化检测 金字塔语义token 全局依赖性 注意力机制
在线阅读 下载PDF
从ChatGPT到Sora发展中的术语问题 被引量:14
17
作者 冯志伟 《中国科技术语》 2024年第2期88-92,共5页
在从ChatGPT到Sora的发展过程中,出现了不少新术语。这些术语,有的被翻译为中文,有的一直使用英文原文。文章在分析这些新术语的相关技术、概念的基础上,探讨如何为其翻译或者赋予适当的中文名称。并指出大量科技新术语不能够及时、高... 在从ChatGPT到Sora的发展过程中,出现了不少新术语。这些术语,有的被翻译为中文,有的一直使用英文原文。文章在分析这些新术语的相关技术、概念的基础上,探讨如何为其翻译或者赋予适当的中文名称。并指出大量科技新术语不能够及时、高效地被本土化,这对我国的术语规范化工作提出了新的挑战,期望学界共同关注这一问题。 展开更多
关键词 人工智能 ChatGPT SORA TRANSFORMER TOKEN scaling law
在线阅读 下载PDF
中文电子病历数据元抽取方法 被引量:1
18
作者 郭维嘉 郭少友 《医学信息学杂志》 CAS 2024年第8期78-83,共6页
目的/意义提出基于国家标准的电子病历数据元抽取方法,以实现电子病历数据的细粒度共享。方法/过程利用ALBERT、BiLSTM和CRF模型对电子病历进行序列标注,并根据标注结果生成一组候选数据元;针对每个候选数据元,采集其上下文信息并形成... 目的/意义提出基于国家标准的电子病历数据元抽取方法,以实现电子病历数据的细粒度共享。方法/过程利用ALBERT、BiLSTM和CRF模型对电子病历进行序列标注,并根据标注结果生成一组候选数据元;针对每个候选数据元,采集其上下文信息并形成一个增强的键向量;计算该向量与标准向量之间的相似度,据此判断候选数据元是否有效。结果/结论该方法F 1值为90.32%,效果较好。 展开更多
关键词 电子病历 数据元 ALBERT 序列标注 token向量
暂未订购
基于改进Vision Transformer的蝴蝶品种分类
19
作者 许翔 蒲智 +1 位作者 鲁文蕊 王亚波 《电脑知识与技术》 2024年第16期1-5,共5页
蝴蝶作为一种品类繁多且相似度极高的生物,具有重要的生态环境感知功能。不同品类蝴蝶对环境变化的敏感程度各不相同,因此在农学与生物学研究方向上对蝴蝶的研究具有十分重要的意义。近年来,计算机视觉技术的飞速发展为快速识别蝴蝶品... 蝴蝶作为一种品类繁多且相似度极高的生物,具有重要的生态环境感知功能。不同品类蝴蝶对环境变化的敏感程度各不相同,因此在农学与生物学研究方向上对蝴蝶的研究具有十分重要的意义。近年来,计算机视觉技术的飞速发展为快速识别蝴蝶品类提供了强有力的技术支持。然而,传统的Vision Transformer模型存在着一些问题,例如缺乏卷积所具有的归纳偏置、局部信息提取能力不足、容易过拟合以及在小数据集上训练缓慢等。针对这些问题,提出了一种基于Vision Transformer改进的蝴蝶分类算法。引入VanillaNet卷积结构,并通过全局注意力机制改进了Class token的更新方式。实验结果显示,在100类蝴蝶数据集上,改进后的Vision Transformer模型的Top-1准确率达到了94.87%,比改进前提升了28.9%。在使用改进的Class token后,算法的Top-1准确率进一步提升至96.64%,相比改进前提升了30.44%。与原网络模型相比,改进后的模型更适用于蝴蝶品种分类任务。 展开更多
关键词 蝴蝶分类 Vision Transformer 卷积 Class token VanillaNet 注意力机制
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部