期刊文献+
共找到241篇文章
< 1 2 13 >
每页显示 20 50 100
DeepSeek-R1是怎样炼成的? 被引量:67
1
作者 张慧敏 《深圳大学学报(理工版)》 北大核心 2025年第2期226-232,共7页
简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专... 简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专家策略,实现计算资源的高效利用;MoE模型架构中的稀疏激活机制和无损负载均衡策略显著提高了模型训练的效率和性能;多头潜在注意力(multi-head latent attention,MLA)机制通过减少内存使用和加速推理过程,降低了模型训练和推理成本;通过引入多token预测(multi-token prediction,MTP)和8位浮点数(floating point 8-bit,FP8)混合精度训练技术,提升了模型的上下文理解能力和训练效率;采用优化并行线程执行(parallel thread execution,PTX)代码显著提高了图形处理器(graphics processing unit,GPU)的计算效率;所提群体相对策略优化(group relative policy optimization,GRPO)对DeepSeek-R1-Zero模型进行纯强化学习训练,跳过了传统的监督微调和人类反馈阶段,显著提升了模型的推理能力.总体而言,DeepSeek系列模型通过多项创新,在人工智能领域取得了显著优势,树立了行业新标杆. 展开更多
关键词 人工智能 DeepSeek 大语言模型 混合专家模型 多头潜在注意力机制 多token预测 混合精度训练 群体相对策略优化
在线阅读 下载PDF
抑制非目标干扰的单流纯Transformer跟踪算法
2
作者 顾龙雨 张伟 高赟 《计算机应用》 北大核心 2025年第S1期60-66,共7页
针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似... 针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似token包含目标信息时,合并操作将保留目标信息,当高相似token包含混乱背景或相似目标干扰信息时,合并操作将降低这些干扰信息的注意力权重;其次,将该模块添加到单流纯Transformer骨干网络中,以抑制干扰多头注意力的计算结果;最后,将抑制干扰后的特征送进跟踪头,从而完成对目标的跟踪。在5个基准数据集上的测试结果表明:与OSTrack(One Stream Tracking)算法相比,在GOT-10k基准数据集AO指标提升1.1个百分点,在NFS、UAV123、TNL2K基准数据集AUC指标分别提升1.6、1.0、1.1个百分点,同时所提算法的跟踪推理速度即每秒帧数(FPS)可达166,证明所提算法成功抑制了非目标的干扰,提升了单流纯Transformer跟踪算法的鲁棒性并且能够保证跟踪的实时性。 展开更多
关键词 目标跟踪 视觉Transformer 干扰抑制 逐层合并的高相似token 多头注意力
在线阅读 下载PDF
应用动态Token的融合特征的持续图像字幕生成 被引量:1
3
作者 晋嘉利 余璐 《计算机工程与应用》 北大核心 2025年第4期176-191,共16页
基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑... 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。 展开更多
关键词 图像字幕生成 持续学习 TRANSFORMER 融合特征 动态Token 正则化
在线阅读 下载PDF
基于情感引导-扩散模型的藏族音乐生成网络
4
作者 宋子牛 彭春燕 +1 位作者 王龙辉 郑钰辉 《计算机应用研究》 北大核心 2025年第8期2283-2289,共7页
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基... 人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。 展开更多
关键词 藏族音乐生成 扩散模型 情感引导 token drop self-conditioning
在线阅读 下载PDF
自然语言处理技术下文本信息语义抽取方法
5
作者 李小松 《现代电子技术》 北大核心 2025年第23期176-180,共5页
在多任务变换和扩充下,对文本信息理解和分析能力要求较高,存在复杂文本结构可扩展性差、标注数据稀缺的问题,对此,文中提出自然语言处理技术下文本信息语义抽取方法。对原始文本进行严格的清洗与净化、实体位置定位、实体邻近词截取、... 在多任务变换和扩充下,对文本信息理解和分析能力要求较高,存在复杂文本结构可扩展性差、标注数据稀缺的问题,对此,文中提出自然语言处理技术下文本信息语义抽取方法。对原始文本进行严格的清洗与净化、实体位置定位、实体邻近词截取、序列长度标准化、Token(分词)化以及特殊标记添加等预处理后,利用BERT模型的多层双向Transformer结构映射为语义词向量序列,有效提取和表示文本中的语义信息和实体关系,扩展复杂文本结构。采用BiGRU(双向门控循环单元)模型对BERT输出的向量序列进行处理后,引入多头注意力机制,并行计算多个注意力权重集合,捕捉句子内部词与词之间的复杂依赖关系,通过Softmax分类器对多头注意力机制的输出进行分类,反复标注实体之间的关系类型,实现下文本信息的语义抽取。实现结果表明:经文中方法处理后的文本数据质量显著提升,对于文本信息的语义抽取F1高达0.99;且更细致地刻画了输入与输出之间的多种相关性,从而有效捕捉句子内部词与词之间的复杂依赖关系,文本信息语义抽取效果较优。 展开更多
关键词 NLP 文本信息 Token化 BERT模型 向量表示 BiGRU模型 多头注意力机制 语义抽取
在线阅读 下载PDF
融合IPFS+区块链技术的执法办案数据访问控制方案 被引量:1
6
作者 刘卓娴 《智能计算机与应用》 2025年第1期103-109,共7页
针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;... 针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;激励层使用Token和智能合约奖惩机制,提升了公安传送档案的准确性。应用结果表明,该方案可以保证档案内容的保密性及不可篡改性,对于防止徇私枉法、档案泄露具有重大意义。 展开更多
关键词 执法办案数据 区块链 Token机制 共识机制 访问控制
在线阅读 下载PDF
TSCS: A blockchain-based tokenized subtitling crowdsourcing system
7
作者 Huijian Han Peidong Chen +2 位作者 Feng Yang Brekhna Brekhna Rui Zhang 《Blockchain(Research and Applications)》 EI 2023年第2期146-162,共17页
The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easie... The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easiest way to solve this problem is to add subtitles in the language of the viewer.However,the current subtitling system lacks incentives,the ability to build a secure transaction environment,and a trusting relationship between video creators and subtitling makers.In response to the above situation,a tokenized subtitling crowdsourcing system(TSCS)based on blockchain and smart contract technologies is proposed.The source files for the subtitles are stored on the inter-planetary file system(IPFS)in the proposed system.Based on the ERC-721 standard,the returned corresponding address and subtitling-related information are made into a non-fungible token(NFT).At the same time,depending on the expected revenue from video view counts,the video token(VT),based on the ERC-777 standard and endorsed by the video platform,will be used as the payment token.The TSCS has two payment strategies:one-time and dividend.Through such a settlement mechanism,the subtitling maker’s revenue is also guaranteed by the code invariance and rule certainty of smart contract deployment.On the other hand,introducing an incentive mechanism for viewers to audit subtitles enables community autonomy,thus increasing the applicability of subtitles and the activity of users. 展开更多
关键词 Blockchain Smart contract Social media Subtitling system tokenized
原文传递
基于OpenResty的在线地理信息服务访问控制研究
8
作者 肖志华 《测绘与空间地理信息》 2025年第11期108-111,共4页
针对目前“天地图·福建”因非正常访问造成计算资源和带宽被占用,导致在线地理信息服务能力下降的问题,本文提出了一种基于Token的服务访问控制的方法,并在OpenResty环境下利用Lua脚本语言扩展开发,将现有的负载均衡子系统升级为... 针对目前“天地图·福建”因非正常访问造成计算资源和带宽被占用,导致在线地理信息服务能力下降的问题,本文提出了一种基于Token的服务访问控制的方法,并在OpenResty环境下利用Lua脚本语言扩展开发,将现有的负载均衡子系统升级为安全网关,实现在线地理信息服务的访问权限的验证;扩展门户网站,增加应用管理模块,用于应用许可的申请和管理,最终实现对应用许可的申请、分发、权限验证整个控制闭环。同时,为尽量减少权限验证对服务性能的影响,利用Redis内存数据库缓存权限信息,提高访问权限的验证速度。经验证,95%的请求响应时间仅增加1 ms,4%的请求响应时间增加在13 ms以内,该结果能够很好地满足“天地图·福建”的应用需求。 展开更多
关键词 访问控制 TOKEN OpenResty LUA
在线阅读 下载PDF
Profit-driven distributed trading mechanism for IoT data
9
作者 Chang Liu Zhili Wang +2 位作者 Qun Zhang Shaoyong Guo Xuesong Qiu 《Digital Communications and Networks》 2025年第4期1066-1078,共13页
Data trading is a crucial means of unlocking the value of Internet of Things(IoT)data.However,IoT data differs from traditional material goods due to its intangible and replicable nature.This difference leads to ambig... Data trading is a crucial means of unlocking the value of Internet of Things(IoT)data.However,IoT data differs from traditional material goods due to its intangible and replicable nature.This difference leads to ambiguous data rights,confusing pricing,and challenges in matching.Additionally,centralized IoT data trading platforms pose risks such as privacy leakage.To address these issues,we propose a profit-driven distributed trading mechanism for IoT data.First,a blockchain-based trading architecture for IoT data,leveraging the transparent and tamper-proof features of blockchain technology,is proposed to establish trust between data owners and data requesters.Second,an IoT data registration method that encompasses both rights confirmation and pricing is designed.The data right confirmation method uses non-fungible token to record ownership and authenticate IoT data.For pricing,we develop an IoT data value assessment index system and introduce a pricing model based on a combination of the sparrow search algorithm and the back propagation neural network.Finally,an IoT data matching method is designed based on the Stackelberg game.This establishes a Stackelberg game model involving multiple data owners and requesters,employing a hierarchical optimization method to determine the optimal purchase strategy.The security of the mechanism is analyzed and the performance of both the pricing method and matching method is evaluated.Experiments demonstrate that both methods outperform traditional approaches in terms of error rates and profit maximization. 展开更多
关键词 Data trading Blockchain Non-fungible token Data pricing Stackelberg game
在线阅读 下载PDF
Detection using mask adaptive transformers in unmanned aerial vehicle imagery
10
作者 YE Huibiao FAN Weiming +2 位作者 GUO Yuping WANG Xuna ZHOU Dalin 《Optoelectronics Letters》 2025年第2期113-120,共8页
Drone photography is an essential building block of intelligent transportation,enabling wide-ranging monitoring,precise positioning,and rapid transmission.However,the high computational cost of transformer-based metho... Drone photography is an essential building block of intelligent transportation,enabling wide-ranging monitoring,precise positioning,and rapid transmission.However,the high computational cost of transformer-based methods in object detection tasks hinders real-time result transmission in drone target detection applications.Therefore,we propose mask adaptive transformer (MAT) tailored for such scenarios.Specifically,we introduce a structure that supports collaborative token sparsification in support windows,enhancing fault tolerance and reducing computational overhead.This structure comprises two modules:a binary mask strategy and adaptive window self-attention (A-WSA).The binary mask strategy focuses on significant objects in various complex scenes.The A-WSA mechanism is employed to self-attend for balance perfomance and computational cost to select objects and isolate all contextual leakage.Extensive experiments on the challenging CarPK and VisDrone datasets demonstrate the effectiveness and superiority of the proposed method.Specifically,it achieves a mean average precision (mAP@0.5) improvement of 1.25%over car detector based on you only look once version 5 (CD-YOLOv5) on the CarPK dataset and a 3.75%average precision(AP@0.5) improvement over cascaded zoom-in detector (CZ Det) on the VisDrone dataset. 展开更多
关键词 TOKEN MASK IMAGERY
原文传递
Creating non-fungible token(NFT)-backed emoji art from user conversations on blockchain
11
作者 Maedeh Mosharraf Mohammad Hossein Khorrami 《Data Science and Management》 2025年第1期40-47,共8页
In the metaverse,digital assets are essential to define identity,shape the virtual environment,and facilitate economic transactions.This study introduces a novel feature to the metaverse by capturing a fundamental asp... In the metaverse,digital assets are essential to define identity,shape the virtual environment,and facilitate economic transactions.This study introduces a novel feature to the metaverse by capturing a fundamental aspect of individuals–their conversations–and transforming them into digital assets.It utilizes natural language processing and machine learning methods to extract key sentences from user conversations and match them with emojis that reflect their sentiments.The selected sentence,which encapsulates the essence of the user’s statements,is then transformed into digital art through a generative visual model.This digital artwork is transformed into a non-fungible token,becoming a valuable digital asset within the blockchain ecosystem that is ideal for integration into metaverse applications.Our aim is to manage personality traits as digital assets to foster individual uniqueness,enrich user experiences,and facilitate more personalized services and interactions with both like-minded users and non-player characters,thereby enhancing the overall user journey. 展开更多
关键词 Chat analysis Persian language Non-fungible token(NFT) Metaverse Digital asset Emoji matching
在线阅读 下载PDF
AI重塑IT基础架构的思考与探索
12
作者 梁泉 陈洋 +1 位作者 王荣 董林强 《通信企业管理》 2025年第9期70-75,共6页
当前人工智能(AI)技术正从辅助工具转向核心生产力,电信行业进入AI原生实践的关键转折期。2023年至2024年间电信行业生成式AI解决方案的商用部署激增4倍,大模型日均Token调用量增长近10倍。这一爆发式增长既源于对技术信任程度的提升,... 当前人工智能(AI)技术正从辅助工具转向核心生产力,电信行业进入AI原生实践的关键转折期。2023年至2024年间电信行业生成式AI解决方案的商用部署激增4倍,大模型日均Token调用量增长近10倍。这一爆发式增长既源于对技术信任程度的提升,更源于运营商面临的三重战略压力,即用户体验升级需求、收入多元化探索需求、网络价值重构需求。 展开更多
关键词 商用部署 大模型 Token调用量 生成式AI 电信行业
原文传递
AI通识教育走进西安中小学
13
《格言(校园版)》 2025年第32期5-5,共1页
通过“Token接龙游戏”理解大语言模型奥秘,在与AI对话中感受科技魅力,在情境体验中触摸未来脉搏……从人机对话到算法解密,从智能助教到创意编程,在西安市部分中小学,人工智能通识课已成为最受学生欢迎的课程。
关键词 Token接龙游戏 AI通识教育 中小学
在线阅读 下载PDF
A Transformer-Based Deep Learning Framework with Semantic Encoding and Syntax-Aware LSTM for Fake Electronic News Detection
14
作者 Hamza Murad Khan Shakila Basheer +3 位作者 Mohammad Tabrez Quasim Raja`a Al-Naimi Vijaykumar Varadarajan Anwar Khan 《Computers, Materials & Continua》 2026年第1期1024-1048,共25页
With the increasing growth of online news,fake electronic news detection has become one of the most important paradigms of modern research.Traditional electronic news detection techniques are generally based on contex... With the increasing growth of online news,fake electronic news detection has become one of the most important paradigms of modern research.Traditional electronic news detection techniques are generally based on contextual understanding,sequential dependencies,and/or data imbalance.This makes distinction between genuine and fabricated news a challenging task.To address this problem,we propose a novel hybrid architecture,T5-SA-LSTM,which synergistically integrates the T5 Transformer for semantically rich contextual embedding with the Self-Attentionenhanced(SA)Long Short-Term Memory(LSTM).The LSTM is trained using the Adam optimizer,which provides faster and more stable convergence compared to the Stochastic Gradient Descend(SGD)and Root Mean Square Propagation(RMSProp).The WELFake and FakeNewsPrediction datasets are used,which consist of labeled news articles having fake and real news samples.Tokenization and Synthetic Minority Over-sampling Technique(SMOTE)methods are used for data preprocessing to ensure linguistic normalization and class imbalance.The incorporation of the Self-Attention(SA)mechanism enables the model to highlight critical words and phrases,thereby enhancing predictive accuracy.The proposed model is evaluated using accuracy,precision,recall(sensitivity),and F1-score as performance metrics.The model achieved 99%accuracy on the WELFake dataset and 96.5%accuracy on the FakeNewsPrediction dataset.It outperformed the competitive schemes such as T5-SA-LSTM(RMSProp),T5-SA-LSTM(SGD)and some other models. 展开更多
关键词 Fake news detection tokenization SMOTE text-to-text transfer transformer(T5) long short-term memory(LSTM) self-attention mechanism(SA) T5-SA-LSTM WELFake dataset FakeNewsPrediction dataset
在线阅读 下载PDF
Web API接口幂等性的设计与应用 被引量:1
15
作者 罗乐霞 《计算机应用文摘》 2024年第23期91-93,96,共4页
在分布式系统和微服务架构日益普及的今天,Web API接口的安全性、稳定性和可靠性成为系统设计的重要考量因素。作为接口设计中的一个关键特性,幂等性对于防止重复请求、保障数据一致性等具有重要意义。文章旨在探讨Web API接口幂等性的... 在分布式系统和微服务架构日益普及的今天,Web API接口的安全性、稳定性和可靠性成为系统设计的重要考量因素。作为接口设计中的一个关键特性,幂等性对于防止重复请求、保障数据一致性等具有重要意义。文章旨在探讨Web API接口幂等性的基本概念及应用场景,分析实现过程中的设计要点并通过具体案例详细说明设计过程。 展开更多
关键词 接口幂等性 RESTFul API TOKEN
在线阅读 下载PDF
农业气象实况表的设计与自动化实现
16
作者 郑文全 彭雲 何希望 《智能计算机与应用》 2024年第11期103-107,共5页
利用Excel强大的数据处理和编程功能,设计出达州市农业气象实况表。该表利用VBA进行Http远程登录、查询,完成实时气象要素的更新,并使用公式、条件格式、图表等可视化呈现农业气象指标,实现了即开即得,避免了人为失误,提高了工作效率。
关键词 VBA Http POST TOKEN 正则表达式 条件格式
在线阅读 下载PDF
局部加全局视角遮挡人脸表情识别方法 被引量:3
17
作者 南亚会 华庆一 《计算机工程与应用》 CSCD 北大核心 2024年第13期180-189,共10页
实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过... 实际场景中各种遮挡增加了表情识别难度。为此,提出一种滑块局部加权卷积注意力和全局注意力池化的视觉Transformer结合的方法来解决遮挡问题。利用主干网络提取表情特征图,将表情特征图裁剪成多个区域块,利用局部Patch注意力单元通过自适应计算局部特征的注意力权重来感知被遮挡的区域,提取表情局部特征。同时,表情特征图转换成Patch块,通过Patch级和Token级注意力池化的视觉Transformer,从全局角度捕获Patch块之间的相互作用和相关性。引导模型强调最具区别性的特征,而忽略遮挡减少不相关特征的影响。在三个表情数据集及其遮挡子集和一个遮挡数据集上进行实验,结果表明所提模型在遮挡表情识别上优于现有方法。 展开更多
关键词 遮挡人脸表情识别 滑块局部卷积注意力 Patch注意力池化 Token注意力池化 vision Transformer
在线阅读 下载PDF
基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割算法 被引量:1
18
作者 姚宗亮 黄荣 +2 位作者 董爱华 韩芳 王青云 《宁夏大学学报(自然科学版)》 CAS 2024年第1期16-24,共9页
脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性... 脑肿瘤是目前世界上最致命的肿瘤之一,所以脑肿瘤图像的自动分割在临床诊疗中变得日益重要.近年来,基于CNN和Transformer的脑肿瘤分割方法在医学图像分割领域取得了令人欣喜的成就.然而,大多数方法没有充分利用脑肿瘤多模态间的互补性和差异性,并且模型中的Transformer在捕获远程依赖性的同时,忽略了其较大的计算复杂性、冗余依赖性等问题.针对此问题,提出一种基于多模态融合和自适应剪枝Transformer的脑肿瘤图像分割方法(MF-MAPT Swin UNETR),其中多模态融合模块可以充分学习性质相近的模态间信息和不同模态不同尺度的特征变化,为后续分割提供了充分的准备;基于多模态的自适应剪枝Transformer可以降低计算复杂度,对提升性能有一定的帮助,将MF-MAPT Swin UNETR模型在两个公共数据集上进行了实验验证,结果表明,该模型较最先进的方法整体具有突出的分割性能. 展开更多
关键词 脑肿瘤分割 TRANSFORMER 模态交叉连接 多尺度特征融合 token融合 自适应剪枝
在线阅读 下载PDF
基于金字塔语义token全局信息增强的高分光学遥感影像变化检测 被引量:2
19
作者 彭代锋 翟晨晨 +3 位作者 周顶蔚 张永军 管海燕 臧玉府 《测绘学报》 EI CSCD 北大核心 2024年第6期1195-1211,共17页
针对复杂背景、光谱变化等因素导致高分辨率遥感影像中细小地物检测缺失,几何结构检测不完整等问题,本文联合卷积网络和Transformer网络优势,提出一种基于金字塔语义token全局信息增强的变化检测网络(PST-GIENet)。首先,利用无最大池化... 针对复杂背景、光谱变化等因素导致高分辨率遥感影像中细小地物检测缺失,几何结构检测不完整等问题,本文联合卷积网络和Transformer网络优势,提出一种基于金字塔语义token全局信息增强的变化检测网络(PST-GIENet)。首先,利用无最大池化层的ResNet18网络提取多时相影像深度特征以构建融合特征,并采用联合注意力机制和深监督策略提高融合特征表达能力;然后,通过空间金字塔池化将影像特征表示为多尺度语义token,进而利用Transformer编码器和解码器对融合特征空间进行全局上下文建模;最后,通过逐层上采样解码器生成最终变化图。为验证本文方法有效性,采用LEVIR-CD、CDD和WHU-CD 3个公开变化检测数据集进行对比试验与分析,定量结果表明PST-GIENet在3个数据集中均取得最优精度指标,其F 1值分别达到91.71%、96.16%和94.08%。目视结果表明PST-GIENet可有效抑制复杂背景、光谱变化等因素干扰,显著增强网络对地物边缘结构和多尺度变化的捕捉能力,取得最佳目视效果。 展开更多
关键词 高分辨率遥感影像 变化检测 金字塔语义token 全局依赖性 注意力机制
在线阅读 下载PDF
上一页 1 2 13 下一页 到第
使用帮助 返回顶部