期刊文献+
共找到268篇文章
< 1 2 14 >
每页显示 20 50 100
TVC:tokenized video compression with ultra-low bit rate
1
作者 Lebin Zhou Cihan Ruan +3 位作者 Nam Ling Zhenghao Chen Wei Wang Wei Jiang 《Visual Intelligence》 2025年第1期397-409,共13页
Tokenized visual representations have shown promise in image compression, yet their extension to video remainsunderexplored due to the challenges posed by complex temporal dynamics and stringent bit rate constraints. ... Tokenized visual representations have shown promise in image compression, yet their extension to video remainsunderexplored due to the challenges posed by complex temporal dynamics and stringent bit rate constraints. In thispaper, we present tokenized video compression (TVC), a token-based dual-stream framework designed to operateeffectively at ultra-low bit rates. TVC leverages the Cosmos video tokenizer to extract both discrete and continuoustoken streams. The discrete tokens are partially masked using a strategic masking scheme and then compressedlosslessly with a discrete checkerboard context model to reduce transmission overhead. The masked tokens arereconstructed by a decoder-only Transformer with spatiotemporal token prediction. In parallel, the continuoustokens are quantized and compressed using a continuous checkerboard context model, providing complementarycontinuous information at ultra-low bit rates. At the decoder side, the two streams are fused with a ControlNet-basedmulti-scale integration module, ensuring high perceptual quality alongside stable fidelity in reconstruction. Overall,this work illustrates the practicality of tokenized video compression and points to new directions forsemantics-aware, token-native approaches. 展开更多
关键词 Video compression Dual-stream architecture Discrete-continuous Tokenization Neural codecs Deep learning
在线阅读 下载PDF
一种面向地图综合建筑多边形化简的Transformer模型
2
作者 刘鹏程 成晓强 +2 位作者 肖天元 杨敏 艾廷华 《测绘学报》 北大核心 2026年第1期124-137,共14页
针对地图综合中建筑多边形化简方法依赖人工规则、自动化程度低且难以利用已有化简成果的问题,本文提出了一种基于Transformer机制的建筑多边形化简模型。该模型首先把建筑多边形映射至一定范围的网格空间,将建筑多边形的坐标串表达为... 针对地图综合中建筑多边形化简方法依赖人工规则、自动化程度低且难以利用已有化简成果的问题,本文提出了一种基于Transformer机制的建筑多边形化简模型。该模型首先把建筑多边形映射至一定范围的网格空间,将建筑多边形的坐标串表达为网格序列,从而获取建筑多边形化简前后的Token序列,构建出建筑多边形化简样本对数据;随后采用Transformer架构建立模型,基于样本数据利用模型的掩码自注意力机制学习点序列之间的依赖关系,最终逐点生成新的简化多边形,从而实现建筑多边形的化简。在训练过程中,模型使用结构化的样本数据,设计了忽略特定索引的交叉熵损失函数以提升化简质量。试验设计包括主试验与泛化验证两部分。主试验基于洛杉矶1∶2000建筑数据集,分别采用0.2、0.3和0.5 mm 3种网格尺寸对多边形进行编码,实现了目标比例尺为1∶5000与1∶10000的化简。试验结果表明,在0.3 mm的网格尺寸下模型性能最优,验证集上的化简结果与人工标注的一致率超过92.0%,且针对北京部分区域的建筑多边形数据的泛化试验验证了模型的迁移能力;与LSTM模型的对比分析显示,在参数规模相近的条件下,LSTM模型无法形成有效收敛,并生成可用结果。本文证实了Transformer在处理空间几何序列任务中的潜力,且能够有效复用已有化简样本,为智能建筑多边形化简提供了具有工程实用价值的途径。 展开更多
关键词 地图综合 建筑多边形化简 TOKENIZATION Transformer模型 上下文工程
在线阅读 下载PDF
写作理论元范畴“名”在先秦的认知意义——作为观察人工智能写作的一个视角
3
作者 戴红贤 沈钰洁 《写作》 2026年第1期22-31,共10页
“名”起源于“以口自名”的认识和言说活动,其语义基于具身认知而具有情景性。通过命名,人类开始离开现实事物而称呼其名称,使“名”拥有了超越具体情景的指称意义。东周诸子对“名”进行全面反思,建立词典意义和言说与表达的理性规则... “名”起源于“以口自名”的认识和言说活动,其语义基于具身认知而具有情景性。通过命名,人类开始离开现实事物而称呼其名称,使“名”拥有了超越具体情景的指称意义。东周诸子对“名”进行全面反思,建立词典意义和言说与表达的理性规则。先秦“名”的这三重认知意义反映了人类认识对象的方式以及创造概念、运用概念并推理和表达的能力,同当前以token(词符)处理与生成为基础的人工智能写作原理有本质不同。“名”体现的人类认知特性正是当前智能科学前沿探索方向,包括类人概念表征技术和类人推理训练,人类在名辩中体现的价值取向也凸显了当前人工智能领域面临的安全问题。 展开更多
关键词 认知语义学 TOKEN 人工智能写作 大语言模型
在线阅读 下载PDF
模型互联网中基于自我效能的Token级多模型协作
4
作者 王建辉 李哲涛 +3 位作者 石伟凡 王泽平 郑智润 李成新 《通信学报》 北大核心 2026年第2期125-139,共15页
针对模型互联网中Token级协作在推理性能与开销难以兼顾的问题,提出一种基于自我效能的Token级多模型协作方法ConfiPara。首先,为解决现有Token级协作方法的高开销问题,设计一种具有退出机制的Token级多模型协作方法。其次,提出一种融... 针对模型互联网中Token级协作在推理性能与开销难以兼顾的问题,提出一种基于自我效能的Token级多模型协作方法ConfiPara。首先,为解决现有Token级协作方法的高开销问题,设计一种具有退出机制的Token级多模型协作方法。其次,提出一种融合基模型自信度与信心可靠度的自我效能评估算法,用以判定退出时机;通过自我效能引导基模型在适当时转为独立推理,从而跳过冗余协作,在保证准确率的同时减少Token开销。实验结果表明,ConfiPara方法能以较小的准确率损失,显著降低Token消耗与推理时延。在单协作模型场景下,该方法仅以2.5%的准确率损失就能降低约21%的Token开销和最高75%的单Token生成时延。 展开更多
关键词 大模型 模型互联网 Token级模型协作 退出机制 自我效能
在线阅读 下载PDF
TSCS: A blockchain-based tokenized subtitling crowdsourcing system
5
作者 Huijian Han Peidong Chen +2 位作者 Feng Yang Brekhna Brekhna Rui Zhang 《Blockchain(Research and Applications)》 EI 2023年第2期146-162,共17页
The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easie... The language barrier is the biggest obstacle for users watching foreign-language videos.Because of this,videos cannot be famous across borders,and their viewership is limited to a single language and culture.The easiest way to solve this problem is to add subtitles in the language of the viewer.However,the current subtitling system lacks incentives,the ability to build a secure transaction environment,and a trusting relationship between video creators and subtitling makers.In response to the above situation,a tokenized subtitling crowdsourcing system(TSCS)based on blockchain and smart contract technologies is proposed.The source files for the subtitles are stored on the inter-planetary file system(IPFS)in the proposed system.Based on the ERC-721 standard,the returned corresponding address and subtitling-related information are made into a non-fungible token(NFT).At the same time,depending on the expected revenue from video view counts,the video token(VT),based on the ERC-777 standard and endorsed by the video platform,will be used as the payment token.The TSCS has two payment strategies:one-time and dividend.Through such a settlement mechanism,the subtitling maker’s revenue is also guaranteed by the code invariance and rule certainty of smart contract deployment.On the other hand,introducing an incentive mechanism for viewers to audit subtitles enables community autonomy,thus increasing the applicability of subtitles and the activity of users. 展开更多
关键词 Blockchain Smart contract Social media Subtitling system tokenized
原文传递
词元(Token)和词元经济
6
作者 孙庭阳 姚坤 《中国经济周刊》 2026年第6期108-109,共2页
随着OpenClaw(即大家俗称的“龙虾”)火爆出圈,以及一众国产智能体的火速跟进,词元(Token)也很快成为朋友圈和新闻标题高频词汇。词元究竟是什么?词元是大模型处理信息的最小单元,大模型的计算成本,本质上取决于处理文本的计算量,词元... 随着OpenClaw(即大家俗称的“龙虾”)火爆出圈,以及一众国产智能体的火速跟进,词元(Token)也很快成为朋友圈和新闻标题高频词汇。词元究竟是什么?词元是大模型处理信息的最小单元,大模型的计算成本,本质上取决于处理文本的计算量,词元是基础指标。举个简单的例子,你向大模型提问,就是你在向大模型输入信息,你的问题越长、表达得越详细,则你向大模型输入的词元越多;反之亦然,大模型回答你的问题,是大模型在向你输出信息,大模型回答得越长、越深入细致,则大模型向你输出的词元越多。 展开更多
关键词 计算成本 TOKEN 信息处理 输入 大模型 词元
在线阅读 下载PDF
Effective Token Masking Augmentation Using Term-Document Frequency for Language Model-Based Legal Case Classification
7
作者 Ye-Chan Park Mohd Asyraf Zulkifley +1 位作者 Bong-Soo Sohn Jaesung Lee 《Computers, Materials & Continua》 2026年第4期928-945,共18页
Legal case classification involves the categorization of legal documents into predefined categories,which facilitates legal information retrieval and case management.However,real-world legal datasets often suffer from... Legal case classification involves the categorization of legal documents into predefined categories,which facilitates legal information retrieval and case management.However,real-world legal datasets often suffer from class imbalances due to the uneven distribution of case types across legal domains.This leads to biased model performance,in the form of high accuracy for overrepresented categories and underperformance for minority classes.To address this issue,in this study,we propose a data augmentation method that masks unimportant terms within a document selectively while preserving key terms fromthe perspective of the legal domain.This approach enhances data diversity and improves the generalization capability of conventional models.Our experiments demonstrate consistent improvements achieved by the proposed augmentation strategy in terms of accuracy and F1 score across all models,validating the effectiveness of the proposed method in legal case classification. 展开更多
关键词 Legal case classification class imbalance data augmentation token masking legal NLP
在线阅读 下载PDF
中东乱局下的算力变局与中国的“token出海”机遇
8
《中国电子商情》 2026年第6期I0001-I0001,共1页
2026年3月,一条震惊全球科技界的消息从德黑兰传出。伊朗半官方塔斯尼姆通讯社公布了一份名单,将谷歌、微软、英伟达、亚马逊等科技巨头列为“合法打击目标”,理由是这些公司的技术被用于军事用途。仅仅一周前,伊朗发动的无人机袭击已... 2026年3月,一条震惊全球科技界的消息从德黑兰传出。伊朗半官方塔斯尼姆通讯社公布了一份名单,将谷歌、微软、英伟达、亚马逊等科技巨头列为“合法打击目标”,理由是这些公司的技术被用于军事用途。仅仅一周前,伊朗发动的无人机袭击已成功破坏亚马逊AWS位于阿联酋和巴林的数据中心,导致区域云服务中断。这一事件犹如一记惊雷,炸响了全球科技界长期忽视的警示:在冲突日益复杂化的今天,数字基础设施已不再是冲突的“避风港”,而成为直接的打击对象。当海湾地区价值数百亿美元的数字资产暴露在战火之下时,全球算力格局的深刻变革,正在悄然发生。 展开更多
关键词 中东 token出海 军事用途 无人机袭击 中国
在线阅读 下载PDF
Tokens经济:站上“火山口”
9
《计算机应用文摘》 2026年第2期255-257,共3页
Tokens——大模型时代的“新货币”在大模型领域,Tokens是衡量文本处理与计算成本的核心计量单位。这一概念看似简单,却承载着AI技术从实验室走向产业化的关键密码。随着大模型技术的快速发展,Tokens的消耗量逐渐成为衡量行业进展和市... Tokens——大模型时代的“新货币”在大模型领域,Tokens是衡量文本处理与计算成本的核心计量单位。这一概念看似简单,却承载着AI技术从实验室走向产业化的关键密码。随着大模型技术的快速发展,Tokens的消耗量逐渐成为衡量行业进展和市场活跃度的核心指标。然而,当行业将目光聚焦于Tokens数量的增长时,一个更深层次的问题浮现出来:这些Tokens是否真正创造了价值?还是仅仅沦为一场“数字游戏”? 展开更多
关键词 计算成本 文本处理 Tokens 大模型 新货币
在线阅读 下载PDF
CMPTA:预训练大模型在多模态情感分析任务中的应用研究
10
作者 李志豪 智宇 陈昂 《计算机科学与应用》 2026年第1期281-294,共14页
大语言模型(LLMs)在自然语言处理领域取得了显著进展,但将其有效迁移至多模态情感分析(MSA)任务仍面临巨大挑战。主要难点在于如何弥合异构模态(如视觉、音频)特征与预训练文本大模型语义空间之间的鸿沟。现有方法多依赖复杂的深度融合... 大语言模型(LLMs)在自然语言处理领域取得了显著进展,但将其有效迁移至多模态情感分析(MSA)任务仍面临巨大挑战。主要难点在于如何弥合异构模态(如视觉、音频)特征与预训练文本大模型语义空间之间的鸿沟。现有方法多依赖复杂的深度融合网络或昂贵的全量微调,难以充分利用大模型的推理与泛化能力。为此,本文提出了一种轻量级的跨模态伪Token适配器(Cross-Modal Pseudo-Token Adapter, CMPTA)。该方法并不破坏大模型的原有参数,而是通过高效的注意力机制,将非文本模态特征转化为LLM可理解的“伪Token”(Pseudo-Tokens),并以软提示(Soft Prompts)的形式注入文本输入序列,从而实现多模态信息与文本语义的深度对齐。此外,本文还系统探究了伪Token数量对模型语义对齐效果的影响规律。实验结果表明,CMPTA能够有效激发大模型的多模态情感理解能力,其性能优于当前的先进基线方法,验证了该框架的有效性与泛化能力。 展开更多
关键词 多模态情感分析 大语言模型 伪Token 参数高效微调 跨模态适配器
在线阅读 下载PDF
MS-RWKV-UNet:Multi-Head Scan Receptance Weighted Key Value UNet for Medical Image Segmentation
11
作者 JIANG Dong JI Zhongping FANG Meie 《Wuhan University Journal of Natural Sciences》 2026年第1期1-9,共9页
The Transformer has achieved great success in the field of medical image segmentation,but its quadratic computational complexity limits its application in dense medical image prediction.Recently,the receptance weighte... The Transformer has achieved great success in the field of medical image segmentation,but its quadratic computational complexity limits its application in dense medical image prediction.Recently,the receptance weighted key value(RWKV)architecture has garnered widespread attention due to its linear computational complexity and its capability of parallel computation during training.Despite the RWKV model's proficiency in addressing long-range modeling tasks with linear computational complexity,most current RWKV-based approaches employ static scanning patterns.These patterns may inadvertently incorporate biased prior knowledge into the model's predictions.To address this challenge,we propose a multi-head scan strategy combined with padding methods to effectively simulate spatial continuity in 2D images.Within the Feature Aggregation Attention(FAA)module,asymmetric convolutions are designed to aggregate 1D sequence features along a single dimension,thereby expanding effective receptive fields while preserving structural sparsity.Additionally,panoramic token shift(P-Shift)effectively models local dependency relationships by moving tokens from a wide receptive field.Extensive experiments conducted on the ISIC17/18 and ACDC datasets demonstrate that our method exhibits superior performance in dense medical image prediction tasks. 展开更多
关键词 multi-head scan receptance weighted key value(RWKV) asymmetric convolution panoramic token shift(P-Shift) medical image segmentation
原文传递
A Transformer-Based Deep Learning Framework with Semantic Encoding and Syntax-Aware LSTM for Fake Electronic News Detection
12
作者 Hamza Murad Khan Shakila Basheer +3 位作者 Mohammad Tabrez Quasim Raja`a Al-Naimi Vijaykumar Varadarajan Anwar Khan 《Computers, Materials & Continua》 2026年第1期1024-1048,共25页
With the increasing growth of online news,fake electronic news detection has become one of the most important paradigms of modern research.Traditional electronic news detection techniques are generally based on contex... With the increasing growth of online news,fake electronic news detection has become one of the most important paradigms of modern research.Traditional electronic news detection techniques are generally based on contextual understanding,sequential dependencies,and/or data imbalance.This makes distinction between genuine and fabricated news a challenging task.To address this problem,we propose a novel hybrid architecture,T5-SA-LSTM,which synergistically integrates the T5 Transformer for semantically rich contextual embedding with the Self-Attentionenhanced(SA)Long Short-Term Memory(LSTM).The LSTM is trained using the Adam optimizer,which provides faster and more stable convergence compared to the Stochastic Gradient Descend(SGD)and Root Mean Square Propagation(RMSProp).The WELFake and FakeNewsPrediction datasets are used,which consist of labeled news articles having fake and real news samples.Tokenization and Synthetic Minority Over-sampling Technique(SMOTE)methods are used for data preprocessing to ensure linguistic normalization and class imbalance.The incorporation of the Self-Attention(SA)mechanism enables the model to highlight critical words and phrases,thereby enhancing predictive accuracy.The proposed model is evaluated using accuracy,precision,recall(sensitivity),and F1-score as performance metrics.The model achieved 99%accuracy on the WELFake dataset and 96.5%accuracy on the FakeNewsPrediction dataset.It outperformed the competitive schemes such as T5-SA-LSTM(RMSProp),T5-SA-LSTM(SGD)and some other models. 展开更多
关键词 Fake news detection tokenization SMOTE text-to-text transfer transformer(T5) long short-term memory(LSTM) self-attention mechanism(SA) T5-SA-LSTM WELFake dataset FakeNewsPrediction dataset
在线阅读 下载PDF
自然语言处理技术下文本信息语义抽取方法 被引量:1
13
作者 李小松 《现代电子技术》 北大核心 2025年第23期176-180,共5页
在多任务变换和扩充下,对文本信息理解和分析能力要求较高,存在复杂文本结构可扩展性差、标注数据稀缺的问题,对此,文中提出自然语言处理技术下文本信息语义抽取方法。对原始文本进行严格的清洗与净化、实体位置定位、实体邻近词截取、... 在多任务变换和扩充下,对文本信息理解和分析能力要求较高,存在复杂文本结构可扩展性差、标注数据稀缺的问题,对此,文中提出自然语言处理技术下文本信息语义抽取方法。对原始文本进行严格的清洗与净化、实体位置定位、实体邻近词截取、序列长度标准化、Token(分词)化以及特殊标记添加等预处理后,利用BERT模型的多层双向Transformer结构映射为语义词向量序列,有效提取和表示文本中的语义信息和实体关系,扩展复杂文本结构。采用BiGRU(双向门控循环单元)模型对BERT输出的向量序列进行处理后,引入多头注意力机制,并行计算多个注意力权重集合,捕捉句子内部词与词之间的复杂依赖关系,通过Softmax分类器对多头注意力机制的输出进行分类,反复标注实体之间的关系类型,实现下文本信息的语义抽取。实现结果表明:经文中方法处理后的文本数据质量显著提升,对于文本信息的语义抽取F1高达0.99;且更细致地刻画了输入与输出之间的多种相关性,从而有效捕捉句子内部词与词之间的复杂依赖关系,文本信息语义抽取效果较优。 展开更多
关键词 NLP 文本信息 Token化 BERT模型 向量表示 BiGRU模型 多头注意力机制 语义抽取
在线阅读 下载PDF
DeepSeek-R1是怎样炼成的? 被引量:95
14
作者 张慧敏 《深圳大学学报(理工版)》 北大核心 2025年第2期226-232,共7页
简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专... 简述DeepSeek系列模型在大模型训练中的创新和优化.DeepSeek系列模型的突破主要体现在模型架构、算法创新、软硬件协同优化及整体训练效率的提升.DeepSeek-V3模型采用混合专家(mixture of experts,MoE)模型架构,通过细粒度设计和共享专家策略,实现计算资源的高效利用;MoE模型架构中的稀疏激活机制和无损负载均衡策略显著提高了模型训练的效率和性能;多头潜在注意力(multi-head latent attention,MLA)机制通过减少内存使用和加速推理过程,降低了模型训练和推理成本;通过引入多token预测(multi-token prediction,MTP)和8位浮点数(floating point 8-bit,FP8)混合精度训练技术,提升了模型的上下文理解能力和训练效率;采用优化并行线程执行(parallel thread execution,PTX)代码显著提高了图形处理器(graphics processing unit,GPU)的计算效率;所提群体相对策略优化(group relative policy optimization,GRPO)对DeepSeek-R1-Zero模型进行纯强化学习训练,跳过了传统的监督微调和人类反馈阶段,显著提升了模型的推理能力.总体而言,DeepSeek系列模型通过多项创新,在人工智能领域取得了显著优势,树立了行业新标杆. 展开更多
关键词 人工智能 DeepSeek 大语言模型 混合专家模型 多头潜在注意力机制 多token预测 混合精度训练 群体相对策略优化
在线阅读 下载PDF
抑制非目标干扰的单流纯Transformer跟踪算法
15
作者 顾龙雨 张伟 高赟 《计算机应用》 北大核心 2025年第S1期60-66,共7页
针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似... 针对单流纯Transformer跟踪算法搜索区域中的相似信息或混乱背景等非目标信息的干扰会影响相关性计算的问题,提出一种抑制非目标干扰的单流纯Transformer跟踪算法。首先,构建抑制非目标干扰模块,该模块采用高相似token合并策略,当高相似token包含目标信息时,合并操作将保留目标信息,当高相似token包含混乱背景或相似目标干扰信息时,合并操作将降低这些干扰信息的注意力权重;其次,将该模块添加到单流纯Transformer骨干网络中,以抑制干扰多头注意力的计算结果;最后,将抑制干扰后的特征送进跟踪头,从而完成对目标的跟踪。在5个基准数据集上的测试结果表明:与OSTrack(One Stream Tracking)算法相比,在GOT-10k基准数据集AO指标提升1.1个百分点,在NFS、UAV123、TNL2K基准数据集AUC指标分别提升1.6、1.0、1.1个百分点,同时所提算法的跟踪推理速度即每秒帧数(FPS)可达166,证明所提算法成功抑制了非目标的干扰,提升了单流纯Transformer跟踪算法的鲁棒性并且能够保证跟踪的实时性。 展开更多
关键词 目标跟踪 视觉Transformer 干扰抑制 逐层合并的高相似token 多头注意力
在线阅读 下载PDF
Token级多模型并联协作推理 被引量:2
16
作者 王建辉 李哲涛 +3 位作者 伍涛 谢展楠 樊乾意 龙赛琴 《计算机学报》 北大核心 2025年第11期2579-2593,共15页
推理准确率作为大模型的核心评估指标,对模型的实际应用效果和用户体验具有重要影响。多模型协作推理是提升推理准确率的有效途径之一,其主要分为全回复级协作和Token级协作。Token级协作相比全回复级协作在Token开销和时间成本方面具... 推理准确率作为大模型的核心评估指标,对模型的实际应用效果和用户体验具有重要影响。多模型协作推理是提升推理准确率的有效途径之一,其主要分为全回复级协作和Token级协作。Token级协作相比全回复级协作在Token开销和时间成本方面具有显著优势。然而,现有Token级协作方法存在低置信度Token噪声过滤不足以及在聚合过程中平等化模型贡献等问题。为此,本文设计了一种新型Token级模型并联协作推理架构——DuetNet。该架构通过汇聚多个模型的推理共识以降低选择错误推理路径的可能性,从而提高推理准确率。具体而言,在每个推理步骤中,DuetNet首先应用联合截断策略,以减少引入低置信度Token噪声;随后,在聚合过程中,通过聚合逻辑值向量计算每个候选Token的累计逻辑分数,以降低置信度损失;最后,通过Top-T随机采样算法选择下一个Token。实验结果表明,DuetNet框架下的多模型并联协作在推理准确率方面优于现有方法。在双模型并联协作时,DuetNet的平均推理准确率相对于其他方法提高了1.88%~38.50%,并且在推理过程中需要对齐的Token数量减少了80%以上。在三模型和四模型并联协作场景中,DuetNet同样显示出较好的推理准确率提升,相对于其他方法提高了1.21%~40.34%。 展开更多
关键词 大模型 推理准确率 多模型协作 推理共识 Token级模型并联协作
在线阅读 下载PDF
应用动态Token的融合特征的持续图像字幕生成 被引量:1
17
作者 晋嘉利 余璐 《计算机工程与应用》 北大核心 2025年第4期176-191,共16页
基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑... 基于自注意力的结构(如Transformer)在图像字幕生成任务中有着突出的性能优势。但在大多数方法中模型只在静态、同分布数据集上进行训练,而真实世界中的数据分布大多是非独立同分布的数据流,这种设置下的持续图像字幕生成任务更具有挑战性。目前针对图像字幕生成的多模态任务的持续学习研究较少,缺乏更适用于基于自注意力模型的持续图像字幕生成方法。针对以上挑战提出了一种应用动态Token的融合特征的持续图像字幕生成方法。在Transformer中对图像字幕生成任务所涉及的不同模态的数据特征进行融合,并对融合特征进行正则化计算;为每一个子任务定义一个Token,Token将随着子任务的切换而变化,这种Token即为动态Token,相比于整个训练阶段只定义一个且被所有子任务共用的静态Token而言,动态Token更能保存每个子任务特有的信息和特点。利用这些动态任务Token和任务标识融合特征注意力模块进一步获得具有任务标识信息的融合特征,并在每个子任务训练结束后保存其对应的Token,以保持模型对旧任务的记忆和表达能力,减少模型对旧任务的灾难性遗忘。在MS-COCO和Flickr30k数据集上的实验结果表明,应用动态Token的融合特征的持续图像字幕生成方法在Transformer架构上优于所有基线方法。以CIDEr指标为例,所有训练任务结束后CIDEr指标的平均分数相较于微调和所有基线方法中的最优方法分别提高了31.06%和13.94%。 展开更多
关键词 图像字幕生成 持续学习 TRANSFORMER 融合特征 动态Token 正则化
在线阅读 下载PDF
基于情感引导-扩散模型的藏族音乐生成网络
18
作者 宋子牛 彭春燕 +1 位作者 王龙辉 郑钰辉 《计算机应用研究》 北大核心 2025年第8期2283-2289,共7页
人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基... 人工智能技术在音乐创作领域取得了显著进展,但针对藏族音乐自动生成的研究相对匮乏。现有研究在藏族音乐生成中主要面临三个挑战:缺乏特定情感的表达能力、高维特征处理效率低下,以及音乐上下文一致性不足。为解决上述问题,提出一种基于情感引导的扩散模型(emotion-driven diffusion model,EDDM)。该模型基于VAE-diffusion框架,利用变分自编码器提取音源数据关键潜在特征,并在扩散过程中对其进行建模。首先,设计情感特征编码器以提取音乐情感特征,并通过交叉注意力机制将情感特征嵌入到扩散模型中,实现藏族音乐特定情感和风格的精准表达;其次,引入token drop策略过滤冗余特征,提高音乐生成的鲁棒性和多样化;最后,提出self-conditioning机制增强上下文关联,利用上一步信息来指导下一步结果生成,确保音乐生成的一致性。实验结果表明,EDDM在藏族音乐生成任务上效果突出,在客观评价方面,模型在FAD(2.35↓)、JSD(0.08↓)、NDB(18↑)等指标上均优于现有方法;主观评价中,生成的音乐展现出良好的情感表达能力和音乐特征一致性。EDDM在民族音乐自动生成领域具有一定的创新性和应用价值。所生成的部分情感引导的藏族音乐公开在https://szn1998.github.io/。 展开更多
关键词 藏族音乐生成 扩散模型 情感引导 token drop self-conditioning
在线阅读 下载PDF
融合IPFS+区块链技术的执法办案数据访问控制方案 被引量:1
19
作者 刘卓娴 《智能计算机与应用》 2025年第1期103-109,共7页
针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;... 针对执法办案数据电子化存储可能出现的被篡改、被伪造以及泄露问题,提出了一种融合IPFS+区块链技术的数据访问控制方案。该方案以DPOS共识机制为基础,结合hash算法和非对称加密算法,在半分布式网络使用Merkle树,验证数据传输的完整性;激励层使用Token和智能合约奖惩机制,提升了公安传送档案的准确性。应用结果表明,该方案可以保证档案内容的保密性及不可篡改性,对于防止徇私枉法、档案泄露具有重大意义。 展开更多
关键词 执法办案数据 区块链 Token机制 共识机制 访问控制
在线阅读 下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部