期刊文献+
共找到293篇文章
< 1 2 15 >
每页显示 20 50 100
SRS-Net: Training object detectors from scratch for remote sensing images without pretraining 被引量:2
1
作者 Haining WANG Yang LI +4 位作者 Yuqiang FANG Yurong LIAO Bitao JIANG Xitao ZHANG Shuyan NI 《Chinese Journal of Aeronautics》 SCIE EI CAS CSCD 2023年第8期269-283,共15页
Most of the current object detection algorithms use pretrained models that are trained on ImageNet and then fine-tuned in the network,which can achieve good performance in terms of general object detectors.However,in ... Most of the current object detection algorithms use pretrained models that are trained on ImageNet and then fine-tuned in the network,which can achieve good performance in terms of general object detectors.However,in the field of remote sensing image object detection,as pretrained models are significantly different from remote sensing data,it is meaningful to explore a train-fromscratch technique for remote sensing images.This paper proposes an object detection framework trained from scratch,SRS-Net,and describes the design of a densely connected backbone network to provide integrated hidden layer supervision for the convolution module.Then,two necessary improvement principles are proposed:studying the role of normalization in the network structure,and improving data augmentation methods for remote sensing images.To evaluate the proposed framework,we performed many ablation experiments on the DIOR,DOTA,and AS datasets.The results show that whether using the improved backbone network,the normalization method or training data enhancement strategy,the performance of the object detection network trained from scratch increased.These principles compensate for the lack of pretrained models.Furthermore,we found that SRS-Net could achieve similar to or slightly better performance than baseline methods,and surpassed most advanced general detectors. 展开更多
关键词 Denseconnection Object detection pretraining Remote sensing image Trainfrom scratch
原文传递
Evaluating chat generative pretrained transformer in answering questions on endoscopic mucosal resection and endoscopic submucosal dissection 被引量:1
2
作者 Shi-Song Wang Hui Gao +3 位作者 Peng-Yao Lin Tian-Chen Qian Ying Du Lei Xu 《World Journal of Gastrointestinal Oncology》 2025年第10期290-303,共14页
BACKGROUND With the rising use of endoscopic submucosal dissection(ESD)and endoscopic mucosal resection(EMR),patients are increasingly questioning various aspects of these endoscopic procedures.At the same time,conver... BACKGROUND With the rising use of endoscopic submucosal dissection(ESD)and endoscopic mucosal resection(EMR),patients are increasingly questioning various aspects of these endoscopic procedures.At the same time,conversational artificial intelligence(AI)tools like chat generative pretrained transformer(ChatGPT)are rapidly emerging as sources of medical information.AIM To evaluate ChatGPT’s reliability and usefulness regarding ESD and EMR for patients and healthcare professionals.METHODS In this study,30 specific questions related to ESD and EMR were identified.Then,these questions were repeatedly entered into ChatGPT,with two independent answers generated for each question.A Likert scale was used to rate the accuracy,completeness,and comprehensibility of the responses.Meanwhile,a binary category(high/Low)was used to evaluate each aspect of the two responses generated by ChatGPT and the response retrieved from Google.RESULTS By analyzing the average scores of the three raters,our findings indicated that the responses generated by ChatGPT received high ratings for accuracy(mean score of 5.14 out of 6),completeness(mean score of 2.34 out of 3),and comprehensibility(mean score of 2.96 out of 3).Kendall’s coefficients of concordance indicated good agreement among raters(all P<0.05).For the responses generated by Google,more than half were classified by experts as having low accuracy and low completeness.CONCLUSION ChatGPT provided accurate and reliable answers in response to questions about ESD and EMR.Future studies should address ChatGPT’s current limitations by incorporating more detailed and up-to-date medical information.This could establish AI chatbots as significant resource for both patients and health care professionals. 展开更多
关键词 Endoscopic submucosal dissection Endoscopic mucosal dissection Artificial intelligence Chat generative pretrained transformer Patient education Google
暂未订购
Event-Driven Attention Network:A Cross-Modal Framework for Efficient Image-Text Retrieval in Mass Gathering Events
3
作者 Kamil Yasen Heyan Jin +4 位作者 Sijie Yang Li Zhan Xuyang Zhang Ke Qin Ye Li 《Computers, Materials & Continua》 2025年第5期3277-3301,共25页
Research on mass gathering events is critical for ensuring public security and maintaining social order.However,most of the existing works focus on crowd behavior analysis areas such as anomaly detection and crowd cou... Research on mass gathering events is critical for ensuring public security and maintaining social order.However,most of the existing works focus on crowd behavior analysis areas such as anomaly detection and crowd counting,and there is a relative lack of research on mass gathering behaviors.We believe real-time detection and monitoring of mass gathering behaviors are essential formigrating potential security risks and emergencies.Therefore,it is imperative to develop a method capable of accurately identifying and localizing mass gatherings before disasters occur,enabling prompt and effective responses.To address this problem,we propose an innovative Event-Driven Attention Network(EDAN),which achieves image-text matching in the scenario of mass gathering events with good results for the first time.Traditional image-text retrieval methods based on global alignment are difficult to capture the local details within complex scenes,limiting retrieval accuracy.While local alignment-based methods aremore effective at extracting detailed features,they frequently process raw textual features directly,which often contain ambiguities and redundant information that can diminish retrieval efficiency and degrade model performance.To overcome these challenges,EDAN introduces an Event-Driven AttentionModule that adaptively focuses attention on image regions or textual words relevant to the event type.By calculating the semantic distance between event labels and textual content,this module effectively significantly reduces computational complexity and enhances retrieval efficiency.To validate the effectiveness of EDAN,we construct a dedicated multimodal dataset tailored for the analysis of mass gathering events,providing a reliable foundation for subsequent studies.We conduct comparative experiments with other methods on our dataset,the experimental results demonstrate the effectiveness of EDAN.In the image-to-text retrieval task,EDAN achieved the best performance on the R@5 metric,while in the text-to-image retrieval task,it showed superior results on both R@10 and R@5 metrics.Additionally,EDAN excelled in the overall Rsummetric,achieving the best performance.Finally,ablation studies further verified the effectiveness of event-driven attention module. 展开更多
关键词 Mass gathering events image-text retrieval attention mechanism
在线阅读 下载PDF
Efficient Reconstruction of Spatial Features for Remote Sensing Image-Text Retrieval
4
作者 ZHANG Weihang CHEN Jialiang +3 位作者 ZHANG Wenkai LI Xinming GAO Xin SUN Xian 《Transactions of Nanjing University of Aeronautics and Astronautics》 2025年第1期101-111,共11页
Remote sensing cross-modal image-text retrieval(RSCIR)can flexibly and subjectively retrieve remote sensing images utilizing query text,which has received more researchers’attention recently.However,with the increasi... Remote sensing cross-modal image-text retrieval(RSCIR)can flexibly and subjectively retrieve remote sensing images utilizing query text,which has received more researchers’attention recently.However,with the increasing volume of visual-language pre-training model parameters,direct transfer learning consumes a substantial amount of computational and storage resources.Moreover,recently proposed parameter-efficient transfer learning methods mainly focus on the reconstruction of channel features,ignoring the spatial features which are vital for modeling key entity relationships.To address these issues,we design an efficient transfer learning framework for RSCIR,which is based on spatial feature efficient reconstruction(SPER).A concise and efficient spatial adapter is introduced to enhance the extraction of spatial relationships.The spatial adapter is able to spatially reconstruct the features in the backbone with few parameters while incorporating the prior information from the channel dimension.We conduct quantitative and qualitative experiments on two different commonly used RSCIR datasets.Compared with traditional methods,our approach achieves an improvement of 3%-11% in sumR metric.Compared with methods finetuning all parameters,our proposed method only trains less than 1% of the parameters,while maintaining an overall performance of about 96%. 展开更多
关键词 remote sensing cross-modal image-text retrieval(RSCIR) spatial features channel features contrastive learning parameter effective transfer learning
在线阅读 下载PDF
基于预训练时空解耦的交通流预测模型
5
作者 李静 杜圣东 +3 位作者 史浩琛 胡节 杨燕 李天瑞 《计算机科学》 北大核心 2026年第4期155-162,共8页
交通流预测作为智慧城市动态决策的核心技术,其准确性是影响交通信号控制、路径规划和应急管理的关键。随着城市路网规模的扩大和交通数据的激增,传统方法难以对路网节点间复杂的时空交互特性进行精准建模。预训练模型虽然能进行跨领域... 交通流预测作为智慧城市动态决策的核心技术,其准确性是影响交通信号控制、路径规划和应急管理的关键。随着城市路网规模的扩大和交通数据的激增,传统方法难以对路网节点间复杂的时空交互特性进行精准建模。预训练模型虽然能进行跨领域知识迁移,但应用于交通流预测任务时,仍面临时空特征耦合所导致的建模瓶颈,以及预训练表征与交通领域特性不匹配的问题。针对上述问题,提出一种基于预训练时空解耦的交通流预测模型(PT-STD)。该方法通过时空分解模块解耦分离空间拓扑关联与多粒度时序模式的深度特征学习,进一步设计分层自适应微调策略,分阶段解冻预训练模型的归一化层与注意力参数,逐步将预训练模型中学习到的通用知识迁移到时空特性建模中。实验表明,该模型在基准数据集上展现出显著优势,而且在数据稀缺场景下的平均绝对误差可降低3.89%。 展开更多
关键词 交通流预测 时空分解 分层微调 预训练模型 城市计算
在线阅读 下载PDF
结构文本驱动的小样本专业图像检测方法
6
作者 刘磊 袁永宏 +2 位作者 何海鹏 冯瀚森 王子珺 《计算机应用研究》 北大核心 2026年第2期385-392,共8页
针对专业图像检测中良品样本占比过高、异常样本稀缺以及视觉-语言预训练模型在垂直领域表现受限的问题,提出一种结构化文本驱动的专业图像检测方法。首先,通过抖动变换与宫格增强扩充有限异常样本,并结合区域级对齐的结构化文本提升样... 针对专业图像检测中良品样本占比过高、异常样本稀缺以及视觉-语言预训练模型在垂直领域表现受限的问题,提出一种结构化文本驱动的专业图像检测方法。首先,通过抖动变换与宫格增强扩充有限异常样本,并结合区域级对齐的结构化文本提升样本“智力密度”;其次,对双向变换表征模型进行适应性改造,引入宫格图像-结构文本对比学习和联合宫格语义-空间一致性双任务,实现跨模态全局与局部特征对齐;最后,将所建模型作为大语言模型的视觉编码器,提供关键检测特征,实现专业图像检测。在ABD-AD、MVTec-AD和VisA数据集上的小样本实验结果表明,所提模型在定位和分类任务上相比现有方法提升了3.10%和3.84%,验证了结构化文本在小样本异常检测中及其在专业图像检测场景下的优越性能。 展开更多
关键词 异常检测 结构文本 视觉语言模型 小样本学习 大语言模型 深度学习
在线阅读 下载PDF
跨模型协同的法律文本相关性无监督表征方法研究
7
作者 许身健 《计算机科学》 北大核心 2026年第4期356-365,共10页
法律文本表征是法律人工智能系统的基础,其质量直接影响法条预测、案例检索等下游任务。然而,法律文本在专业术语、篇章结构及推理逻辑上的复杂性,使得通用预训练模型易产生语义偏移。开源模型领域知识不足;而闭源模型虽具备较强的理解... 法律文本表征是法律人工智能系统的基础,其质量直接影响法条预测、案例检索等下游任务。然而,法律文本在专业术语、篇章结构及推理逻辑上的复杂性,使得通用预训练模型易产生语义偏移。开源模型领域知识不足;而闭源模型虽具备较强的理解能力,却难以直接复用其内部表征。针对上述问题,提出一种跨模型协同增强的法律文本表征方法(Cross-Model Collaborative Legal Representation,CMCLR),通过构建开源模型与闭源模型的协同框架,引入闭源模型的领域感知能力,以增强开源模型的法律语义建模能力。具体而言,利用闭源模型对法律文本进行动态分块与关键段落识别,提取结构化语义信息,并在协同约束下指导开源模型学习可解释、可训练的文本表征;同时,引入无监督聚类对段落级嵌入进行结构建模,以捕捉法律文本间的潜在语义关联。实验在CAIL2018法条分类数据集及其派生子集上进行,结果表明,CMCLR在CAIL2018法条分类任务上取得90.3%的准确率,较代表性基线方法提升2.4个百分点,并在不同数据规模与场景设置下均表现出良好的稳定性与泛化能力。实验结果验证了跨模型协同表征学习在法律文本深层语义建模中的有效性。 展开更多
关键词 法律文本 表征 文本相关性 法律人工智能 预训练模型 跨模型协同增强的法律文本表征方法
在线阅读 下载PDF
基于多模态信息融合的帕金森病诊断方法研究
8
作者 方圆 赵东梅 +4 位作者 张弟文 刘洪 陈虎 杨红雨 杜文超 《四川大学学报(自然科学版)》 北大核心 2026年第1期25-35,共11页
基于深度学习的计算机辅助诊断技术,作为一种提升帕金森病筛查和门诊诊断准确性的重要工具,已经引起了广泛关注。针对传统研究中单模态分类效果欠佳、公开数据集普适性不强以及样本量有限等问题,本文提出了一种创新的多模态信息融合方法... 基于深度学习的计算机辅助诊断技术,作为一种提升帕金森病筛查和门诊诊断准确性的重要工具,已经引起了广泛关注。针对传统研究中单模态分类效果欠佳、公开数据集普适性不强以及样本量有限等问题,本文提出了一种创新的多模态信息融合方法,用于帕金森病的诊断。该方法通过分析患者在自然交流状态下记录的面部表情、语音和个体属性信息等多源异构数据,进行疾病预测。本研究的创新点在于利用多模态预训练模型来提取鲁棒性的表情和频谱特征,并通过精心设计的DenseConv模块增强多模态表征能力。此外,本研究进一步将个体属性信息(年龄和性别)纳入多模态表征学习框架,设计了一个跨模态渐进层次融合模块,该模块通过采用自注意力机制,实现了表情、频谱特征与个体属性信息的高效融合,进而降低了不同模态特征之间潜在的模态差异,从而显著提升了模型的泛化性和鲁棒性。在构建的真实临床帕金森病诊断数据集上的实验结果表明,本文方法具有卓越的性能,准确率和F1-Score度量指标分别达到了84.4%和84.0,为帕金森病的大规模、普适性和便捷性筛查提供了有力支撑。 展开更多
关键词 帕金森 多模态融合 预训练大模型 渐进层次融合 跨模态
在线阅读 下载PDF
融合预训练音频大模型与密度估计的水轮发电机组声学无监督异常检测
9
作者 武亭 闻疏琳 +5 位作者 阎兆立 付高原 李林峰 刘绪都 程晓斌 杨军 《电子与信息学报》 北大核心 2026年第2期772-783,共12页
水轮发电机组作为水电站的核心动力设备,其安全稳定运行对于整个水电站具有重要意义。近年来,非接触式声学测量作为一种有效的检测手段受到广泛关注,然而水轮发电机组的实际运行的异常声信号难以采集,传统异常检测方法及基于监督学习的... 水轮发电机组作为水电站的核心动力设备,其安全稳定运行对于整个水电站具有重要意义。近年来,非接触式声学测量作为一种有效的检测手段受到广泛关注,然而水轮发电机组的实际运行的异常声信号难以采集,传统异常检测方法及基于监督学习的分类策略在该领域的应用受到限制。针对上述挑战,该文提出一种预训练音频大模型与密度估计k近邻(k-NN)的水轮发电机声学无监督异常检测方法。首先验证了预训练音频模型提取的通用音频特征在异常检测中的有效性;随后设计了一种融合注意力统计池化与warm-up的参数微调策略,实现模型的迁移优化,在推理阶段设计了一种密度估计的k近邻实现鲁棒的距离度量。实验结果表明,该方法在风洞环境达到了98.7%的多指标调和平均数,在滑环室则高达99.9%,为水电站的声学异常检测提供了切实可行且性能优异的解决方案。 展开更多
关键词 预训练音频大模型 水轮发电机组 异常检测 无监督深度学习
在线阅读 下载PDF
基于CLIP模型的苏丹Ⅲ染色切片扫描图像脂滴分割研究
10
作者 王子夜 汤晓蕙 +5 位作者 周兰 许春燕 周顺平 张开乔 刘方舟 周盛斌 《刑事技术》 2026年第2期121-128,共8页
组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染... 组织病理学检验中苏丹Ⅲ染色可确认脂肪栓塞,其定量分级对确定死因有重要意义,但镜下人工观察定级比较依赖个人经验。为了使栓塞程度客观量化,本文探索了对肺组织苏丹Ⅲ特染切片的全视野数字图像中脂滴进行自动分割的方法。苏丹Ⅲ特染切片染剂残留、脂滴染色不均、形状不一、大小差异过大等问题,容易导致误分割和分割不精确。为此,本文提出结合提示学习的对比语言-图像预训练(contrastive language-image pre-training,CLIP)模型框架进行脂滴分割:首先通过跳跃连接的方式将CLIP图像编码器输出的特征图进行融合,通过文本提示引导模型利用CLIP的先验知识精准分割脂滴;再采用dice损失函数缓解图像前景和背景不平衡的问题;最后在切片数据集上进行验证,并与U-Net、FCN8s、UNet++模型进行对比。结果表明,本文所提出的CLIP模型在特染切片图片上进行脂滴分割的效果优于所对比模型。 展开更多
关键词 法医病理学 脂肪栓塞 特殊染色 图像分割 对比语言-图像预训练(CLIP) 深度学习 全视野数字图像
在线阅读 下载PDF
基于提示的小样本情感分析综述
11
作者 姜鑫 马宏伟 张展峰 《软件导刊》 2026年第1期213-220,共8页
随着多媒体平台和大规模语言模型的迅猛发展,采用基于提示的方法实现小样本情感分析,对用户需求分析和系统服务改进具有重要意义。基于提示的小样本情感分析研究,致力于在不同应用场景中合理利用预训练语言模型理解分类任务,推理情感类... 随着多媒体平台和大规模语言模型的迅猛发展,采用基于提示的方法实现小样本情感分析,对用户需求分析和系统服务改进具有重要意义。基于提示的小样本情感分析研究,致力于在不同应用场景中合理利用预训练语言模型理解分类任务,推理情感类别。首先,阐述了小样本情感分析的问题背景;其次,介绍了使用提示—微调、提示调优和上下文学习的方法步骤;再次,系统对比了近来基于提示的小样本情感分析的主流技术,归纳总结了相关语料库、预训练语言模型与提示模板;最后,对基于提示的小样本情感分析未来可能的研究方向进行展望,为句子级文本分类和提示学习相关领域的研究提供参考。 展开更多
关键词 小样本情感分析 预训练语言模型 提示—微调 提示调优 上下文学习
在线阅读 下载PDF
融合双语信息的汉语篇章主次识别方法
12
作者 李艳翠 郭鹏程 苗国义 《南京师大学报(自然科学版)》 北大核心 2026年第2期74-84,共11页
在主次识别中,汉语句子间的显式衔接手段较少,因此其主次识别具有极大的挑战性.英语大多用明确的主从结构或连接词来表示句子的主次关系,而现有方法在训练模型时没有利用英语信息.与现有方法在训练模型时单独使用中文数据不同,提出的方... 在主次识别中,汉语句子间的显式衔接手段较少,因此其主次识别具有极大的挑战性.英语大多用明确的主从结构或连接词来表示句子的主次关系,而现有方法在训练模型时没有利用英语信息.与现有方法在训练模型时单独使用中文数据不同,提出的方法在训练模型时使用平行双语数据.对双语文本编码时使用多语言预训练模型,在得到的编码上应用多头注意力机制,捕获显式或隐含于句中的主从信息.在汉语篇章树库(Chinese Discourse Treebank,CDTB)上的实验显示,提出的模型和方法比之前最好的GMN-Nu模型在宏平均F1值和微平均F1值上提高了8.7%和6.1%;相较于仅使用预训练模型和单语数据训练的方法,融合双语信息的主次识别方法对于mBERT、mT5、XLM-R 3种模型在微平均F1值上分别提高了1.6%、3.5%、1.3%.在汉英篇章结构平行语料库(Chinese-English Discourse Treebank,CEDT)上的实验显示,融合双语信息的主次识别方法比单语言的主次识别方法在微平均F1值和宏平均F1值上分别提升了10.2%和5.8%. 展开更多
关键词 篇章分析 主次识别 预训练模型 双语信息
在线阅读 下载PDF
A Deep Neural Network Based on Two-Stage Training for Estimating Heart Rate Variability From Camera Videos
13
作者 Lan Lan Jin Yin +6 位作者 Haohan Zhang Hua Jiang Rui Qin Xia Zhao Yu Zhang Yilong Wang Jiajun Qiu 《Health Care Science》 2026年第1期74-84,共11页
Background:Studies have shown that heart rate variability(HRV)is a predictor of the prognosis of cardiovascular diseases.Contact heartbeat monitoring equipment is widely used,especially in hospitals,and benefits from ... Background:Studies have shown that heart rate variability(HRV)is a predictor of the prognosis of cardiovascular diseases.Contact heartbeat monitoring equipment is widely used,especially in hospitals,and benefits from the rapidity and accuracy of the detection of physiological health indicators.However,long-term contact with equipment has many adverse effects.The purpose of this study was to improve the accuracy of HRV detection via noncontact equipment,thus enabling HRV to be assessed in various scenarios.Methods:A novel deep learning approach was proposed for measuring heartbeats through camera videos.First,we performed facial segmentation and divided the face into 16 grid cells with different light balance scores.After the trend is filtered by the Hamming window,a transformer-based neural network is used to further filter the signal.Finally,heart rate(HR)and HRV are estimated.Results:We used 1 million synthetic data points for pretraining and a public dataset in combination with a dataset that we constructed for task training.The final results were obtained on a test dataset that we constructed.The accuracy for HR with a low light balance score(0.867-0.983)was greater than that with a high score(0.667-0.750).Our method had higher accuracy in estimating HR than traditional filtering methods(0.167-0.417)and state-of-the-art neural network filtering methods(0.783-0.917)did.The root mean square error of the HRV from the time domain was the lowest,and the correlation index score was the highest for the HRV from the frequency domain estimated by our method compared with those estimated by two neural networks.Conclusions:Light balance,large sample training,and two-stage training can improve the accuracy of HRV estimation. 展开更多
关键词 CAMERA cardiovascular disease deep learning heart rate variability pretraining
在线阅读 下载PDF
融合时频特征与混合文本的多模态股票预测框架MATCH
14
作者 魏涵玥 郭晨娟 +4 位作者 梅杰源 田锦东 陈鹏 徐榕荟 杨彬 《计算机应用》 北大核心 2026年第2期427-436,共10页
现有股票预测模型多基于单一模态,忽视了行业间的联动效应与信息异质性;部分研究虽引入了文本模态,但在处理模态异构所导致的时滞性和多粒度等问题上仍存在不足。因此,提出面向股票市场的融合时频特征与混合文本的多模态股票预测框架MAT... 现有股票预测模型多基于单一模态,忽视了行业间的联动效应与信息异质性;部分研究虽引入了文本模态,但在处理模态异构所导致的时滞性和多粒度等问题上仍存在不足。因此,提出面向股票市场的融合时频特征与混合文本的多模态股票预测框架MATCH(Multimodal stock prediction frAmework inTegrating time-frequenCy features and Hybrid text)。一方面,设计混合专家(MoE)预训练策略为每个行业构建特定的预训练表征模型,在预测过程中动态选择匹配的专家网络,并注入行业特征信息;另一方面,设计频域分解与层次化融合机制,通过双流预训练架构获取高频未来波动和低频未来趋势的表征,把它们与不同时间尺度的文本信息进行跨模态交互,更精准地捕捉市场动态变化,并实现多粒度场景下的时序与文本有效交互。在2个真实股票数据集S&P 500和CMIN-US上,MATCH与ESTIMATE(Efficient STock Integration with teMporal generative filters and wavelet hypergraph ATtEntions)和PatchTST等主流方法进行对比的实验结果显示,在S&P 500数据集上相较次优基线模型Adv-ALSTM,MATCH的夏普比率(SR)提升了50.5%;在更具有挑战性的CMIN-US数据集上,MATCH的SR提升了2.35%,其余指标均取得了最佳成绩。MATCH预测性能提升明显可为金融多模态数据融合提供新颖且高效的解决方案。 展开更多
关键词 金融时间序列 多模态 混合专家模型 预训练模型 时频分析
在线阅读 下载PDF
基于多阶段知识蒸馏的古籍文本相似性匹配
15
作者 史明伟 林民 +3 位作者 孙艳茹 张树钧 斯日古楞 王玉荣 《计算机工程与应用》 北大核心 2026年第7期207-214,共8页
现有基于“预训练+孪生网络”范式的语义相似性匹配算法在数据丰富的语种文本中表现优异,但在低资源语种上效果显著下降,尤其在古籍文本中更为明显。古文数据稀缺且标注困难,缺乏专门的相似性匹配数据集,导致现有方法难以有效应用。为此... 现有基于“预训练+孪生网络”范式的语义相似性匹配算法在数据丰富的语种文本中表现优异,但在低资源语种上效果显著下降,尤其在古籍文本中更为明显。古文数据稀缺且标注困难,缺乏专门的相似性匹配数据集,导致现有方法难以有效应用。为此,提出一种基于多阶段知识蒸馏的古籍文本相似性匹配算法。该方法以易获得的文白句对数据集为基础,采用白话文预训练语言模型作为教师模型,古文预训练语言模型作为学生模型,通过多阶段知识蒸馏将白话文模型的相似性匹配知识迁移到古文模型,从而提高古文模型的相似性匹配能力。同时,为解决模型臃肿问题,在蒸馏过程中引入模型压缩策略,使得模型在保持性能的同时,便于部署。实验结果表明,采用多阶段知识蒸馏框架(multi-stage distillation framework,MSDF)的模型在《二十四史》数据集上性能优于其他方法,并且模型缩小至原来的25%时,依然保持较高的匹配精度,为古籍整理和数字人文研究提供支持。 展开更多
关键词 相似性匹配 知识蒸馏 孪生网络 预训练语言模型 中文古籍
在线阅读 下载PDF
融合提示学习和注意力模块的预训练模型研究
16
作者 蒋安祥 张洁 《智能计算机与应用》 2026年第2期1-7,共7页
针对现有模型对文本预测精度不高、小样本训练结果较差等问题,提出一种改进的语言模型BPFP。首先,在模型嵌入层融合字向量信息和位置编码信息,更好地整合位置信息和语义信息。其次,减少了Transformer编码器的数量,提高了训练速度。最后... 针对现有模型对文本预测精度不高、小样本训练结果较差等问题,提出一种改进的语言模型BPFP。首先,在模型嵌入层融合字向量信息和位置编码信息,更好地整合位置信息和语义信息。其次,减少了Transformer编码器的数量,提高了训练速度。最后,融合了提示学习模块,提升总体精度的同时在小样本数据集上也取得了不错的效果。实验结果显示,在长文本数据集上,BPFP模型在遮挡语言模型和下一句预测准确率上分别较主流模型提升3.7%至6.9%,在短文本数据集上,准确率提升5.9%至12.3%,训练时间缩短了约三分之一。本文研发模型展现出了更强的鲁棒性。 展开更多
关键词 自然语言处理 文本预测 提示学习 预训练模型
在线阅读 下载PDF
基于自监督预训练的单细胞类型注释方法
17
作者 张晴 吴晓晓 +4 位作者 李想 马威 吴通权 谢诒诚 吴兴隆 《武汉工程大学学报》 2026年第1期103-110,共8页
为了应对单细胞RNA测序中准确注释细胞类型的挑战,提出了基于迁移学习和Transformer的深度学习网络单细胞标签注释网络(ScLabel-Net),旨在对小鼠肺部的大规模单细胞数据集进行高效、准确的细胞类型注释。ScLabel-Net首先在约10万个细胞... 为了应对单细胞RNA测序中准确注释细胞类型的挑战,提出了基于迁移学习和Transformer的深度学习网络单细胞标签注释网络(ScLabel-Net),旨在对小鼠肺部的大规模单细胞数据集进行高效、准确的细胞类型注释。ScLabel-Net首先在约10万个细胞的单细胞肺部数据集上进行预训练,通过自监督学习捕捉基因间的相似性,然后将模型迁移到相对较少的数据集上,对特定细胞类型注释任务进行微调。考虑到单细胞数据中常见的细胞类型分布不平衡现象,微调数据集时应用了随机上采样技术,以减轻分布不平衡对注释结果的影响。实验结果表明,ScLabel-Net在GSE267861、GSE264032和Quake等3个小鼠肺部数据集上的细胞类型注释准确率分别达到0.955、0.922和0.986。此外,ScLabel-Net在小鼠其他器官(如气管、肾脏、胰腺)的单细胞数据集上也表现出优异的泛化能力,准确率分别达到0.981、0.951和0.987,验证了ScLabel-Net跨器官的适用性,进一步证明了ScLabel-Net在复杂生物系统和疾病研究中的广泛应用潜力。 展开更多
关键词 细胞类型注释 自监督预训练 深度学习 单细胞RNA测序
在线阅读 下载PDF
视觉-语言模型研究综述
18
作者 马翌硕 张光南 +4 位作者 刘亚婷 闫迪 陈冬 刘星愿 郭帅 《计算机技术与发展》 2026年第3期1-10,共10页
近年来,随着多模态学习的快速发展,视觉-语言模型(Visual-Language Models,VLMs)通过结合视觉和语言信息,凭借着其能利用来自互联网的几乎无限的大规模图像-文本对进行预训练,在图像描述和视觉问答等跨模态任务中展现了显著的性能优势,... 近年来,随着多模态学习的快速发展,视觉-语言模型(Visual-Language Models,VLMs)通过结合视觉和语言信息,凭借着其能利用来自互联网的几乎无限的大规模图像-文本对进行预训练,在图像描述和视觉问答等跨模态任务中展现了显著的性能优势,成为该领域的研究热点。然而,关于VLMs的系统性综述,特别是那些包含性能比较、分析和按照从头训练流程进行全面回顾的研究,仍然较为欠缺。因此,该文对截至2025年VLMs的最新进展进行了全面回顾,具体包括:文本与图像原始特征处理方法的分类与讨论;主流模态交互策略的分类与回顾;经典与前沿模型架构的回顾与讨论;流行VLMs的系统性总结;VLMs的预训练任务、迁移学习策略的详细分类与回顾;现有迁移学习方法在性能表现、领域泛化的基准测试与讨论。提出三个未来研究方向。 展开更多
关键词 视觉语言模型 图像文本预训练 视觉语言学习 多模态 迁移学习
在线阅读 下载PDF
一种针对混合频谱噪声的主动减振技术 被引量:3
19
作者 钟志 牛国标 +1 位作者 刘磊 单明广 《实验技术与管理》 北大核心 2025年第6期46-54,共9页
在船舶、海洋工程装备等领域,振动噪声工况呈现出复杂的宽-窄带复合噪声的特点。以往主动控制技术只针对单一类型的噪声进行消减,导致整体减振效果不佳。为解决上述问题,设计了一种能够消减宽-窄带复合噪声的混合频谱主动减振(MSN-HVNC... 在船舶、海洋工程装备等领域,振动噪声工况呈现出复杂的宽-窄带复合噪声的特点。以往主动控制技术只针对单一类型的噪声进行消减,导致整体减振效果不佳。为解决上述问题,设计了一种能够消减宽-窄带复合噪声的混合频谱主动减振(MSN-HVNC)算法,并在X型小浮筏配机实验平台进行实验验证。MSN-HVNC算法由窄带噪声控制子系统(NBCS)和宽带噪声控制子系统(WBCS)两个子系统组成,两者协同完成对混合频谱噪声的消减。其中,WBCS采用含有预训练的选择系数模型的滤波x最小均方(FxLMS)算法,来完成宽带噪声消减;NBCS采用自适应陷波技术,对能量集中的窄带线谱噪声进行消减。用减振后的残余振动噪声来衡量减振水平,并作为误差信号更新控制器权重。最后,用X型小浮筏配机结构来搭建实验平台,完成振动噪声的主动控制实验。结果表明,MSN-HVNC算法对单频窄带振动噪声在50、75 Hz工况下的平均减振效果分别为23.6、21.3 dB;MSN-HVNC算法对模拟多源耦合振动场景下,混合激励振动信号的平均减振效果为12.4 dB,均优于传统控制算法,对宽-窄带复合的混合频谱噪声具有良好的消减效果。 展开更多
关键词 主动控制 混合频谱噪声 预训练模型 协同控制
在线阅读 下载PDF
基于对抗训练和全局指针网络的医疗文本 实体关系联合抽取模型 被引量:4
20
作者 段宇锋 柏萍 《情报科学》 北大核心 2025年第3期47-57,共11页
【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高... 【目的/意义】在比较分析现有关系抽取方法的基础上,构建适用于医疗文本的关系抽取模型。【方法/过程】构建AGP模型实现关系抽取。该模型将医疗文本的嵌入表示输入Transformer编码器进一步提取文本特征,利用全局指针网络解码。为了提高鲁棒性,模型引入了对抗训练。【结果/结论】AGP模型在CMeIE-V1、CMeIE-V2和DiaKG数据集上F1值分别达到0.6190、0.5321和0.5684。实验结果证明AGP模型在医疗文本关系抽取任务上的性能优于基准模型。【创新/局限】本文提出的模型未整合大语言模型。 展开更多
关键词 对抗训练 全局指针网络 关系抽取 预训练模型 医疗文本
原文传递
上一页 1 2 15 下一页 到第
使用帮助 返回顶部