期刊文献+
共找到820篇文章
< 1 2 41 >
每页显示 20 50 100
战略性技术创新与企业未来产业布局
1
作者 王伟光 吴传波 《工业技术经济》 北大核心 2026年第1期33-42,共10页
未来产业及其优先布局对于新质生产力发展壮大极为重要,但未来产业发展需要前沿性、颠覆性技术创新,而这些具有高度不确定性的技术创新单纯依靠企业自身研发投入很难产生良好效果,适当的政府研发支持即自带国家任务型属性的战略性技术... 未来产业及其优先布局对于新质生产力发展壮大极为重要,但未来产业发展需要前沿性、颠覆性技术创新,而这些具有高度不确定性的技术创新单纯依靠企业自身研发投入很难产生良好效果,适当的政府研发支持即自带国家任务型属性的战略性技术创新是必要的。本文生成了未来产业布局词典,并对上市公司的年报和专利进行文本分析,构建了企业层面的战略性技术创新与未来产业布局指标,并采用双向固定效应模型考察战略性技术创新对企业未来产业布局的影响及作用机制。结果表明战略性技术创新通过跨组织资源集聚机制与创新人才集聚机制促进企业未来产业布局,对小规模、资本密集型、大中城市中的企业促进效果更明显,且在一定程度上抑制了企业短期绩效。本文有助于从微观企业层面理解战略性技术创新在促进未来产业布局过程中所发挥的效能,并提出相关对策建议。 展开更多
关键词 战略性技术创新 未来产业 跨组织资源 创新人才 企业绩效 新质生产力 文本分析 短期绩效
在线阅读 下载PDF
融合多级语义的中文医疗短文本分类模型
2
作者 杨杰 刘纳 +2 位作者 郑国风 李晨 道路 《郑州大学学报(理学版)》 北大核心 2026年第1期51-57,共7页
针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语... 针对医疗短文本分类中关键语义信息提取不足与模型鲁棒性下降的问题,提出了融合多级语义信息的文本分类模型。首先,利用预训练模型捕获文本的初步语义特征。其次,通过胶囊网络提取关键语义信息,确保模型能够有效学习到短文本中的核心语义;采用注意力池化技术聚焦文本中的文档级信息,增强对医学专业术语和概念的识别与理解。最后,引入对抗训练策略,提升模型在面对模糊表达或扰动输入时的稳定性和准确性。在CHIP-CTC、KUAKE_QIC和VSQ三个医疗文本分类数据集上验证了模型的有效性,结果表明,相较于现有模型,所提模型在三个数据集上的F 1值均有所提升,显著增强了中文医疗短文本的分类性能。 展开更多
关键词 中文医疗数据 短文本分类 语义融合 胶囊网络 注意力池化
在线阅读 下载PDF
基于麻雀搜索算法优化Transformer的短文本情感分析方法
3
作者 胡翔 《微处理机》 2026年第1期53-58,共6页
短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短... 短文本情感分析面临诸多挑战,如语义稀疏、表达简洁、缺乏上下文信息等,导致情感特征提取不完整,进而影响分类精度。为解决这些问题,提出基于麻雀搜索算法(SSA)优化Transformer的短文本情感分析方法。该方法通过构建词向量矩阵,转变短文本的表现形式;利用Transformer模型提取情感特征,并引入SSA优化模型超参数;将所提取情感特征输入全连接层+Softmax分类器中,采用交叉熵损失的梯度下降算法衡量文本预测情感与真实情感之间的差异,完成短文本情感分析。SSA具有全局搜索能力强、收敛速度快等优点,能有效优化Transformer模型的超参数,提升模型性能。试验结果表明,所提出方法的迭代损失值较低,分类精度较高,能够较好地捕捉情感特征且对各类情感区分能力强。 展开更多
关键词 麻雀搜索算法 Transformer模型 短文本情感分析 情感特征
在线阅读 下载PDF
启发式图结构增强的社交媒体短文本谣言检测研究 被引量:2
4
作者 李贺 杨心苗 +1 位作者 沈旺 刘嘉宇 《情报理论与实践》 北大核心 2025年第3期151-159,共9页
[目的/意义]研究构建启发式图结构增强的社交媒体短文本谣言检测模型,提升社交媒体短文本谣言分类检测的准确性。[方法/过程]首先从谣言传播结构的角度构建谣言传播树和用户社交网络,从中提取结构内容构建全局网络关系图,创新性地引入... [目的/意义]研究构建启发式图结构增强的社交媒体短文本谣言检测模型,提升社交媒体短文本谣言分类检测的准确性。[方法/过程]首先从谣言传播结构的角度构建谣言传播树和用户社交网络,从中提取结构内容构建全局网络关系图,创新性地引入启发式算法对关系图的图节点和图边权重分配,最后构建谣言检测模型。[结果/结论]谣言检测模型在三个短文本公开数据集上的F1值分别为94.64%、95.52%和97.68%,显著优于基线,且在谣言早期检测中表现出良好的性能。提出的社交媒体短文本谣言检测模型通过启发式图结构增强策略,在捕捉推文之间的全局交互关系方面展示了强大的能力,为谣言检测提供了一种高效且准确的解决方案。[局限]模型在推文语义理解和向量表示方面存在的局限一定程度上影响了谣言检测结果的准确性。 展开更多
关键词 谣言检测 启发式图结构 社交媒体短文本 谣言传播树 全局社交关系
原文传递
基于特征增强的农业短文本语义智能匹配方法研究 被引量:1
5
作者 金宁 郭宇峰 +2 位作者 渠丽娜 缪祎晟 吴华瑞 《农业机械学报》 北大核心 2025年第5期395-404,共10页
针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本... 针对农业短文本数据特征词语少、语义特征稀疏、冗余度高、价值密度低等问题,构建了一种利用多尺度通道注意力算法融合多语义特征的语义匹配模型Font_MBAFF,以提升农业短文本的语义匹配性能。首先利用汉字偏旁部首和四角号码丰富短文本特征;然后利用多尺度卷积核通道注意力加权网络MSCN和基于多头自注意力的双向长短期记忆网络Multi_SAB分别从空间和时间提取语义特征;最后利用文本注意力融合机制TEXTAFF对多种特征进行智能融合。试验结果表明,Font_MBAFF模型可有效弥补短文本特征词少的不足,优化文本特征提取及特征融合,语义匹配正确率达到96.42%,与MaLSTM、BiLSTM、BiLSTM_Self-attention、TEXTCNN_Attention、Sentence-BERT等5种语义匹配模型相比优势明显,正确率至少高2.07个百分点。 展开更多
关键词 农业短文本 语义匹配 字形特征表示 多特征融合
在线阅读 下载PDF
基于社交媒体短文本的城市内涝灾情信息识别与分析 被引量:1
6
作者 王鑫 罗年学 赵前胜 《测绘与空间地理信息》 2025年第4期41-44,47,共5页
社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合... 社交媒体在灾害发生时能够快速提供实时且丰富的灾情信息,为应急救援提供辅助参考。然而,社交媒体信息通常以短文本形式呈现,具有口语化、语义特征稀疏和标注语料匮乏等特征,给灾情信息的识别与分析带来挑战。为此,本文提出了一种结合灾害领域知识的预训练语言模型增强方法,用于识别和分类灾情信息。首先,构建灾情知识库,包含不同灾损事件的触发词及论元;其他,通过分析短文本与灾损事件触发词的语义相似度,生成灾损知识编码;最后,将灾情领域知识与预训练词向量融合增强特征向量并输入神经网络模型实现多标签分类。以2021年7月20日前后河南暴雨灾情数据为例,将本文方法与TextCNN、Attention based CNN模型进行了对比实验,结果表明,该方法不仅有效提升了小样本数据的分类精度,还有效缓解了语义高度重合的数据类型容易错分的问题。同时,对分类结果进行灾损事件论元匹配能够充分挖掘涉灾短文本中的有效灾情信息,辅助应急救援决策。 展开更多
关键词 社交媒体 短文本 多标签分类 积水点 物资需求
在线阅读 下载PDF
融合ERNIE与知识增强的临床短文本分类研究
7
作者 温浩 杨洋 《计算机工程与应用》 北大核心 2025年第8期108-116,共9页
提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERN... 提出一种引入专业医疗知识与文本独特知识的ERNIE模型用于识别无规则的临床短文本。目前ERNIE模型具有一定的医疗领域知识,但是在处理下游任务时无法引入专业医疗知识与文本独特知识,因此为提高临床短文本分类的精确度与效率,提出KW-ERNIE-BiGRU模型。该模型通过引入医学知识与文本独特知识的ERNIE模型训练文本的特征向量,利用BiGRU强化上下文信息,最终在输出层进行文本分类。通过在真实的临床文本的验证与对比实验,KW-ERNIE-BiGRU模型的精确率、召回率、宏F1分别为93.4%、92.1%、92.7%,均优于其他模型。 展开更多
关键词 深度学习 知识图谱 ERNIE 语义强化 临床短文本分类
在线阅读 下载PDF
基于情感增强非参数模型的社交媒体观点聚类
8
作者 刘勘 陈昱 何佳瑞 《中文信息学报》 北大核心 2025年第3期148-158,共11页
观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该... 观点分析对于社交媒体这一关键的网络舆论阵地有着重要的现实意义。该文基于非参数模型的文本聚类技术,将社交媒体文本根据用户主张的观点汇总,直观呈现用户群体所持有的不同立场。针对社交媒体文本长度短、数量多、情感丰富等特点,该文提出使用情感分布增强(Sentiment Distribution Enhanced,SDE)方法改进现有基于狄利克雷过程混合模型的短文本流聚类算法,以高斯分布建模文本情感,并推导相应的坍缩吉布斯采样算法推断参数。该方法在捕获文本情感特征的同时,能够自动确定聚类簇数量并实现观点聚类。与现有先进方法在Tweets、Google News数据集上的对比实验显示,该文提出的方法在标准化互信息、准确度等指标上取得了超越现有模型的聚类表现,并且在主观性较强的数据集上具有更显著的优势。 展开更多
关键词 观点分析 短文本流聚类 非参数模型 社交媒体
在线阅读 下载PDF
KAACNN:融合知识图谱和预训练模型的短文本多标签分类方法
9
作者 陶冶 徐锴 +2 位作者 刘天宇 鲁超峰 王浩杰 《中文信息学报》 北大核心 2025年第3期96-106,共11页
短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训... 短文本分类是自然语言处理的重要任务之一。与段落或文档不同,短文本不完全遵循语法规则,长度短并且没有足够的上下文信息,这给短文本分类带来了很大的挑战。该文提出一种结合知识图谱和预训练语言模型的短文本分类方法,一方面使用预训练语言模型提高短文本的文本表示能力;另一方面从外部知识库中检索短文本概念知识,并利用注意力机制将其与短文本结合用于分类任务。此外,针对数据集类别分布不均衡的问题,该文提出基于领域类别知识图谱的数据增强方法。在三个公共数据集和一个汽车领域客户原话数据集上进行了实验,结果表明,引入知识图谱和预训练语言模型的分类方法优于目前先进的短文本分类方法,证明了外部知识库和预训练语言模型的先验知识在短文本分类中的有效性。 展开更多
关键词 知识图谱 注意力机制 预训练语言模型 数据增强 短文本分类
在线阅读 下载PDF
中文小说短句序列文本复述数据集
10
作者 万福成 雷鑫鹏 +1 位作者 王双 魏斌 《中国科学数据(中英文网络版)》 2025年第3期535-543,共9页
文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中... 文本复述是自然语言处理、自然语言生成重要的研究内容。目前基于神经网络的复述生成研究大部分以英语和日语为研究对象,由于汉语语料资源稀少,导致汉语复述研究滞后。针对这一问题,本研究采用基于北大释义库(PKU Paraphrase Bank)的中文小说复述语料,通过人工挑选和数据预处理得到高质量的短句复述对。数据集包括34770句对,69540句短文本序列,大小为2.91 MB。通过使用LaserTagger复述生成模型与大规模的中文问题匹配语料库(A Largescale Chinese Question Matching Corpus,LCQCM)进行对比,显示本数据集质量更高。本数据集可应用于机器翻译,缓解语料稀疏问题,对自动问答领域问句进行改写和扩展,对信息检索领域检索词、句进行扩展和泛化等。 展开更多
关键词 文本复述 短句序列 复述生成 低资源
在线阅读 下载PDF
基于人机交互和隐马尔可夫模型时序分析的语言文本信息抽取研究
11
作者 王燕 赵建华 《自动化与仪器仪表》 2025年第2期24-27,共4页
为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交... 为提高人机交互过程中对语音文本情感分析的准确率,提出一种结合二阶隐马尔可夫分词模型与Bi_LSTM分类模型的语音文本分词与情感分析方法。其中,通过二阶隐马尔可夫分词实现语音文本信息的分词抽取后;然后,通过Bi_LSTM网络实现对人机交互系统语音文本情感的分析。结果表明,使用二阶隐马尔可夫模型在测试集上进行切分,所得结果相较于使用一阶隐马尔可夫分词模型,更符合实际词义,且与人工分词结果相近;基于二阶隐马尔可夫模型分词结果进行的情感分析,总体准确率相较于基于一阶隐马尔可夫模型提高了1.26%,有效提高了模型的文本情感分析的性能;最终在社交文本数据集上,结合二阶隐马尔可夫分词模型与Bi_LSTM分类预测模型,总体准确率达到92.67%。由此得出,在人机交互的语音识别中,无论是在积极、消极还是中性的语音文本上,本模型对情感倾向的分类准确率都更高于使用一阶隐马尔可夫模型和其他模型,。由此得出,本语音文本抽取方法可用于人机交互中的信息抽取和情感分析。 展开更多
关键词 人机交互 隐马尔可夫模型 长短时网络 文本信息 情感分析
原文传递
基于迁移学习的农业短文本语义相似度计算方法
12
作者 金宁 郭宇峰 +2 位作者 韩晓东 缪祎晟 吴华瑞 《智慧农业(中英文)》 2025年第1期33-43,共11页
[目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Represe... [目的/意义]农业领域高质量的语义相似度计算是推动农业技术推广信息化、智能化发展的重要基础。针对现有文本语义相似度计算模型特征提取不全面、高质量标注数据集少等问题,提出一种基于迁移学习和BERT (Bidirectional Encoder Representations from Transformers)预训练模型的农业短文本语义相似度计算模型CWPT-TSBERT (Chinese-based Wordpiece Tokenization and Transfer-learning by Sentence BERT)。[方法] CWPT-TSBERT依托孪生网络架构,利用迁移学习策略在大规模通用领域标注数据集进行模型预训练,解决农业文本标注数据集少、语义稀疏性高等问题。提出面向中文的子词单元分词方法 CWPT拆分汉字,增强字向量的语义特征表示,进一步丰富了短文本语义特征表达。根据迁移学习的微调机制,利用SBERT (Sentence BERT)模型提取字向量,挖掘汉字间及字形结构间关联关系,提高模型语义相似度计算的正确率。[结果和讨论] CWPT-TSBERT模型的语义相似度计算正确率达到97.18%,高于基于卷积神经网络的TextCNN_Attention、基于循环神经网络的MaLSTM (Manhattan Long Short-Term Memory),以及基于BERT预训练模型的SBERT等12种模型。[结论] CWPT-TSBERT模型在小规模农业短文本数据集上语义相似性计算正确率较高,性能优势明显,为语义智能匹配提供了有效的技术参考。 展开更多
关键词 迁移学习 农业短文本 语义相似度计算 字形特征 知识智能服务 大模型
在线阅读 下载PDF
不同基本单元信息融合的藏文短文本摘要生成 被引量:1
13
作者 夏吾吉 黄鹤鸣 +2 位作者 樊永红 更藏措毛 范玉涛 《计算机工程》 北大核心 2025年第6期174-183,共10页
藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,... 藏文文本摘要能使用户快速有效地理解藏文文本内容。然而,公开的、多领域的大规模藏文摘要数据集的稀缺,使得藏文文本摘要生成的发展面临挑战;此外,藏文文本摘要生成研究借用中文和英文等以词作为基本单元的文本摘要生成技术构建模型,但由于藏文受分词技术的限制,直接以词作为文本摘要生成的基本单元,对性能的影响较大。针对上述问题,构建包含10523条文本-摘要对的多领域藏文短文本摘要数据集TB-SUM,在研究藏文文本构成单元的基础上,提出适用于藏文文本摘要生成的不同基本单元融合方法,并构建融合不同基本单元的藏文文本摘要生成模型Fusion_GloVe_GRU_Atten,利用全局词向量表示(GloVe)模块实现藏文文本向量化后通过双向门控循环单元(Bi-GRU)模块对输入向量进行编码,利用注意力机制获取输入向量的完整语义信息,使解码器更加关注与当前单词相关的编码器输出,同时将GRU作为解码器生成藏文摘要。在数据集TB-SUM和Ti-SUM上的实验结果表明,以音节和词的融合作为模型训练的基本单元,以音节作为测试的基本单元时,Fusion_GloVe_GRU_Atten模型生成短文本摘要效果更好,能得到更高的ROUGE(Recall-Oriented Understudy for Gisting Evaluation)分数。 展开更多
关键词 基本单元 信息融合 词向量 数据集构建 藏文短文本摘要生成
在线阅读 下载PDF
基于双层多智能体大模型的点击诱饵检测 被引量:1
14
作者 袁旭 朱毅 +2 位作者 强继朋 袁运浩 李云 《计算机系统应用》 2025年第5期116-123,共8页
点击诱饵是指用夸张或惊奇的标题吸引用户点击,近年来已在新闻门户和社交媒体等在线应用中呈现泛滥趋势,导致用户的不良体验甚至引起网络欺诈.大模型由于强大的语义理解和文本生成能力,已在一系列自然语言处理任务中取得优异的效果.但是... 点击诱饵是指用夸张或惊奇的标题吸引用户点击,近年来已在新闻门户和社交媒体等在线应用中呈现泛滥趋势,导致用户的不良体验甚至引起网络欺诈.大模型由于强大的语义理解和文本生成能力,已在一系列自然语言处理任务中取得优异的效果.但是,大模型在面对如点击诱饵检测这类决策边界不清晰的特定领域问题时很容易产生幻觉,为此,我们提出基于双层多智能体大模型的方法,在不需要微调整个大模型的情况下,有效提升了点击诱饵检测的准确率.具体来说,通过第1层中智能体的内部投票,和第2层中不同智能体的交叉投票,最终取得了良好的检测效果.通过对3个基准数据集进行验证,本文提出的方法比最先进的大模型和提示学习方法的准确率分别高出近13%和10%. 展开更多
关键词 大模型 多智能体 点击诱饵 短文本分类
在线阅读 下载PDF
基于词向量模型的短文本分类方法研究综述 被引量:1
15
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《南京师范大学学报(工程技术版)》 2025年第2期54-68,共15页
生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采... 生成、信息抽取等领域具有重要的研究意义.相比长文本数据,如何高效地对短文本进行分类是研究的重点.词向量模型可以避免从头开始训练模型,加快了算法研究和实践过程的速度,尤其在短文本分类领域表现突出.本文根据近年来短文本分类中采用的词向量模型,从传统词向量模型和预训练词向量模型来分析主流词向量模型在短文本分类领域的研究现状,简要梳理了词向量模型的发展进程,介绍了词向量模型在短文本分类领域的具体应用,分析了其优缺点,给出了后词向量时代的短文本分类的发展展望,最后探讨了当前词向量模型在短文本分类中存在的局限性及未来的发展方向. 展开更多
关键词 文本挖掘 词向量 短文本分类 预训练模型
在线阅读 下载PDF
基于BERT融合算法的病例文本结构化模型研究
16
作者 张雪 王琛琛 职宁 《中国医疗设备》 2025年第9期12-19,共8页
目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长... 目的为提升临床病例文本中非结构化信息的提取效率与准确性,推动医学智能化发展,本研究提出一种基于双向编码器表示融合算法的病例文本结构化模型。方法该模型采用双向编码器进行语义表示,利用图卷积神经网络提取词语间局部依赖,融合长短时记忆网络建立时序关系,并引入条件随机场优化标签序列的一致性。实验选用MIMIC-Ⅲ和ClinicalSTS这2个权威临床数据集进行分析,构建五类医学文本分类任务,对比所有模型在不同结构组合下的性能表现。结果本研究所提出的病例文本结构化模型的精准度、召回率和F1得分分别为0.92、0.90和0.91,均较传统双向编码器模型提升约10%;在处理超过1000字的长文本场景时,模型效率提升达12%,表现出良好的时效性与可扩展性。结论本研究通过验证深度融合多种结构对提高病例文本结构化处理能力的有效性,为智能医学文本分析提供了理论依据。 展开更多
关键词 病例文本 长短时记忆网络 BERT 图卷积神经网络 结构化模型 医学智能化
在线阅读 下载PDF
基于语义分类的物联网固件中第三方组件识别
17
作者 马峰 于丹 +2 位作者 杨玉丽 马垚 陈永乐 《计算机工程与设计》 北大核心 2025年第1期274-281,共8页
为扩大物联网固件中第三方组件识别范围,从软件供应链层面研究物联网固件安全,提出一种基于语义短文本分类的第三方组件识别方法。通过固件解压提取内部第三方组件和模拟组件运行的方式获取组件语义输出数据,利用Skip-gram将语义输出转... 为扩大物联网固件中第三方组件识别范围,从软件供应链层面研究物联网固件安全,提出一种基于语义短文本分类的第三方组件识别方法。通过固件解压提取内部第三方组件和模拟组件运行的方式获取组件语义输出数据,利用Skip-gram将语义输出转化为词嵌入表示,通过卷积神经网络和双向门控循环单元分别提取语义信息局部特征和全局特征,经过多头注意力机制区分关键语义特征,输入到Softmax分类器中实现可用于识别组件的语义信息分类。通过在10个流行的物联网生产商发布的5453个固件上进行实验,验证了该方法可有效识别第三方组件。 展开更多
关键词 物联网 软件供应链 固件安全 短文本分类 卷积神经网络 双向门控循环单元 多头注意力
在线阅读 下载PDF
基于大批次对抗策略和强化特征提取的文本情感分类方法
18
作者 陈嘉昊 段利国 +3 位作者 常轩伟 李爱萍 崔娟娟 郝渊斌 《计算机科学》 北大核心 2025年第10期247-257,共11页
文本情感分类任务旨在对短文本语句进行分析并判断其对应的情感类别。为解决现有模型在情感分类方面缺乏大规模高质量语料数据集、文本特征非均匀重要性提取不足等问题,提出了一种基于大批次对抗策略和强化特征提取的文本情感分类方法... 文本情感分类任务旨在对短文本语句进行分析并判断其对应的情感类别。为解决现有模型在情感分类方面缺乏大规模高质量语料数据集、文本特征非均匀重要性提取不足等问题,提出了一种基于大批次对抗策略和强化特征提取的文本情感分类方法。首先将文本数据集输入预训练语言模型BERT中,得到相应的词嵌入向量表示;再利用BiLSTM进一步学习序列中的上下文依赖关系;之后将局部注意力机制与TextCNN的局部感受野加权结合,实现强化特征提取能力;最后将BiLSTM的输出与TextCNN的输出进行拼接,得到两个空间的深层特征融合,再交由分类器进行情感分类的判断。整个训练过程采取大批次对抗策略,在词嵌入空间中加入对抗性扰动并进行多次迭代,进而提高模型的鲁棒性。在多个数据集上的实验结果验证了该模型的有效性。 展开更多
关键词 短文本 情感分类 对抗策略 特征提取 词嵌入
在线阅读 下载PDF
融合双通道特征信息的医疗短文本分类模型
19
作者 李晨 刘纳 +2 位作者 郑国风 杨杰 道路 《现代电子技术》 北大核心 2025年第13期123-132,共10页
针对医疗短文本存在特征稀疏、语义歧义和提取短文本特征不充分等问题,提出融合双通道特征的医疗短文本分类模型(EBDF)。该模型利用预训练模型得到动态词向量,使模型包含更丰富的语义信息;之后利用BiLSTM获取全局文本特征信息和DPECNN... 针对医疗短文本存在特征稀疏、语义歧义和提取短文本特征不充分等问题,提出融合双通道特征的医疗短文本分类模型(EBDF)。该模型利用预训练模型得到动态词向量,使模型包含更丰富的语义信息;之后利用BiLSTM获取全局文本特征信息和DPECNN获取深层次的局部文本特征信息,为了提高模型的鲁棒性和泛化能力,采用FGM对抗训练算法对数据进行扰动;最后,将双通道的特征信息进行特征融合获得最终的文本表示。EBDF模型在三个医疗领域和两个通用领域的短文本数据集上与效果较好的模型相比,准确率提升约0.57%~6.16%,F1值提高约0.65%~5.80%。 展开更多
关键词 医疗文本挖掘 短文本分类 特征融合 BiLSTM DPECNN 双通道
在线阅读 下载PDF
外部知识与内部上下文语义聚合的短文本新闻虚假检测模型
20
作者 邱艳芳 赵振宇 +3 位作者 孙志杰 马坤 纪科 陈贞翔 《济南大学学报(自然科学版)》 北大核心 2025年第4期569-575,584,共8页
为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富... 为了解决短文本新闻语义特征稀疏以及忽略了外部知识与短文本新闻语义之间同源关联性的问题,提出一种外部知识与内部上下文语义聚合的短文本新闻虚假检测模型(EKCS-ST),构建新闻特征信息网络,包含新闻主题、作者、实体3种外部知识,丰富短文本新闻语义特征,通过图卷积生成新闻的外部知识图特征;将新闻文本输入到文本编码器中捕获新闻内部上下文语义特征;将外部知识图特征和内部上下文语义特征用于上下文感知计算,加强外部知识与上下文语义的关联性;使用注意力机制筛选和加强新闻关键特征,并且通过调高少数类新闻的损失误差,缓解数据不均衡问题。结果表明,本文所提模型的F_(1)值即精确率和召回率的调和平均值为0.86,比BERT、TextGCN等模型分别高18%、17%,验证了模型的有效性。 展开更多
关键词 短文本新闻虚假检测 外部知识 注意力机制 语义特征
在线阅读 下载PDF
上一页 1 2 41 下一页 到第
使用帮助 返回顶部