期刊文献+
共找到510篇文章
< 1 2 26 >
每页显示 20 50 100
Semantic Relation Annotation for Biomedical Text Mining Based on Recursive Directed Graph 被引量:2
1
作者 CHEN Bo Lü Chen +1 位作者 WEI Xiaomei JI Donghong 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2015年第2期141-145,共5页
In this paper we propose a novel model "recursive directed graph" based on feature structure, and apply it to represent the semantic relations of postpositive attributive structures in biomedical texts. The usages o... In this paper we propose a novel model "recursive directed graph" based on feature structure, and apply it to represent the semantic relations of postpositive attributive structures in biomedical texts. The usages of postpositive attributive are complex and variable, especially three categories: present participle phrase, past participle phrase, and preposition phrase as postpositire attributive, which always bring the difficulties of automatic parsing. We summarize these categories and annotate the semantic information. Compared with dependency structure, feature structure, being recursive directed graph, enhances semantic information extraction in biomedical field. The annotation results show that recursive directed graph is more suitable to extract complex semantic relations for biomedical text mining. 展开更多
关键词 biomedical text mining semantic annotation recursive directed graph postpositive attribute
原文传递
The Refinement Algorithm Consideration in Text Clustering Scheme Based on Multilevel Graph
2
作者 CHENJian-bin DONGXiang-jun SONGHan-tao 《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期671-675,共5页
To construct a high efficient text clustering algorithm the multilevel graph model and the refinement algorithm used in the uncoarsening phase is discussed. The model is applied to text clustering. The performance of ... To construct a high efficient text clustering algorithm the multilevel graph model and the refinement algorithm used in the uncoarsening phase is discussed. The model is applied to text clustering. The performance of clustering algorithm has to be improved with the refinement algorithm application. The experiment result demonstrated that the multilevel graph text clustering algorithm is available. Key words text clustering - multilevel coarsen graph model - refinement algorithm - high-dimensional clustering CLC number TP301 Foundation item: Supported by the National Natural Science Foundation of China (60173051)Biography: CHEN Jian-bin(1970-), male, Associate professor, Ph. D., research direction: data mining. 展开更多
关键词 text clustering multilevel coarsen graph model refinement algorithm high-dimensional clustering
在线阅读 下载PDF
基于PKUSEG-Text-GCN的肿瘤疾病预测模型
3
作者 高志玲 赵新宇 《计算机工程与科学》 北大核心 2025年第7期1303-1311,共9页
当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词... 当前疾病预测模型仅关注病历文本的局部信息以及上下文信息,缺乏对全局信息的考虑,由此导致预测结果准确率不高。利用图神经网络关注全局信息的特点,提出将图卷积神经网络(GCN)用于中文电子病历的肿瘤疾病预测。首先,利用医学领域分词工具包PKUSEG对中文电子病历进行分词;其次,通过病历与词的共现关系和病历文本中词与词之间的关系,建立文本图;最后,基于该医学文本图利用图卷积神经网络(Text-GCN)对文本图的特征进行学习,将学习到的模型用于肿瘤疾病预测。实验结果显示,所提模型相比多个模型中的最优模型准确率提升了6%。同时,当数据较少的时候准确率并不会明显下降,表明该模型在电子病历较少的情况下仍具有很好的鲁棒性。 展开更多
关键词 文本图卷积神经网络 中文分词 肿瘤致病分析 肿瘤疾病预测
在线阅读 下载PDF
融合知识增强与SimCLS框架的生成式文本摘要模型
4
作者 刘佳旭 吴石 张艳菊 《计算机系统应用》 2026年第3期44-58,共15页
旨在通过理解输入的原始文本生成简洁、易读的摘要.然而,现有模型输出的摘要中仍存在语义冗余、事实性错误以及暴露偏差的问题.解决这些问题对于提升模型性能和摘要质量具有重要的研究意义.因此,提出一种融合知识增强与SimCLS框架的生... 旨在通过理解输入的原始文本生成简洁、易读的摘要.然而,现有模型输出的摘要中仍存在语义冗余、事实性错误以及暴露偏差的问题.解决这些问题对于提升模型性能和摘要质量具有重要的研究意义.因此,提出一种融合知识增强与SimCLS框架的生成式文本摘要模型.首先,设计了知识增强编码器获取源文本的结构化知识信息以维护全局上下文的结构信息,并结合文本编码器充分编码全文语义信息.其次,在解码器部分利用Copy机制,更加准确地再现原始文本中的信息.最后,使用SimCLS两阶段的对比学习训练框架,对模型生成的摘要进行评分以驱动模型生成高质量摘要.实验结果表明,相较于表现较为优异的SeqCo模型,所提模型在CNN/Daily Mail数据集上的ROUGE-1/2/L及BERTScore分别提升了1.84、0.65、2.04和0.21个百分点,在XSum数据集上分别提升了1.78、2.16、2.36和0.13个百分点,验证了模型的有效性. 展开更多
关键词 知识增强 生成式文本摘要 对比学习 语义知识 图注意力网络
在线阅读 下载PDF
基于关系导向的电力设备故障缺陷文本实体及关系联合抽取方法
5
作者 李艾青 宋辉 +2 位作者 田嘉鹏 盛戈皞 江秀臣 《高压电器》 北大核心 2026年第2期42-49,70,共9页
电力设备故障缺陷知识图谱能够有效提升设备运维的智能化、自动化水平,而实体及关系的抽取对图谱的构建至关重要。然而故障缺陷文本中的实体关系三元组往往互相重叠或嵌套,使得传统方法难以处理,并伴随着误差传递、冗余实体推断等问题... 电力设备故障缺陷知识图谱能够有效提升设备运维的智能化、自动化水平,而实体及关系的抽取对图谱的构建至关重要。然而故障缺陷文本中的实体关系三元组往往互相重叠或嵌套,使得传统方法难以处理,并伴随着误差传递、冗余实体推断等问题。针对这些问题,文中提出了一种面向电力设备故障缺陷领域的实体及关系联合抽取方法。该方法将三元组抽取任务建模为不同关系类型下头实体映射到尾实体的过程,通过首先抽取出头实体,再为已识别头实体针对每一种关系分别标记其对应的尾实体,从而有效缓解了三元组重叠嵌套及冗余推断等问题。实验表明,所提出的方法相较于基线模型在三元组出现不同程度重叠或嵌套时表现地更加鲁棒,其F1值提升了8.57%~25.19%,验证了所提模型的有效性与可行性。 展开更多
关键词 电力设备 故障缺陷文本 知识图谱 知识抽取 深度学习
在线阅读 下载PDF
面向开放互联网的科学数据挖掘与理解
6
作者 卢彬 甘小莺 +8 位作者 甘雨 唐顾 马婷晏 吴律文 赵泽 傅洛伊 金梦 王新兵 周成虎 《计算机学报》 北大核心 2026年第1期15-28,共14页
随着数据观测、采集手段的发展,科学大数据正快速增长,并推动着科研范式变革。然而,科学数据分散在互联网中各类数据仓储与个人数据库中形成了“数据孤岛”,难以有效整合与关联科学数据。为此,本文提出了一种面向开放互联网的科学数据... 随着数据观测、采集手段的发展,科学大数据正快速增长,并推动着科研范式变革。然而,科学数据分散在互联网中各类数据仓储与个人数据库中形成了“数据孤岛”,难以有效整合与关联科学数据。为此,本文提出了一种面向开放互联网的科学数据挖掘与理解方法,通过机器阅读各类互联网数据资源,自动识别科学数据并结构化抽取关键字段,实现对科学数据的高效发现与管理。具体来说,本文融合网页多视角信息设计了网页筛选器WebFlteri,通过融合网页DOM树的结构共现与语义相关实现对网页级特征理解与分类;此外,本文设计了基于节点异构关联的网页阅读器WebRadere,通过异构图网络的消息传递对网页关键信息进行结构化抽取,形成科学数据画像。本文采用了多个公开数据集进行实验性能评估:在网页分类方面,本文提出的WebFlteri相较于基线模型准确率提升了1.39%到3.71%、F1分数提升了1.42%到4.10%;在网页信息抽取方面,本文提出的WebRadere平均提升1.40%,在少训练样本情况下性能提升显著。更进一步,基于本文技术研究成果研制了面向地球科学领域的开放科学数据系统DataExpo,汇聚百万科学数据并提供了数据多维查询、地图查询等数据服务,已应用于“深时数字地球”国际大科学计划,推动了地球科学领域数据驱动范式研究。 展开更多
关键词 科学数据 网页数据挖掘 AI for Science 文本图神经网络 信息检索 自然语言处理
在线阅读 下载PDF
基于语义图增强注意力网络的症状属性分类方法
7
作者 贾鹤鸣 李伟 +1 位作者 李波 张志东 《计算机应用研究》 北大核心 2026年第1期53-59,共7页
医疗对话中的症状属性分类是实现自动诊断系统的关键任务之一,旨在识别对话文本中描述的症状所对应的属性类别。然而,现有方法在处理长文本对话时普遍存在上下文建模能力不足、语义依赖捕捉不充分等问题,导致整体分类性能受限,尤其在少... 医疗对话中的症状属性分类是实现自动诊断系统的关键任务之一,旨在识别对话文本中描述的症状所对应的属性类别。然而,现有方法在处理长文本对话时普遍存在上下文建模能力不足、语义依赖捕捉不充分等问题,导致整体分类性能受限,尤其在少数类样本上的表现欠佳。针对上述挑战,提出一种基于语义图增强注意力网络的症状属性分类方法。该方法通过构建症状关联的文本分割方法、融合编码策略以及基于依存树的关系图注意力网络,在多个层次上增强模型对症状上下文信息的建模能力。实验结果表明,所提方法在CHIP-MDCFNPC数据集上取得了72.13%的F 1(+1.76%)和77.94%的宏平均F 1值(+1.77%)。所提方法能够显著提升长文本医疗对话中症状属性分类的效果,尤其在少数类样本上的表现更为突出,为构建高效可靠的自动诊断系统提供了有益借鉴。 展开更多
关键词 症状属性分类 文本分割 关系图注意力机制
在线阅读 下载PDF
基于LLM语义生成和GAT图结构表征的黑灰产情报检测
8
作者 张益伟 梁丽芝 周璧 《情报杂志》 北大核心 2026年第4期91-101,共11页
[目的]黑灰产情报是对网络黑色产业链与灰色产业链全链路动态信息的系统性归集,实现黑灰产情报检测可有效阻断其产业链上下游的渗透攻击、数据窃取、资金欺诈等恶意行为,对夯实网络空间安全防线、加强威胁情报信息挖掘、保障数字生态健... [目的]黑灰产情报是对网络黑色产业链与灰色产业链全链路动态信息的系统性归集,实现黑灰产情报检测可有效阻断其产业链上下游的渗透攻击、数据窃取、资金欺诈等恶意行为,对夯实网络空间安全防线、加强威胁情报信息挖掘、保障数字生态健康稳定具有积极意义。[方法]提出一种黑灰产情报检测模型LLM-GAT-GMF,基于大语言模型和降维技术生成兼具低维稠密和语义判别力的文本向量,进一步基于图注意力网络提取黑灰产情报所暗含的图结构特征表示,最后采用门控多模态融合机制(GMF)融合文图特征。[结果/结论]研究发现,LLM-GAT-GMF模型在黑灰产情报检测任务中的精确率可达0.914,其F1较性能次优的基线模型提升了2.2个百分点;模型具备一定的泛化能力和鲁棒性,具备可观的延伸价值。建议打造多源威胁情报的融合协同框架、制定面向AI深度应用的检测实施指南、构建“技术—数据—机制”一体化的治理闭环,以期进一步促进黑灰产情报的提前检测与预警。 展开更多
关键词 黑灰产情报 LLM-GAT-GMF模型 网络安全 威胁情报 情报检测 文图融合
在线阅读 下载PDF
面向派生定密的图神经网络文本匹配模型研究
9
作者 于淼 郭松辉 +1 位作者 宋帅超 杨烨铭 《信息网络安全》 北大核心 2026年第4期605-614,共10页
派生定密是根据文本语义相似程度判断密级的定密方式,一般被抽象为文本匹配任务。由于待定密文本普遍具有篇幅较长、密点特征稀疏、语义结构复杂等特点,传统文本匹配方法难以准确建模和捕获文本中包含涉密事项语义的密点特征,因此,文章... 派生定密是根据文本语义相似程度判断密级的定密方式,一般被抽象为文本匹配任务。由于待定密文本普遍具有篇幅较长、密点特征稀疏、语义结构复杂等特点,传统文本匹配方法难以准确建模和捕获文本中包含涉密事项语义的密点特征,因此,文章提出一种面向派生定密的图神经网络文本匹配模型,将文本匹配转化为图匹配问题。首先,设计密点特征提取器,将文本建模为表示密点特征的匹配图,以解决待定密文本密点特征表示能力弱的问题。然后,设计分层化图神经网络,对编码后的匹配图进行多轮更新和聚合操作,以增强对待定密文本之间相似性特征的提取。最后,根据匹配图的边预测文本定密结果。实验结果表明,在模拟派生定密数据集上,该模型性能提升明显,准确率提升4.77%以上,F1值提升3.83%以上。 展开更多
关键词 派生定密 图神经网络 密点特征提取器 长文本匹配 匹配图
在线阅读 下载PDF
基于CI-GAT的煤矿安全事故文本分类研究
10
作者 杨锦涛 杨超宇 《矿产保护与利用》 2026年第1期56-67,共12页
针对煤矿生产领域事故的复杂性、类别的不平衡性以及事故致因和事故类别之间的因果性,提出了一种基于因果效应和图注意力网络的煤矿安全事故文本图数据分类算法CI-GAT,根据事故潜在致因预测煤矿安全事故类别。算法以CI-GNN模型为基础框... 针对煤矿生产领域事故的复杂性、类别的不平衡性以及事故致因和事故类别之间的因果性,提出了一种基于因果效应和图注意力网络的煤矿安全事故文本图数据分类算法CI-GAT,根据事故潜在致因预测煤矿安全事故类别。算法以CI-GNN模型为基础框架,首先优化了GraphVAE模块,编码器部分通过增加GCN层构建更深的GCN结构,解码器部分引入BatchNorm和Dropout,更加全面地解码事故文本图的致因节点。在算法的分类器模块使用GAT网络代替GIN,更好地捕获事故节点之间的依赖关系。此外,通过引入类别原型存储器实现事故的类别增强,降低类别不平衡的影响,在多粒度特征融合模块引进门控机制FusionGate以融合事故的全局特征和节点特征,将结果传入包含两个自适应残差块的MLP的解码器进行解码,输出事故类别预测结果。在自建的煤矿安全事故文本图数据集上进行实验,准确率、精确率、召回率和F1值分别为96.3%、89.8%、93%和0.913,验证了所提出的算法在煤矿安全事故文本图数据集上分类的优势。 展开更多
关键词 煤矿安全事故 CI-GAT算法 因果效应 graphVAE FusionGate 文本图分类
在线阅读 下载PDF
基于多源信息的专利分类研究
11
作者 何宏 姚致远 +2 位作者 陈信 俞东进 刘锋光 《科技管理研究》 2026年第4期142-155,共14页
传统的专利分类方法主要聚焦专利文本信息,忽视了其他元数据信息的应用。为提升专利分类对技术创新与产业发展的促进作用,本文提出了一种新型的专利分类模型MinPac,综合运用包括文本信息和元数据信息在内的多源信息,从多维度提升专利分... 传统的专利分类方法主要聚焦专利文本信息,忽视了其他元数据信息的应用。为提升专利分类对技术创新与产业发展的促进作用,本文提出了一种新型的专利分类模型MinPac,综合运用包括文本信息和元数据信息在内的多源信息,从多维度提升专利分类的性能。具体而言,MinPac模型使用卷积神经网络处理专利文本,生成文本分类分数;根据专利受让人、发明人、审核人和引用信息等元数据信息构建异构图,使用图采样与聚合算法处理异构图,生成图结构分类分数;对两种分类分数平均池化得到最终分类分数。实验结果表明,MinPac模型在所有指标上的结果都优于其他的基线方法,尤其是在Precision@1和NDCG@1这两个指标上实现了5.9%的性能提升。因此,专利分类应突破单一文本分析的框架,系统地融合技术内容、人员协作与审查行为等多维度信息,方能更精准地刻画专利的技术归属与创新脉络。MinPac模型在提高专利分类性能方面具有显著优势,在促进专利信息的社会科学应用方面具有较大潜力,可为相关领域的政策制定、产业分析和学术研究提供新的视角和方法论。 展开更多
关键词 专利分类 文本分类 图表示学习 专利文本 元数据信息 多源信息融合 自然语言处理
在线阅读 下载PDF
基于文本图表征的GAI生成内容与原始 语料的对比研究
12
作者 黄炜 吴昀璟 +1 位作者 余辉 李伟卿 《情报杂志》 北大核心 2026年第2期124-130,F0003,共8页
人工智能生成内容在网络空间中日益泛滥。探究人类生成内容与人工智能生成内容的差异,为未来检测识别人工智能生成内容的研究工作提供参考。以网络新闻文本为例,首先使用依存句法分析方法提取文本语义结构,然后通过随机游走算法提取图... 人工智能生成内容在网络空间中日益泛滥。探究人类生成内容与人工智能生成内容的差异,为未来检测识别人工智能生成内容的研究工作提供参考。以网络新闻文本为例,首先使用依存句法分析方法提取文本语义结构,然后通过随机游走算法提取图向量表征,最后对比原始文本(原始语料)与经过生成式人工智能释义后文本的共性和差异性。研究结果表明,由生成式人工智能释义后的文本之间具有较强的共性,表现为相似度均在0.7以上;原始文本与生成式人工智能释义后的文本具有较强的差异性,并且差异性随模型随机性增加而增加,表现为两者相似度由0.6至0.4逐渐递减。 展开更多
关键词 生成式人工智能 文本图表征 网络新闻文本 人工智能生成内容检测 文本语义结构 依存句法
在线阅读 下载PDF
基于层次感知匹配的文本隐写分析方法
13
作者 贾江浩 张梓葳 +2 位作者 郜丽婷 文娟 薛一鸣 《计算机工程》 北大核心 2026年第2期245-252,共8页
针对现有文本隐写分析模型难以学习和提取载密数据中真实存在的多层有效信息的问题,提出一种基于层次感知匹配的文本隐写分析方法HAM-Stega。该方法利用隐写数据中的文本信息与标签信息之间相对距离的匹配关系,以层次感知的方式获取文... 针对现有文本隐写分析模型难以学习和提取载密数据中真实存在的多层有效信息的问题,提出一种基于层次感知匹配的文本隐写分析方法HAM-Stega。该方法利用隐写数据中的文本信息与标签信息之间相对距离的匹配关系,以层次感知的方式获取文本与粗粒度、细粒度标签之间的特征匹配关系,以此设计联合嵌入损失函数和匹配学习损失函数,引导文本特征表示进行分类学习,得到最终的层次分类信息。实验结果表明,HAM-Stega在更符合现实场景的多分布混合数据集Large上的检测精度比对比模型提高了1.25~7.42百分点,表明该模型在混合数据集上具有有效的隐写分析检测能力。同时,HAM-Stega对于隐写数据中存在的其他多层有效信息(载密文本的隐写算法、嵌入率、语料类型等)可以进行提取和检测,其在层次分类指标Macro-F1和Micro-F1上相较于预训练的BERT模型分别提高了5.41和4.36百分点。 展开更多
关键词 信息安全 文本隐写分析 层次感知匹配 图神经网络 BERT
在线阅读 下载PDF
面向公安侦查的社交平台用户画像构建方法研究
14
作者 韩沈飞 何芳州 《情报探索》 2026年第1期33-41,共9页
[目的/意义]旨在探索一种基于社交平台数据的用户画像构建方法,通过分析用户行为特征为公安侦查提供数据支持。[方法/过程]以微信平台为数据来源,采用图卷积神经网络GCN模型对用户朋友圈行为数据进行挖掘,提取用户社交特征;同时,利用DSR... [目的/意义]旨在探索一种基于社交平台数据的用户画像构建方法,通过分析用户行为特征为公安侦查提供数据支持。[方法/过程]以微信平台为数据来源,采用图卷积神经网络GCN模型对用户朋友圈行为数据进行挖掘,提取用户社交特征;同时,利用DSR-BGRU(Dynamic Semantic Representation-Bidirectional Gated Recurrent Unit)模型对用户聊天记录进行文本分类,提取用户兴趣标签,并结合警务数据库中的犯罪标签,构建完整的用户标签体系。[结果/结论]该方法能够有效挖掘用户的社交特征,为犯罪个体的画像构建提供了可靠的技术支持。 展开更多
关键词 用户画像 图卷积神经网络 文本分类 标签提取
在线阅读 下载PDF
融合全局异构图与标签感知联合嵌入的多标签文本分类
15
作者 王连喜 黄华煜 +1 位作者 林楠铠 陈卓玮 《情报杂志》 北大核心 2026年第3期159-166,共8页
[目的]多标签文本分类通过为文本分配多个语义标签,能有效解决传统单标签分类对复杂语义表征不足的问题,在学术文献分类、信息检索等领域具有重要应用价值。然而,现有方法普遍存在全局语义建模不充分与局部特征交互缺失的双重挑战。[方... [目的]多标签文本分类通过为文本分配多个语义标签,能有效解决传统单标签分类对复杂语义表征不足的问题,在学术文献分类、信息检索等领域具有重要应用价值。然而,现有方法普遍存在全局语义建模不充分与局部特征交互缺失的双重挑战。[方法]提出一种融合全局异构图与标签感知联合嵌入的多标签文本分类方法,涵盖标签-文本联合嵌入模块、全局异构图模块、交叉注意力融合模块。通过建立文本-词汇-标签的全局异构图网络,利用图卷积聚合跨节点语义信息以捕获长程依赖;同时设计标签感知的联合嵌入机制提取局部上下文特征,并通过交叉注意力实现全局语义与局部特征的动态融合。[结果/结论]在学术文献分类和新闻主题识别领域的三个基准数据集上的实验表明,提出的方法在Macro F1、Micro F1和Jaccard指标上分别取得1.05%~2.74%、0.13%~0.88%和0.1%~1.47%的显著提升,消融实验验证了全局图建模与联合嵌入机制的有效性。 展开更多
关键词 多标签文本分类 全局异构图 标签感知联合嵌入 交叉注意力
在线阅读 下载PDF
基于三角互证的《脾胃论》阴火理论现代诠释
16
作者 王占荣 杨涛 +3 位作者 费宇彤 李国菁 丁金芳 冯兴中 《北京中医药》 2026年第2期266-271,共6页
目的通过三角互证混合研究方法,系统挖掘《脾胃论》中“阴火”理论的现代内涵,构建“古籍文本挖掘-现代文献综述-实验验证”证据链,推动中医古籍研究的范式创新。方法①理论解构:基于图论构建《脾胃论》病机网络,通过跨文本对齐(《类经... 目的通过三角互证混合研究方法,系统挖掘《脾胃论》中“阴火”理论的现代内涵,构建“古籍文本挖掘-现代文献综述-实验验证”证据链,推动中医古籍研究的范式创新。方法①理论解构:基于图论构建《脾胃论》病机网络,通过跨文本对齐(《类经》《伤寒论》)和图同构分析验证其与现代生理机制的结构相似性;②诊断转化:运用范围界定文献综述三级编码(开放→主轴→选择)确定阴火的现代替代证型;③实验互证:量化比较脾胃湿热证与非湿热证患者的额/手汗出比及舌下体温差异。结果①文本挖掘显示,阴火与湿热共享“脾胃失运→津液障碍→清阳不升”病机网络(Degree=15),且与现代“蒸发散热障碍”结构匹配;②现代文献研究确定“湿热证”为阴火核心替代诊断(占比58%);③脾胃湿热证患者额/手汗出比及舌下体温更高(P<0.01)。结论通过混合方法构建闭环验证体系,揭示阴火形成与脾胃湿热证(蒸发散热障碍)的关联机制,为中医古籍理论的现代化诠释提供了可推广的研究范式。 展开更多
关键词 三角互证 阴火 图论文本挖掘 范围界定现代文献研究 混合研究
原文传递
一种基于TextRank的单文本关键字提取算法 被引量:20
17
作者 柳林青 余瀚 +1 位作者 费宁 陈春玲 《计算机应用研究》 CSCD 北大核心 2018年第3期705-710,共6页
作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结... 作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结合,提出节点间边权为条件概率的新模型生成算法TextRank_Revised。通过对有标记和无标记的验证集进行验证,证明新的算法在不提升时间复杂度的前提下,通过计算单文本得出的单词排序结果相较于原TextRank算法更加吻合人工对文档的关键字提取结果。 展开更多
关键词 textRank 单文本关键字 提取算法 有向带权图 马尔可夫状态转移模型
在线阅读 下载PDF
KG和RAG协同知识增强的数学古籍领域智能体
18
作者 赵学东 林民 +2 位作者 唐邦洋 董杰 白胡日查 《计算机工程与应用》 北大核心 2026年第4期124-136,共13页
通用大语言模型(large language model,LLM)在数学古籍领域常因专业术语识别不准确、上下文关系理解偏差、知识推理不全和计算过程错误而产生严重的幻觉(hallucination)问题,包括事实性幻觉、忠实性幻觉和逻辑性幻觉。检索增强生成(retr... 通用大语言模型(large language model,LLM)在数学古籍领域常因专业术语识别不准确、上下文关系理解偏差、知识推理不全和计算过程错误而产生严重的幻觉(hallucination)问题,包括事实性幻觉、忠实性幻觉和逻辑性幻觉。检索增强生成(retrieval-augmented generation,RAG)技术引入外部领域文本,目前是缓解大语言模型领域事实性幻觉的一种有效方法。然而RAG的检索内容存在噪声,且知识片段之间缺乏深层关联,使得RAG在缓解忠实性幻觉和逻辑性幻觉方面的能力较为有限。领域知识图谱(domain knowledge graph,DKG)具有将领域知识关联起来的能力,为此提出了DKG和RAG协同知识增强框架(collaborative knowledge augmentation between domain knowledge graph and retrieval-augmented generation,CogKAG),并构建数学古籍《九章算术》领域智能体。CogKAG框架智能体旨在通过检索DKG的结构化领域关联知识和利用RAG检索非结构化领域文本构建动态结构化综合上下文提示,增强LLM的上下文关系及逻辑推理计算能力,从而有效缓解其在数学古籍领域中的忠实性、逻辑性幻觉问题。实验结果证明,CogKAG框架智能体可以显著减轻LLM在数学古籍领域上的幻觉,从而提升在问答(question and answer,QA)任务上的性能。 展开更多
关键词 大语言模型 领域知识图谱 检索增强生成 智能体 数学古籍 《九章算术》
在线阅读 下载PDF
融合嵌入信息与AHGCN模型的电网项目多标签文本分类方法
19
作者 张艳 张执 +2 位作者 刘明红 韩立芝 柏广宇 《控制工程》 北大核心 2026年第1期57-65,共9页
为了解决传统多标签文本分类方法难以综合考虑文本与标签之间复杂关系的问题,提出了融合嵌入信息与自适应异构图卷积网络(adaptive heterogeneous graph convolutional network,AHGCN)模型的多标签文本分类方法。首先,采用全局词频统计... 为了解决传统多标签文本分类方法难以综合考虑文本与标签之间复杂关系的问题,提出了融合嵌入信息与自适应异构图卷积网络(adaptive heterogeneous graph convolutional network,AHGCN)模型的多标签文本分类方法。首先,采用全局词频统计的词表征模型进行文本表示,结合双向长短期记忆神经网络与自注意力机制提取多层次语义特征;然后,构建AHGCN模型,通过多尺度卷积核融合文本和标签的全局与局部信息,建立文本-标签异构图以捕捉二者的潜在关联;最后,拼接不同层级特征,利用分类器实现文本分类。实验将所提方法与目前的主流多标签文本分类方法进行了比较。实验结果表明,在大规模数据集的多标签文本分类中,所提方法的汉明损失最小且准确率最高。在实际电网项目的应用中,所提方法的多标签文本分类准确率可达96.85%。 展开更多
关键词 嵌入信息 图卷积 注意力机制 电网项目 文本分类
原文传递
基于GraphSAGE网络的藏文短文本分类研究 被引量:1
20
作者 敬容 杨逸民 +3 位作者 万福成 国旗 于洪志 马宁 《中文信息学报》 CSCD 北大核心 2024年第9期58-65,共8页
文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模... 文本分类是自然语言处理领域的重要研究方向,由于藏文数据的稀缺性、语言学特征抽取的复杂性、篇章结构的多样性等因素导致藏文文本分类任务进展缓慢。因此,该文以图神经作为基础模型进行改进。首先,在“音节-音节”“音节-文档”建模的基础上,融合文档特征,采用二元分类模型动态网络构建“文档-文档”边,以充分挖掘短文本的全局特征,增加滑动窗口,减少模型的计算复杂度并寻找最优窗口取值。其次,针对藏文短文本的音节稀疏性,首次引入GraphSAGE作为基础模型,并探究不同聚合方式在藏文短文本分类上的性能差异。最后,为捕获节点间关系的异质性,对邻居节点进行特征加权再平均池化以增强模型的特征提取能力。在TNCC标题文本数据集上,该文模型的分类准确率达到了62.50%,与传统GCN、原始GraphSAGE和预训练语言模型CINO相比,该方法在分类准确率上分别提高了2.56%、1%和2.4%。 展开更多
关键词 图神经网络 藏文文本分类 TNCC数据集
在线阅读 下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部