期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
基于关键短语和主题的生成式文本摘要模型
1
作者 郭常江 赵铁军 《中文信息学报》 北大核心 2025年第8期149-157,共9页
序列到序列式的生成式文本摘要研究中一直存在噪声干扰,导致模型生成的摘要无法抓住重点信息,甚至会丢失信息;另一方面,模型又受到训练方式的影响,存在“曝光偏差”问题。经研究发现,在模型训练过程中引入文章关键短语和主题信息,可以... 序列到序列式的生成式文本摘要研究中一直存在噪声干扰,导致模型生成的摘要无法抓住重点信息,甚至会丢失信息;另一方面,模型又受到训练方式的影响,存在“曝光偏差”问题。经研究发现,在模型训练过程中引入文章关键短语和主题信息,可以有效帮助模型在生成摘要时获取文章的重要信息,基于此该文提出了一个基于关键短语和主题的生成式文本摘要模型。该模型在编码器端引入关键短语门控网络,在解码器端引入主题感知网络,同时加入强化学习方法,缓解传统有监督训练方式的缺陷。该模型在中文数据集LCSTS和英文数据集CNN/Daily Mail数据集上的ROUGE指标均优于前人的结果。进一步,通过消融实验验证各个组件的正向作用。 展开更多
关键词 生成式文本摘要 关键短语门控 主题感知 强化学习
在线阅读 下载PDF
基于主题模型的(Aspect,Rating)摘要生成方法研究 被引量:2
2
作者 吕品 汪鑫 +1 位作者 罗宜元 计春雷 《电子学报》 EI CAS CSCD 北大核心 2016年第12期3036-3043,共8页
提出基于短语参数学习的主题模型TMPP(Topic Model based on Phrase Parameter)对在线评论中被评价实体的aspect和与之对应的rating进行抽取.TMPP具有三个特点:1)评论用"短语袋"表示;2)将标准的LDA中表示文档-主题的参数扩展... 提出基于短语参数学习的主题模型TMPP(Topic Model based on Phrase Parameter)对在线评论中被评价实体的aspect和与之对应的rating进行抽取.TMPP具有三个特点:1)评论用"短语袋"表示;2)将标准的LDA中表示文档-主题的参数扩展为(aspect,rating)集;3)融合了先验知识.介绍了TMPP模型参数的物理含义、模型的生成过程以及先验知识的获取和表示方法;阐述了在TMPP模型中引入方面集聚类使用先验知识的原因与好处、TMPP模型提取(方面,等级)对形成(aspect,rating)摘要的原理.以真实的在线产品评论数据集为实验对象,在实验过程中引入先验知识的方面识别分析和等级预测精度分析,列出了五类产品相关方面和对立的情感词的实验结果.通过与已有的基线方法比较,实验表明若评论集中每篇评论有一个总体等级,TMPP能产生高质量的(aspect,rating)摘要. 展开更多
关键词 主题模型 (aspect rating)摘要 短语袋 TMPP
在线阅读 下载PDF
基于词聚类的热点话题检测算法 被引量:27
3
作者 龙志祎 程葳 《计算机工程与设计》 CSCD 北大核心 2011年第6期2214-2216,F0003,共4页
对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和... 对应用词聚类进行热点话题检测的算法进行了研究。通过将文档分词并用兼顾长短文章的规则进行特征抽取,将文档聚类空间转化为特征词聚类空间,采用基于互信息的词聚类算法产生热点话题类。以TDT5语料作为测试语料进行了热点话题召回率和话题类纯度评测,实验结果表明,采用基于词聚类的算法进行热点话题检测,热点话题的平均召回率达到83.8%,话题类的平均类纯度达到94.4%,检测出的热点话题类别易于理解。 展开更多
关键词 互信息 词聚类 热点话题发现 特征词抽取 词汇语义相似度
在线阅读 下载PDF
社交网络用户兴趣挖掘研究 被引量:10
4
作者 何炎祥 刘续乐 +2 位作者 陈强 梁伟 孙松涛 《小型微型计算机系统》 CSCD 北大核心 2014年第11期2385-2389,共5页
面向消费者的公司或者企业都希望了解他们用户的需求,而大量的用户产生的数据在很大程度上就体现了用户的兴趣和需求.提出一种用于社交网站上,针对用户生成内容(User Generate Content UGC)和用户关注信息的用户兴趣发掘方法.首先通过... 面向消费者的公司或者企业都希望了解他们用户的需求,而大量的用户产生的数据在很大程度上就体现了用户的兴趣和需求.提出一种用于社交网站上,针对用户生成内容(User Generate Content UGC)和用户关注信息的用户兴趣发掘方法.首先通过启发式初始化的PLSA模型训练得到贴近兴趣类别的话题模型,然后从训练结果中抽取可靠的话题并以此构建分类器,对用户的分享数据进行分类,最后根据用户的分享数据分类结果来识别用户的兴趣类别.在初始化PLSA模型时,用关键词抽取算法抽取每个分类的关键词,并给这些关键词赋予较高的PLSA初始权重,以此来引导PLSA模型的训练.实验的结果表明:本文方法可以有效的构建用户兴趣类别,并对用户兴趣的挖掘比较理想. 展开更多
关键词 用户兴趣挖掘 社交网络 关键词抽取 概率潜在语义分析 话题模型
在线阅读 下载PDF
领有名词短语分裂与汉语话题结构 被引量:19
5
作者 杨大然 《解放军外国语学院学报》 CSSCI 北大核心 2008年第3期17-23,共7页
本文以汉语的话题结构研究为出发点,着重讨论了以"王冕死了父亲"为代表的"领有名词短语分裂"现象。对于此类句式的派生过程,本文主张放弃先前的"领有名词提升移位"方法,而是依据汉语话题句的特性,将句首... 本文以汉语的话题结构研究为出发点,着重讨论了以"王冕死了父亲"为代表的"领有名词短语分裂"现象。对于此类句式的派生过程,本文主张放弃先前的"领有名词提升移位"方法,而是依据汉语话题句的特性,将句首的领有名词分析为一种在原位生成的"悬垂话题",把整个句式分析为"话题—述题"的话题结构,并通过λ转换的方法,从语义角度使悬垂话题的存在得到允准。本文的分析方法既涵盖了这类句式共有的句法和语义特征并能对其进行统一处理,又可以解决"移位说"所无法解释的一些问题,避免了"移位说"的诸多弊端。 展开更多
关键词 领有名词短语分裂 汉语话题结构 悬垂话题 语义空位
在线阅读 下载PDF
基于信息抽取的项目记忆获取方法研究 被引量:3
6
作者 徐进 朱孝文 《情报理论与实践》 CSSCI 北大核心 2020年第8期167-172,共6页
[目的/意义]项目记忆是项目进行过程中产生和应用的项目知识和信息的集合。传统获取、构建项目记忆的方式依赖人工处理,需要投入大量的人力和时间。如何表示项目记忆,以及如何利用非结构化项目文档这类重要的项目数据源来构建项目记忆,... [目的/意义]项目记忆是项目进行过程中产生和应用的项目知识和信息的集合。传统获取、构建项目记忆的方式依赖人工处理,需要投入大量的人力和时间。如何表示项目记忆,以及如何利用非结构化项目文档这类重要的项目数据源来构建项目记忆,仍然是项目知识管理中的关键挑战。[方法/过程]收集了京沪高铁项目的相关文档1078篇,利用依存句法和规则抽取方法得到项目记忆短语和基础信息,利用LDA模型提取项目文档的主题,并对文档集聚类和描述,达到从项目文档中自动提取项目记忆要素、构建、重现项目记忆的目的。[结果/结论]通过实验和比较分析,验证了所提出框架方法的合理性和有效性。所设计的方法流程一定程度上可以为项目组织、团队及成员进行更加高效的项目知识管理与共享提供支持。 展开更多
关键词 项目记忆 记忆获取 信息抽取 短语抽取 主题建模
原文传递
信息检索中主题式词典的构建方法 被引量:5
7
作者 许静芳 李星 李粤 《计算机工程》 EI CAS CSCD 北大核心 2005年第21期143-145,共3页
提出了一种基于用户查询日志的主题式词典的构建方法,用于中文信息检索中分词。利用互信息从用户查询日志中提取短语并与通用词典相结合构建主题式词典。该词典能提高信息检索的准确率和效率,并有助于解决未登录词问题。
关键词 主题式词典 信息检索 中文分词 短语提取
在线阅读 下载PDF
“净+[是]+NP”结构的句法机制和语义关系 被引量:2
8
作者 张道俊 《乐山师范学院学报》 2006年第8期62-66,共5页
“净+[是]+NP”结构入句后,“净”前话题性成分(TP)与“净”后名词性短语(NP)受多种句法条件的限制,如TP一般要求是复数性语词,表处所、时间等的TP一般不能承前省略,TP一般不能是单音节,NP一般是表示人或事物的,NP一般是复杂性成分,NP... “净+[是]+NP”结构入句后,“净”前话题性成分(TP)与“净”后名词性短语(NP)受多种句法条件的限制,如TP一般要求是复数性语词,表处所、时间等的TP一般不能承前省略,TP一般不能是单音节,NP一般是表示人或事物的,NP一般是复杂性成分,NP中不能含有表确定数量的限定成分。文章还讨论了TP与NP之间的语义关系类型。 展开更多
关键词 副词“净” 话题性成分 名词性短语 句法机制 语义关系
在线阅读 下载PDF
违反复杂名词短语限制的语义条件及其语用解释 被引量:1
9
作者 寇鑫 袁毓林 《汉语学报》 CSSCI 北大核心 2019年第2期18-30,95,共14页
复杂名词短语限制(complex noun phrase constraint,CNPC)指关系小句中的名词性成分不能从小句中提取出来作为主句话题。汉语中一些包含关系结构的句子可以违反这一限制。文章首先依据关系化类型和关系结构在主句中的句法位置,讨论违反C... 复杂名词短语限制(complex noun phrase constraint,CNPC)指关系小句中的名词性成分不能从小句中提取出来作为主句话题。汉语中一些包含关系结构的句子可以违反这一限制。文章首先依据关系化类型和关系结构在主句中的句法位置,讨论违反CNPC实例的句法结构特点。然后,结合前人研究中违反CNPC的语义条件的分析,发现违反CNPC的实例在名词成分指称性、主句谓词类型方面均有限制,其中以宾语关系结构作主句主语限制最弱,关系结构作主句宾语限制最强。而在关系结构中加入对比焦点可以打破这些限制,实现关系结构内部成分话题化。最后,文章从语用话题和关系结构的语用功能角度讨论违反CNPC所需的语义条件的原因,认为名词成分指称性和主句谓词类型都是为压制关系结构的话题性而服务的。文章还解释了关系结构作主句主语/宾语时违反CNPC所需条件的不对称性。 展开更多
关键词 复杂名词短语限制 关系结构 关系小句 话题化
原文传递
中文关键短语自动提取方法研究 被引量:3
10
作者 荣垂田 李银银 王琰 《计算机科学与探索》 CSCD 北大核心 2019年第9期1481-1492,共12页
SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,... SegPhrase算法是当前提取关键短语最新的技术,其提取关键短语的结果比传统方法具有更高的准确率和召回率。但是SegPhrase算法在关键短语的提取和质量评估方面还存在一些缺陷。为了提高关键短语提取的质量,实现对中文关键短语的有效提取,对SegPhrase算法进行了改进。在短语产生阶段,通过利用词串之间的互信息特征保留部分低频但关键的短语;在短语质量评估阶段,通过赋予不同特征不同的权重来对短语进行综合评估,选择更符合实际应用语境的短语。最后,为了验证提取的关键短语的质量,将提取的关键短语应用于文档主题分析。通过实验证明,改进的SegPhrase算法比原方法具有更高的召回率和准确率,该方法提取的关键短语的主题分析比基于关键词的主题分析更能够清晰准确地表达文档主题信息。 展开更多
关键词 关键短语提取 文本特征 互信息 主题分析
在线阅读 下载PDF
LDA与词汇链相结合的主题短语抽取方法 被引量:4
11
作者 张小鹏 吕学强 +1 位作者 李卓 徐丽萍 《小型微型计算机系统》 CSCD 北大核心 2018年第11期2457-2463,共7页
主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主... 主题短语能够有效地概括文献主要内容,针对性地反映文献的核心思想.为了改进技术文献的主题抽取效果,在研究LDA主题模型和词汇链的基础上,提出了LDA模型与词汇链相结合的主题短语抽取方法,减小了利用单一LDA模型抽取文献主题中存在的主题漂移问题;在主题短语抽取中,利用对数似然比解决了词汇链构造过程中知识库未收录词的词语相关度的计算问题.实验结果表明,该方法相对于传统方法的主题抽取效果具有明显的改善,且准确率和召回率均有所提升.对信息检索、文本聚类等工作具有十分重要的支撑作用. 展开更多
关键词 LDA模型 词汇链 WORDNET 主题短语 对数似然比
在线阅读 下载PDF
汉语“的”后名词短语主题化的制约条件
12
作者 喻浩朋 《郑州航空工业管理学院学报(社会科学版)》 2005年第3期93-96,共4页
文章讨论了“的”后名词短语的主题化过程中要遵循的制约条件,解释了汉语“的”后NP/DP的主题化过程中的不对称现象。并进一步用优选理论讨论了当汉语“的”后NP/DP被指示代词修饰时的主题化现象。由于优选论具有兼容句法、语用等多种... 文章讨论了“的”后名词短语的主题化过程中要遵循的制约条件,解释了汉语“的”后NP/DP的主题化过程中的不对称现象。并进一步用优选理论讨论了当汉语“的”后NP/DP被指示代词修饰时的主题化现象。由于优选论具有兼容句法、语用等多种因素的优势,可以解释单从句法层面无法解决的难题。 展开更多
关键词 “的”字短语 主题化 优选论 最简方案
在线阅读 下载PDF
基于Kert的中文主题关键短语提取算法 被引量:5
13
作者 刘晨晖 张德生 胡钢 《计算机应用》 CSCD 北大核心 2019年第A01期245-249,共5页
针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词... 针对Kert算法在中文主题关键短语提取结果精确率低、短语歧义性强和主题刻画能力弱等问题,提出一种基于Kert改进后的中文主题关键短语提取算法。该方法首先引入L统计量重构原分词算法,使得原分词算法具备一定的新词识别能力以减少分词后的词语歧义性,然后使用顺序合并代替Kert中的频繁模式增长(FP-Growth)解决候选关键短语集合中短语语序颠倒的问题,最后在此基础上加入改进后的约束排序算法后提出更加有效的中文主题关键短语提取算法。通过与多组近年比较经典的主题关键短语提取算法的对比实验表明:改进算法在提取的精确率、召回率、F值指标的量化结果中有5到20不等的百分点提升。该方法在理论上含有更为严谨的中文短语提取思路,并在实际的文本集主题关键短语提取工作中拥有更为良好的应用价值。 展开更多
关键词 数据挖掘 文本挖掘 中文分词 短语排序 主题关键短语
在线阅读 下载PDF
基于多元词组和数据流聚类的热点话题动态发现 被引量:1
14
作者 黄贵懿 《重庆文理学院学报(社会科学版)》 2016年第2期126-129,144,共5页
本文主要通过改进的TF-IDF算法和多元词组动态构建来选择特征关键词,并利用Clu Stream数据流聚类方法,实现文本主题的动态发现.实验表明,该方法可以较好地发现海量文本信息中不断变化的主题信息,从而达到推荐关联主题、动态监测舆情等目的.
关键词 多元词组 数据流聚类 TF-IDF CluStream 热点话题
在线阅读 下载PDF
基于Bert-Condition-CNN的中文微博立场检测 被引量:12
15
作者 王安君 黄凯凯 陆黎明 《计算机系统应用》 2019年第11期45-53,共9页
微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和... 微博立场检测是判断一段微博文本针对某一目标话题所表达的观点态度是支持、中立或反对.随着社交媒体的发展,从海量的微博数据中挖掘其蕴含的立场信息成为一项重要的研究课题.但是现有的方法往往将其视作情感分类任务,没有对目标话题和微博文本之间的关系特征进行分析,在基于深度学习的分类框架上,扩展并提出了基于Bert-Condition-CNN的立场检测模型,首先为提高话题在文本中的覆盖率,对微博文本进行了主题短语的提取构成话题集;然后使用Bert预训练模型获取文本的句向量,并通过构建话题集和微博文本句向量之间的关系矩阵Condition层来体现两个文本序列的关系特征;最后使用CNN对Condition层进行特征提取,分析不同话题对立场信息的影响并实现对立场标签的预测.该模型在自然语言处理与中文计算会议(NLPCC2016)的数据集中取得了较好的效果,通过主题短语扩展后的Condition层有效地提升了立场检测的准确度. 展开更多
关键词 立场检测 主题短语 关系矩阵 句向量
在线阅读 下载PDF
汉语左移位话题和悬挂话题的制图分析 被引量:4
16
作者 陈维娟 何宏华 《西安外国语大学学报》 CSSCI 2020年第1期22-27,共6页
本文以名词短语和介词短语为例,探究汉语左移位话题和悬挂话题在左缘结构上的分布。研究发现,话题类型、短语类型和语义因素对于话题的分布都具有显著影响;左缘结构上左移位话题与悬挂话题的分布模式具体表现为:1)当两个短语分属不同类... 本文以名词短语和介词短语为例,探究汉语左移位话题和悬挂话题在左缘结构上的分布。研究发现,话题类型、短语类型和语义因素对于话题的分布都具有显著影响;左缘结构上左移位话题与悬挂话题的分布模式具体表现为:1)当两个短语分属不同类型的话题时,话题的排列顺序为:悬挂话题>左移位话题。2)当两个短语同为左移位话题时,要考虑到话题的短语类型及语义特征等因素。当它们同为名词短语且都与主句外题元的语义相容,或者同为介词短语且相互之间存在固定的时空次序时,其排列顺序会影响句子的语义解读。 展开更多
关键词 左移位话题 悬挂话题 左缘结构 短语类型 语义因素
原文传递
介宾短语作主语刍议
17
作者 项菊 《湖北教育学院学报》 2007年第6期3-5,共3页
介宾短语是由介词和其他词或短语组成的语言单位。介宾短语是现代汉语短语中一个比较特殊的类别。一直以来,语法学界对介宾短语的句法功能争议颇大,集中表现在介宾短语在句子中能充当什么句子成分上。我们认为介宾短语在一定条件下可以... 介宾短语是由介词和其他词或短语组成的语言单位。介宾短语是现代汉语短语中一个比较特殊的类别。一直以来,语法学界对介宾短语的句法功能争议颇大,集中表现在介宾短语在句子中能充当什么句子成分上。我们认为介宾短语在一定条件下可以作主语。本文从主语和话题、介宾主语的构成条件、语用价值等方面对介宾主语作进一步的探讨。 展开更多
关键词 介宾短语 主语 话题 构成条件 语用价值
在线阅读 下载PDF
论实现农民非农化的制度创新 被引量:3
18
作者 温晓明 《乡镇经济》 北大核心 2004年第7期5-6,30,共3页
随着工业化进程的加快,农村劳动力就业问题显得越来越突出,农民非农化已成为我国生产力现代化的一种客观趋势,它涉及到与农民生产方式和生活方式变化相关的一切体制、规则、政策和观念的重新安排。本文从农村劳动力就业模式、农村产业... 随着工业化进程的加快,农村劳动力就业问题显得越来越突出,农民非农化已成为我国生产力现代化的一种客观趋势,它涉及到与农民生产方式和生活方式变化相关的一切体制、规则、政策和观念的重新安排。本文从农村劳动力就业模式、农村产业政策、农村城市化、农村市场体系、农村职业教育等方面展开论述,探索实现农民非农化的制度创新。 展开更多
关键词 农民非农化 户籍制度 创新 中国 农村劳动力 就业渠道 产业转移 农民素质 农村城市化
在线阅读 下载PDF
中文文本的主题关键短语提取技术 被引量:5
19
作者 杨玥 张德生 《计算机科学》 CSCD 北大核心 2017年第B11期432-436,共5页
在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和... 在大数据时代,信息量暴增,人们接触最多的信息就是文本信息,每天在互联网上都有无数文本信息被上传或下载。快速掌握这些文本信息内容的重要方法之一就是关键词提取。然而,在传统关键词提取算法中,通常忽略了两个重要的方面:词语长度和文本主题。针对以上两方面问题,提出了提取中文文本的主题关键短语技术。将LDA主题模型与频繁短语发现算法相结合,生成不同长度的频繁候选短语;然后,利用所提的完整性筛选和排序函数对候选短语进行筛选和排序;最后,根据排序结果选择最终的主题关键短语。 展开更多
关键词 关键词提取 LDA主题模型 频繁短语 完整性筛选 排序函数
在线阅读 下载PDF
使用多元语义特征的评论文本主题聚类 被引量:2
20
作者 李亚红 王素格 李德玉 《计算机工程与应用》 CSCD 2013年第2期188-193,共6页
特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该... 特征是一切观点挖掘和情感分析任务的关键所在。对于无监督的文本聚类任务,文本特征的优劣直接影响聚类效果。考察三种语义特征(名词、名词短语、语义角色)对主题聚类的作用以及不同特征之间的相容关系,提出一种消除冗余特征的方法。该方法能有效地去除冗余特征,提高聚类精度。同时还提出一种基于语义角色标注的直接定位有效词特征的聚类方法,实验表明该方法是直接的和有效的,并为特征选择方法提供了新思路。 展开更多
关键词 文本主题聚类 名词特征 短语特征 语义角色特征 相容关系
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部