期刊文献+
共找到32篇文章
< 1 2 >
每页显示 20 50 100
融合LDA与TextRank的关键词抽取研究 被引量:70
1
作者 顾益军 夏天 《现代图书情报技术》 CSSCI 北大核心 2014年第7期41-47,共7页
【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关... 【目的】通过将单一文档内部的结构信息和文档整体的主题信息融合到一起进行关键词抽取。【方法】利用LDA对文档集进行主题建模和候选关键词的主题影响力计算,进而对TextRank算法进行改进,将候选关键词的重要性按照主题影响力和邻接关系进行非均匀传递,并构建新的概率转移矩阵用于词图迭代计算和关键词抽取。【结果】实现LDA与TextRank的有效融合,当数据集呈现较强的主题分布时,可以显著改善关键词抽取效果。【局限】融合方法需要进行代价较高的多文档主题分析。【结论】关键词既与文档本身相关,也与文档所在的文档集合相关,二者结合是改进关键词抽取结果的有效途径。 展开更多
关键词 关键词抽取 lda textrank 图模型
原文传递
一种基于LDA和TextRank的文本关键短语抽取方案的设计与实现 被引量:6
2
作者 郎冬冬 刘晨晨 +2 位作者 冯旭鹏 刘利军 黄青松 《计算机应用与软件》 北大核心 2018年第3期54-60,共7页
为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词... 为了抽取出更能反映文本主题的关键词,也为了解决文本关键短语抽取任务中主题信息缺失的问题,提出一种基于LDA和TextRank的单文本关键短语抽取方法。该方法利用LDA模型对语料库中的文本进行主题挖掘,并融入目标文本中的主题覆盖度和词语共现关系构建无向加权词图;引入节点词汇主题影响力因素根据词语主题相关性来修改节点间的随机跳转概率,在词图的基础上运用TextRank算法获取候选关键词排序;再利用bootstraping算法的思想迭代生成表意性更强的关键短语。实验表明,该方法可有效提取出表意性强且涵盖文本主题信息的关键短语。 展开更多
关键词 关键短语抽取 lda模型 主题挖掘 textrank 主题影响力
在线阅读 下载PDF
基于LDA和TF-IDF的关键词提取算法研究 被引量:8
3
作者 苏婧琼 苏艳琼 《长江信息通信》 2024年第1期78-80,共3页
在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想... 在自然语言处理领域,对于海量的文本文件,让用户在最短的时间找到到自己感兴趣的文档,最关键的工作是要每篇文档的关键词提取出来。而不管是针对一篇长文章或是一篇短文章,通常能够直接通过这几个关键字去窥探出整篇文章背后的主题思想。文章分别介绍了LDA主题模型和TFIDF算法在关键词提取中的应用,并进行了对比,结果表明在关键词提取方面都可以取得较好的效果。 展开更多
关键词 lda主题模型 TFIDF算法 关键词提取
在线阅读 下载PDF
基于情感分析与TextRank的负面在线评论关键词抽取 被引量:21
4
作者 庞庆华 董显蔚 +1 位作者 周斌 付眸 《情报科学》 CSSCI 北大核心 2022年第5期111-117,共7页
【目的/意义】负面在线评论已成为商家重要的经营决策信息,对了解客户消费满意度、改善产品和服务质量具有重要意义。【方法/过程】该文将情感分析和关键词抽取相结合,提出一种基于BiGRU-CNN和TextRank的在线评论负面关键词抽取方法,即... 【目的/意义】负面在线评论已成为商家重要的经营决策信息,对了解客户消费满意度、改善产品和服务质量具有重要意义。【方法/过程】该文将情感分析和关键词抽取相结合,提出一种基于BiGRU-CNN和TextRank的在线评论负面关键词抽取方法,即首先对在线评论文本数据进行清洗,然后构建BiGRU-CNN情感分类模型对在线评论进行情感分析,最后采取TextRank方法抽取情感分析得到的负面评论中的关键词。利用这种方法,对十个产品与服务类别的6万余条消费者在线评论文本数据进行实证分析。【结果/结论】实验结果表明,该方法能准确判别客户负面在线评论情感倾向,F1值达92.41%,并且负面在线评论关键词抽取结果能较好帮助商家完善产品质量和服务。【创新/局限】提出一种结合双向GRU和CNN结合的情感分类模型,在此基础上基于TextRank方法抽取情感分析得到的负面评论中的关键词,进一步提升模型对于在线评论情感分析的准确性。 展开更多
关键词 负面评论 情感分析 textrank 深度学习 模型构建 关键词抽取
原文传递
融合Word2vec与TextRank的关键词抽取研究 被引量:69
5
作者 宁建飞 刘降珍 《现代图书情报技术》 CSSCI 2016年第6期20-27,共8页
【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之... 【目的】通过融合单个文档内部结构信息和文档整体的词向量关系进行关键词抽取。【方法】利用Word2vec将文档集中所有词汇进行向量表征,并且通过词向量计算词汇之间的相似度,进而对Text Rank算法进行改进,将候选关键词的权重按照词汇之间的相似度和邻接关系进行非均匀分配,并构建对应的概率转移矩阵用于词汇图模型的迭代计算以及关键词抽取。【结果】实现Word2vec与Text Rank的有效融合,且当训练文档集词汇分布合理时,关键词抽取效果较明显。【局限】需要进行成本较高的文档集训练,获取词向量以及词关系矩阵。【结论】文档集中的词关系有助于修正单文档内部的词关系,提升单文档的关键词抽取准确性。 展开更多
关键词 抽取 Word2vec textrank 图模型 词向量
原文传递
词语位置加权TextRank的关键词抽取研究 被引量:77
6
作者 夏天 《现代图书情报技术》 CSSCI 北大核心 2013年第9期30-34,共5页
把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键... 把关键词抽取问题看作是构成文档词语的重要性排序问题,基于TextRank基本思想,构建候选关键词图,引入覆盖影响力、位置影响力和频度影响力用于计算词语之间的影响力概率转移矩阵,通过迭代法实现候选关键词分值计算,并挑选前N个作为关键词抽取结果。实验结果表明,对词语位置加权的TextRank方法优于传统的TextRank方法和基于LDA主题模型的关键词抽取方法。 展开更多
关键词 关键词抽取 词排序 textrank 图模型lda
原文传递
一种基于TextRank的文本二次聚类算法 被引量:3
7
作者 潘晓英 胡开开 朱静 《计算机技术与发展》 2016年第8期7-11,共5页
针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算... 针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。实验结果表明,改进后的算法在聚类效果上要优于传统的VSM聚类和基于主题模型的LDA算法。 展开更多
关键词 文本聚类 textrank 关键词提取 向量空间模型 lda
在线阅读 下载PDF
基于HMM的加权Textrank单文档的关键词抽取算法 被引量:12
8
作者 方康 韩立新 《信息技术》 2015年第4期114-116,120,共4页
文中介绍了现有几种比较流行的关键词提取技术,提出了基于隐马尔科夫模型的加权Textrank的单文档关键词抽取算法。对比分析了三种算法的效果:基于词频的关键词提取算法,基于词性、位置、频度的关键词提取算法,加权Textrank算法。实验结... 文中介绍了现有几种比较流行的关键词提取技术,提出了基于隐马尔科夫模型的加权Textrank的单文档关键词抽取算法。对比分析了三种算法的效果:基于词频的关键词提取算法,基于词性、位置、频度的关键词提取算法,加权Textrank算法。实验结果表明加权Textrank算法在单文档提取中有较好的效果,并且在单篇文章提取较少的关键词时准确率较高。 展开更多
关键词 抽取 隐马尔科夫模型 加权textrank
在线阅读 下载PDF
基于改进LDA的水电工程进度管理文本智能分析 被引量:8
9
作者 李明超 吕沅庚 +1 位作者 田丹 沈扬 《水力发电学报》 CSCD 北大核心 2022年第3期133-141,共9页
进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟... 进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟待解决的问题。本文提出基于改进LDA的水电工程进度信息智能提取方法,智能提取进度管理文本中的关键信息。该方法基于传统LDA模型针对吉布斯采样机制,充分考虑词语间的关联关系,将原有随机单个采样过程改进为以共现度为基准的词对采样,强化了词语间的语义关联,提高了主题词语间的紧密性以及主题词语对主题描述的准确性。将所提出的方法应用于实际水电工程,对221份水电工程施工监理周报进行分析,共提取12个主题的工序关键词,并依照计算结果提取出主副工序;结果表明,改进LDA主题模型在水电工程进度文本工序特征词提取效果优于传统LDA主题模型,有助于提高工程施工进度关键工序词提取与信息挖掘效率,为水电工程施工智能化管理提供了新的手段。 展开更多
关键词 水电工程 施工进度 关键词提取 改进lda主题模型 共现度 文本智能分析
在线阅读 下载PDF
基于混合特征和链接影响力的关键词识别及语义树分析
10
作者 崔宝阳 冶忠林 赵海兴 《计算机应用与软件》 北大核心 2025年第5期271-281,共11页
针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响... 针对传统关键词识别方法不能有效结合词汇语义及结构信息的缺陷,提出一类基于词语语义网络与共现结构网络联合特征挖掘分析的关键词识别方法。通过结合文本的语义网络及结构网络得到兼顾词汇语义及结构的词汇影响力网络。提出链接影响力指标进行关键词识别。构建大规模英文词汇语义树,对其进行关联挖掘分析。实验表明,该方法在大规模语料下有较好的识别效果,挖掘所得语义树能够反映词汇的上下文结构关系及语义信息。 展开更多
关键词 关键词抽取 图模型 BERT 语义树 影响力
在线阅读 下载PDF
基于关键词抽取和提示学习的藏语新闻稿件生成方法
11
作者 完玛道吉 安见才让 《信息化研究》 2025年第2期35-42,共8页
本文提出了一种新的藏语新闻稿件生成方法,结合改进的TextRank算法进行关键词抽取和基于提示学习的输入模板设计。实验对比了LLaMa2-7B和BaiChuan2-13B两种大规模语言模型在基线和增强配置下的性能。结果显示,BaiChuan2-13B增强模型在B... 本文提出了一种新的藏语新闻稿件生成方法,结合改进的TextRank算法进行关键词抽取和基于提示学习的输入模板设计。实验对比了LLaMa2-7B和BaiChuan2-13B两种大规模语言模型在基线和增强配置下的性能。结果显示,BaiChuan2-13B增强模型在BLEU、Perplexity、Distinct-1和Distinct-2等评估指标上均优于其他配置,相较于LLaMa2-7B基线模型分别提升23.4%、26.2%、26.9%和26.4%。这不仅验证了大规模模型的优势,也证实了本文所提增强方法的有效性。本方法为低资源语言的自然语言处理提供了可行方案,同时为后续研究指明了方向,如进一步提升词汇多样性。研究成果在推进藏语自动新闻生成技术的同时,也为其他低资源语言的自然语言处理(NLP)任务提供了有价值的参考。 展开更多
关键词 抽取 提示学习 大规模语言模型 textrank算法
在线阅读 下载PDF
基于图和LDA主题模型的关键词抽取算法 被引量:38
12
作者 刘啸剑 谢飞 吴信东 《情报学报》 CSSCI 北大核心 2016年第6期664-672,共9页
关键词是表达文档核心内容的最小单元。自动抽取一篇或多篇文档的关键词,较传统的人工标注关键词,能节省大量的时间和人力消耗。本文提出了一种基于图和主题模型的关键词抽取算法,首先利用LDA主题模型,计算出词与词之间的相似性,作为词... 关键词是表达文档核心内容的最小单元。自动抽取一篇或多篇文档的关键词,较传统的人工标注关键词,能节省大量的时间和人力消耗。本文提出了一种基于图和主题模型的关键词抽取算法,首先利用LDA主题模型,计算出词与词之间的相似性,作为词与词之间的权重并构建一个带权无向词图。与传统TextRank不同的是,图的节点不再是单个的词,而是选择短语作为图的节点。最后,再从这些短语节点中选择Top K个词作为文章的关键词。我们选择了两个公开数据集进行了实验,结果表明我们的算法优于现有的关键词抽取算法。 展开更多
关键词 关键词抽取 lda主题模型 textrank
在线阅读 下载PDF
基于大语言模型的摘要提取算法多维度评估体系构建及应用
13
作者 任飞 洪运成 《山东工业技术》 2025年第2期62-67,共6页
本文针对文本关键词提取这一基础性自然语言处理任务,对TF-IDF、TextRank和RAKE三种主流算法进行了系统性的比较研究。研究构建了包含4933条图书摘要语料库,设计了基于信息完整性、主题准确性、表述清晰度等维度的多层次评估体系,并创... 本文针对文本关键词提取这一基础性自然语言处理任务,对TF-IDF、TextRank和RAKE三种主流算法进行了系统性的比较研究。研究构建了包含4933条图书摘要语料库,设计了基于信息完整性、主题准确性、表述清晰度等维度的多层次评估体系,并创新性地引入大语言模型辅助评估机制。实验结果表明,基于图模型的TextRank算法在综合性能上表现最优,评分达3.0362,其次是RAKE算法(2.9946)和TF-IDF方法(2.5839)。研究发现基于图模型的方法相比纯统计方法具有17.5%的性能提升,验证了考虑词语间语义关联关系对提升算法性能的重要性。本研究不仅为关键词提取算法的选择和应用提供了实证依据,也为后续算法优化和大语言模型在文本分析中的深度应用提供了新的研究思路。 展开更多
关键词 提取 TF-IDF textrank RAKE 大语言模型 文本分析
在线阅读 下载PDF
一种基于TextRank的单文本关键字提取算法 被引量:20
14
作者 柳林青 余瀚 +1 位作者 费宁 陈春玲 《计算机应用研究》 CSCD 北大核心 2018年第3期705-710,共6页
作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结... 作为一种经典的文本关键字提取和摘要自动生成算法,TextRank将文本看做若干单词组成的集合,并通过对单词节点图的节点权值进行迭代计算,挖掘单词之间的潜在语义关系。在TextRank节点图模型的基础上,将马尔可夫状态转移模型与节点图相结合,提出节点间边权为条件概率的新模型生成算法TextRank_Revised。通过对有标记和无标记的验证集进行验证,证明新的算法在不提升时间复杂度的前提下,通过计算单文本得出的单词排序结果相较于原TextRank算法更加吻合人工对文档的关键字提取结果。 展开更多
关键词 textrank 单文本关键字 提取算法 有向带权图 马尔可夫状态转移模型
在线阅读 下载PDF
融合LSTM和LDA差异的新闻文本关键词抽取方法 被引量:3
15
作者 宁珊 严馨 +2 位作者 周枫 王红斌 张金鹏 《计算机工程与科学》 CSCD 北大核心 2020年第1期153-160,共8页
针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题... 针对语义信息对TextRank的影响,同时考虑新闻标题信息高度浓缩以及关键词的覆盖性与差异性的特点,提出一种新的融合LSTM和LDA差异的关键词抽取方法。首先对新闻文本进行预处理,得到候选关键词;其次通过LDA主题模型得到候选关键词的主题差异影响度;然后结合LSTM模型和word2vec模型计算候选关键词与标题的语义相关性影响度;最后将候选关键词节点按照主题差异影响度和语义相关性影响度进行非均匀转移,得到最终的候选关键词排序,抽取关键词。该方法融合了关键词的语义重要性、覆盖性以及差异性的不同属性。在搜狗全网新闻语料上的实验结果表明,该方法的抽取结果相比于传统方法在准确率和召回率上都有明显提升。 展开更多
关键词 抽取 新闻标题 textrank算法 word2vec模型 lda模型
在线阅读 下载PDF
基于改进TextRank的铁路文献关键词抽取算法 被引量:18
16
作者 赵占芳 刘鹏鹏 李雪山 《北京交通大学学报》 CAS CSCD 北大核心 2021年第2期80-86,共7页
实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算... 实现铁路行业海量的铁路科技信息资源有效地组织管理并提供智能化、专业化的检索和服务,已经成为科研人员迫切期望解决的问题.关键词自动抽取技术是实现信息的智能检索和标引分类的核心技术,本文提出了一种改进TextRank的关键词抽取算法应用于铁路文献关键词的抽取,该算法融合多个特征因素改进词汇节点的初始权重设置,并利用Word2Vec训练的词向量表征改进词节点间的转移概率.实验结果表明:本文所提出的关键词抽取算法相对于经典的TextRank和TF-IDF算法在准确率,召回率以及F值上都有较大的提升.与TextRank相比,F值提升了13.9%. 展开更多
关键词 抽取 Word2Vec模型 textrank算法
在线阅读 下载PDF
融合TextRank算法的中文短文本相似度计算 被引量:5
17
作者 卢佳伟 陈玮 尹钟 《电子科技》 2020年第10期51-56,共6页
传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义... 传统的VSM向量空间模型忽略了文本语义,构建的文本特征矩阵具有稀疏性。基于深度学习词向量技术,文中提出一种融合改进TextRank算法的相似度计算方法。该方法利用词向量嵌入的技术来构建文本向量空间,使得构建的向量空间模型具有了语义相关性,同时采用改进的TextRank算法提取文本关键字,增强了文本特征的表达并消除了大量冗余信息,降低了文本特征矩阵的稀疏性,使文本相似度的计算更加高效。不同模型的仿真实验结果表明,融合改进的TextRank算法与Bert词向量技术的方法具有更好的文本相似度计算性能。 展开更多
关键词 文本相似度 关键字提取 textrank算法 Bert 词向量技术 向量空间模型
在线阅读 下载PDF
基于BERT和TextRank关键词提取的实体链接方法 被引量:5
18
作者 詹飞 朱艳辉 +1 位作者 梁文桐 冀相冰 《湖南工业大学学报》 2020年第4期63-70,共8页
提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效... 提出一种基于BERT(bidirectional encoder representations from transformers)和TextRank关键词提取的实体链接方法。将BERT预训练语言模型引入实体链接任务,进行实体指称上下文和候选实体相关信息的关联度分析,通过提升语义分析的效果来增强实体链接的结果。采用TextRank关键词提取技术增强目标实体综合描述信息的主题信息,增强文本相似度度量的准确性,从而优化模型效果。使用CCKS2019评测任务二的数据集对模型效果进行验证,实验结果表明,所提方法的实体链接效果明显优于其他实体链接方法,能有效解决实体链接问题。 展开更多
关键词 实体链接 BERT预训练语言模型 语义分析 textrank 关键词提取
在线阅读 下载PDF
基于Word2Vec和TextRank的时政类新闻关键词抽取方法研究 被引量:13
19
作者 刘奇飞 沈炜域 《情报探索》 2018年第6期22-27,共6页
[目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构... [目的/意义]旨在为时政类新闻关键词抽取提供参考。[方法/过程]基于融合Word2Vec和TextRank算法,在研究时政类新闻文本特征基础上,利用政治重点词库修订文本词语的初始权重,结合上下文关系确定词语之间的连接关系,并基于Word2Vec模型构建概率转移矩阵,提出改进的Word2Vec和TextRank算法。[结果/结论 ]运用改进的Word2Vec和TextRank算法对时政类新闻关键词进行抽取,其准确率、召回率和F值均优于传统TextRank算法及普通的融合Word2Vec和TextRank算法,抽取效果更好。 展开更多
关键词 时政新闻 关键词抽取 textrank算法 Word2Vec模型 词图
在线阅读 下载PDF
融合Log-Likelihood与TextRank的关键词抽取研究 被引量:2
20
作者 徐晓霖 《软件导刊》 2018年第3期87-89,共3页
为了解决TextRank算法的初始值赋权问题,提高关键词抽取准确率,引入Log-Likelihood算法。通过与参考语料库词频进行对比,为词条的初始权重赋值,将不需要外部语料的TextRank和需要外部语料的Log-Likelihood进行融合、计算。实验结果表明... 为了解决TextRank算法的初始值赋权问题,提高关键词抽取准确率,引入Log-Likelihood算法。通过与参考语料库词频进行对比,为词条的初始权重赋值,将不需要外部语料的TextRank和需要外部语料的Log-Likelihood进行融合、计算。实验结果表明,融合后的TextRank-LL算法优于TextRank算法。 展开更多
关键词 抽取 textrank算法 Log-Likelihood算法 textrank-LL算法 图模型
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部