基于语义的文档关键词提取方法被引量：10

Semantic-based keyword extraction method for document

下载PDF

导出

摘要以语义为基础实现文档关键词提取是提高自动提取准确度的有效途径。以中文文档为处理对象,通过《同义词词林》计算词语间语义距离,对词语进行密度聚类,得到主题相关类。 Document keywords extraction on the basis of semantic was an effective way to improve the accuracy of automatic extraction. This paper regarded Chinese document as processing object, calculated the semantic distances between words through the synonyms dictionary. Then, through density clustering of the words, it got theme related classes. Finally, it regar- ded the headwords selected from topic related classes as keywords. Statistical experiment and scale experiment prove that the semantic-based keyword extraction method for document has higher accuracy, recall rate and the extracted keywords have high- er related degrees to the topic.

作者姜芳李国和岳翔

机构地区中国石油大学(北京)地球物理与信息工程学院油气数据挖掘北京市重点实验室中海油研究总院信息数据中心

出处《计算机应用研究》 CSCD 北大核心 2015年第1期142-145,共4页 Application Research of Computers

基金国家"863"计划资助项目(2009AA062802) 国家自然科学基金资助项目(60473125) 中国石油(CNPC)石油科技中青年创新基金资助项目(05E7013) 国家重大专项子课题(G5800-08-ZS-WX)

关键词语义距离密度聚类关键词提取 semantic distance density clustering keyword extraction

分类号 TP391.43 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1赵艳厂,宋梅,谢帆,宋俊德.用于不同密度聚类的多阶段等密度线算法[J].北京邮电大学学报,2003,26(2):42-47. 被引量：14
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4. 被引量：48
5刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17

二级参考文献34

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
3卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
4张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
5程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
6刘群,李素建.基于"知网》的词汇语义相似度计算[C]∥第三届中文词汇语义学研讨会论文集.中国台北:[出版者不详]2002.
7Agirre E, Rigau G. A Proposal for Word Sense Disambiguation Using Conceptual Distance[C]//Proc. of International Conf. on Recent Advances in Natural Language Processing. Tzigov Chark, Bulgaria: [s. n.], 1995.
8Brandes U. A Faster Algorithm for Betweenness Centrality[J]. Journal of Mathematical Sociology, 2001, 25(2): 163-177.
9Zhao Yanchang, Song Junde. AGRID: an efficient algorithm for clustering large high-dimensional datasets[A]. Proc the 7th Pacific-Asia Conf on Knowledge Discovery and Data Mining (PAKDD-03)[C]. Seoul ,Korea : 2003.
10Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise[A]. Proc the 2nd Int Conf On Knowledge Discovery and Data Mining[C].Portland, Oregon : 1996. 226-- 231.

共引文献179

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：17
2张西芝,姬波,邱保志.基于网格的多密度聚类算法[J].微计算机信息,2005,21(12X):101-103. 被引量：7
3侯筱婷,苏变萍,鲁萍.建设法规政策知识库智能化查询分析与设计[J].微电子学与计算机,2006,23(6):176-177. 被引量：4
4刘敏娟,柴玉梅.基于网格的共享近邻聚类算法[J].计算机应用,2006,26(7):1673-1675. 被引量：7
5邱保志,沈钧毅.基于扩展和网格的多密度聚类算法[J].控制与决策,2006,21(9):1011-1014. 被引量：25
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
8马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10牛琨,张舒博,陈俊亮.融合网格密度的聚类中心初始化方案[J].北京邮电大学学报,2007,30(2):6-10. 被引量：16

同被引文献88

1于洪,杨显.微博中节点影响力度量与传播路径模式研究[J].通信学报,2012,33(S1):96-102. 被引量：27
2彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：16
3牟雁超,苏汉宸,程序,李红燕,王腾蛟.ASIC:一种适用于云数据管理的自适应辅助索引机制[J].计算机研究与发展,2013,50(S1):352-360. 被引量：1
4李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
5肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12
6耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
7纪蔚蔚.基于词频分析的我国2004年科学学发展动向研究[J].科研管理,2006,27(3):81-89. 被引量：19
8索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
9彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45
10LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：26

引证文献10

1任艳.微信息大数据粗糙集的近似约简[J].沈阳工业大学学报,2016,38(3):309-313. 被引量：4
2程玉胜,梁辉,王一宾,黎康.基于风险决策的文本语义分类算法[J].计算机应用,2016,36(11):2963-2968. 被引量：8
3王小林,朱磊,邰伟鹏.基于扩充词汇链改进的关键词提取算法[J].苏州科技大学学报（自然科学版）,2017,34(2):49-54. 被引量：3
4曾妍.机器英语翻译中的模糊语义最优解选取方法[J].现代电子技术,2018,41(2):156-158. 被引量：4
5张瑞芳,郭克华.面向个性化站点的用户检索意图建模方法[J].计算机工程与应用,2018,54(6):37-43. 被引量：1
6王燊,施运梅.基于用户行为的文档关键词提取方法[J].北京信息科技大学学报（自然科学版）,2018,33(5):45-49. 被引量：1
7宋万里,卜磊.智能答疑系统的设计与实现[J].电脑知识与技术,2017,13(12X):163-165. 被引量：2
8周锦章,崔晓晖.基于词向量与TextRank的关键词提取方法[J].计算机应用研究,2019,36(4):1051-1054. 被引量：24
9李俊,吕学强.融合BERT语义加权与网络图的关键词抽取方法[J].计算机工程,2020,46(9):89-94. 被引量：16
10何喜军,张婷婷,武玉英,蒋国瑞.供需匹配视角下基于语义相似聚类的技术需求识别模型[J].系统工程理论与实践,2019,39(2):476-485. 被引量：19

二级引证文献80

1谢瑶瑶,邓三鸿,王昊,章学周.基于SAO语义挖掘的用户需求-专利技术匹配[J].数据分析与知识发现,2024,8(8):213-225. 被引量：4
2吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：12
3卓佳怡,于劲松,张力文,王浩然,吴聪,张舒,宋悦.基于TF-IDF算法的公文用户画像[J].办公自动化,2020,25(17):61-64. 被引量：1
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5张琛.机器英语翻译中的模糊语义最优解选取方法[J].英语广场,2018(12):43-44.
6李惠富,陆光,景维鹏.文本分类中基于K-Sprinkling的特征提取方法[J].计算机工程,2017,43(12):141-146. 被引量：2
7贺红艳,李光明,张慧萍.基于网络聚类与自适应概率的数据库缓冲区替换[J].沈阳工业大学学报,2018,40(1):65-69. 被引量：5
8费贤举,李虹,田国忠.基于特征加权理论的数据聚类算法[J].沈阳工业大学学报,2018,40(1):77-81. 被引量：40
9朱珊娜.移动网络中技术资源信息有效管理仿真研究[J].计算机仿真,2018,35(1):416-419. 被引量：2
10李安亚,王少妮.对比模式挖掘研究进展[J].科研信息化技术与应用,2017,8(5):66-73. 被引量：1

1严彩梅.Web用户模式[J].扬州大学学报（自然科学版）,2002,5(3):53-56. 被引量：3
2王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
3王燕.基于相邻词的中文关键词自动抽取研究[J].科技致富向导,2012(26):84-84.
4肖寅东,刘科.R在实验教学中的应用[J].实验科学与技术,2013,11(2):27-30. 被引量：6
5王金水,薛醒思,唐郑熠.一种基于命名实体识别的需求跟踪方法[J].计算机应用研究,2016,33(1):132-135. 被引量：1
6王力.基于元数据的WEB信息描述方法的应用研究[J].微计算机信息,2007,23(02X):88-90. 被引量：7
7杨毅.一种Word文档关键词自动整理方法[J].信息与电脑（理论版）,2014,0(1):208-209.
8杨春明,韩永国.快速的领域文档关键词自动提取算法[J].计算机工程与设计,2011,32(6):2142-2145. 被引量：12
9陈睿,唐雁.基于广义Hough变换的手写汉字文档关键词提取[J].微型机与应用,2013,32(6):75-78.
10李毅,王浩,杨静.基于语义相似度的Web文档聚类算法[J].合肥工业大学学报（自然科学版）,2009,32(12):1846-1850. 被引量：3

计算机应用研究

2015年第1期

浏览历史

内容加载中请稍等...

基于语义的文档关键词提取方法被引量：10

参考文献5

二级参考文献34

共引文献179

同被引文献88

引证文献10

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

基于语义的文档关键词提取方法 被引量：10

参考文献5

二级参考文献34

共引文献179

同被引文献88

引证文献10

二级引证文献80

相关作者

相关机构

相关主题

浏览历史

基于语义的文档关键词提取方法被引量：10