基于组合词和同义词集的关键词提取算法被引量：18

Keywords extraction algorithm based on combined word and synset

下载PDF

导出

摘要为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。 This paper presented a Chinese webpage keywords extraction algorithm after the study of existing techniques for keyword extraction. The presented approach could extremely improve the performance of Chinese word segmentation system. The modified Chinese word segmentation system could recognise most of new terms,phrases and non-login words in Chinese webpage and this is vitally important for Chinese keyword extraction. Moreover,constructed a synset database and used adding the frequencies of synonyms together,avoiding the co-occurrence of synonyms in output. Further more,created a eva-luation function to score candidate keyword based on its location,length,part-of-speech. The experiment results show that the proposed algorithm has better performance compared with the traditional keyword extraction algorithms.

作者蒋昌金彭宏陈建超马千里严桂夺

机构地区华南理工大学计算机科学与工程学院

出处《计算机应用研究》 CSCD 北大核心 2010年第8期2853-2856,共4页 Application Research of Computers

基金广东省自然科学基金资助项目(07006474 9451064101003233) 广东省科技(2007B010200044)

关键词组合词同义词集中文网页关键词提取 combined word synset Chinese webpage keyword extraction

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1罗准辰,王挺.基于分离模型的中文关键词提取算法研究[J].中文信息学报,2009,23(1):63-70. 被引量：11
2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
3TURNEY P D.Learning to extract key phrases from text,NRC Technical Report ERB-1057[R].Canada:National Research Council,1999.
4WITTEN I H,PAYNTER G W,FRANK E.et al.KEA:practical automatic key-phrase extraction[C] //Proc of the 4th ACM Confe-rence on Digital Libraries.Berkeley,California:[s.n.] ,1999:254 -256.
5BARKER K,CORNACCHIA N.Using noun phrase heads to extract document keyphrases[C] //Proc of Canadian Conference on AI.2000.
6HULTH A.An improved automatic keyword extraction given more linguistic knowledge[C] //Proc of Conference on Empirical Methods in Natural Language Processing.2003:216-223.
7EL-BELTAGY S R,RAFEA A.KP-Miner:a keyphrase extraction system for English and Arabic documents[J].Information Systems,2009,34(1):132-144.
8耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
9唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
10中国科学院计算技术研究所.汉语词法分析系统ICTCLAS2009版[EB/OL].http://ictclas.org/,2009-02-19/2009-07-06.

二级参考文献58

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
6Turney P . D . Learning to extract keyphrases from text[R].National Research Council, Canada, NRC Technical Report ERB-1057,1999.
7Witten I. H., Paynter G. W., Frank E., Gutwin C., Nevill--Manning C. G. KEA: Practical automatic keyphrase extraction[C]//Proceedings of the 4th ACM conference on Digital libraries, Berkeley, California, US,1999 : 254-256.
8Anette Helth. Combining machine learning and natural language processing for automatic keyword extraction [D].Stockholm: Department of computer and systems sciences, Stockholm University,2004: 35 -38.
9Yang Wen-Feng. Chinese keyword extraction based on max-duplicated strings of the documents[C]//Proceedings of the 25th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland,2002: 439-440.
10Chang C. I.IBSVM: a library for support vector machines[EB/OL]. 2006. Software available at http://www. csie. ntu. edu. tw/-cjlin/libsvm.

共引文献165

1罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
2石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
3程涛,施水才,王霞,吕学强.基于同义词词林的中文文本主题词提取[J].广西师范大学学报（自然科学版）,2007,25(2):145-148. 被引量：11
4施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
5丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
6章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：41
7耿焕同,李杰.范例推理在文本自动分类中的应用研究[J].情报理论与实践,2007,30(6):837-840. 被引量：1
8周晨,罗翀.美国自动生成元数据应用计划AMeGA及其启示[J].图书馆建设,2008(1):43-45.
9任克强,赵光甫,张国萍.基于带权语言网络的网页关键词抽取[J].计算机工程与应用,2008,44(8):155-157. 被引量：5
10徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：66

同被引文献159

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：21
2仇晶,廖乐健.网络舆情与网络文化安全预警技术研究[J].信息网络安全,2008(6):59-61. 被引量：8
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：31
4方英.论文关键词的选择和标引[J].交通职业教育,2009(2):59-63. 被引量：1
5张海涛,靖继鹏.根据用户的浏览行为确定网页页面等级的方法[J].情报学报,2004,23(3):303-306. 被引量：5
6中国科协《关于在学术论文中规范关键词选择的规定（试行）》[J].系统工程,2004,22(5). 被引量：1
7夏天,樊孝忠,刘林.利用JNI实现ICTCLAS系统的Java调用[J].计算机应用,2004,24(B12):177-178. 被引量：24
8赵银春,付关友,朱征宇.基于Web浏览内容和行为相结合的用户兴趣挖掘[J].计算机工程,2005,31(12):93-94. 被引量：37
9郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
10王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40

引证文献18

1潘光友,李娅芳,许易琦.学术论文关键词的概念辨析和选词应注意问题[J].云南大学学报（自然科学版）,2011,33(S2):57-58. 被引量：6
2刘俊,邹东升,邢欣来,李英豪.基于主题特征的关键词抽取[J].计算机应用研究,2012,29(11):4224-4227. 被引量：30
3林满山,韩雪娇,宋威.基于多线程多重因子加权的关键词提取算法[J].计算机工程与设计,2013,34(7):2398-2402. 被引量：5
4王锦波,王莲芝,高万林,喻健.一种改进的朴素贝叶斯关键词提取算法研究[J].计算机应用与软件,2014,31(2):174-176. 被引量：10
5何晓华,朱津津,凌坚.新闻节目导语中关键词自动提取方法研究[J].电视技术,2014,38(20):88-90. 被引量：1
6许阳,刘功申,孟魁.基于句中词语间关系的文本向量化算法[J].信息安全与通信保密,2014,12(4):84-88. 被引量：4
7莫倩,赵威,苑峥.互联网证券舆情多空倾向性判别研究[J].通信电源技术,2015,32(1):119-122.
8苏祥坤,吾守尔.斯拉木,买买提依明.哈斯木.基于词序统计组合的中文文本关键词提取技术[J].计算机工程与设计,2015,36(6):1647-1651. 被引量：10
9杨锐,刘毅,张敏,张军,陈伟.基于Lingpipe的煤炭领域科研信息监测分析平台设计与实现[J].计算机应用与软件,2015,32(6):66-71.
10刘典,李石君.基于用户反馈的关键词提取[J].计算机工程与设计,2015,36(8):2277-2281. 被引量：1

二级引证文献220

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2巴哈古丽·图尼亚孜,玉素甫·艾拜都拉.维吾尔语词频统计系统研究[J].电子世界,2020(3):63-64.
3李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
4陈枫楠,沈镭.基于期刊文献检索的国内资源经济学研究述评[J].资源科学,2013,35(7):1339-1346. 被引量：5
5夏天.词语位置加权TextRank的关键词抽取研究[J].现代图书情报技术,2013(9):30-34. 被引量：77
6程玉胜,梁辉.文字云及主题模型的统计挖掘[J].安庆师范学院学报（自然科学版）,2014,20(1):32-35.
7汪醒鹏,屈波,文亚南.基于并行算法的证据理论合成器的复合故障诊断[J].流体机械,2014,42(4):32-36.
8顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
9丁菲菲,杨思春,刘仁金.基于平均信息熵的中文问句关键词提取[J].皖西学院学报,2014,30(5):46-49. 被引量：1
10马运运,孙志一,刘海波,彭勇.中文专利文档关键词自动提取方法研究进展[J].世界科学技术-中医药现代化,2015,17(1):29-34. 被引量：3

1许爱琴,王梦洁,刘永坚,王卫华.一种新的生成候选关键词集的方法[J].武汉理工大学学报（信息与管理工程版）,2013,35(6):816-819.
2张庆国,章成志,薛德军,张君玉.适用于隐含主题抽取的K最近邻关键词自动抽取[J].情报学报,2009,28(2):163-168. 被引量：4
3娄玉娟,徐慧.中文文本关键词抽取方法的研究[J].企业技术开发（下半月）,2011(4):106-107. 被引量：1
4张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
5李树青,曹杰,庄光光,陈俊鹏.基于二分网络分析方法的学术文献关键词自动抽取方法研究[J].情报学报,2016,35(12):1305-1312. 被引量：7
6何新贵,彭甫阳.中文文本的关键词自动抽取和模糊分类[J].中文信息学报,1999,13(1):9-15. 被引量：54
7焦慧,刘迁,贾惠波.一种基于词编码的中文文档格式[J].计算机科学,2008,35(10):162-164. 被引量：1
8蒋辉,阳小华.基于文档与搜索结果上下文的查询扩展方法[J].计算机应用,2009,29(3):852-853. 被引量：6
9张红鹰.基于模糊处理的中文文本关键词提取算法[J].现代图书情报技术,2009(5):39-43. 被引量：6
10张红鹰.中文文本关键词提取算法[J].计算机系统应用,2009,18(8):73-76. 被引量：7

计算机应用研究

2010年第8期

浏览历史

内容加载中请稍等...

基于组合词和同义词集的关键词提取算法被引量：18

参考文献14

二级参考文献58

共引文献165

同被引文献159

引证文献18

二级引证文献220

相关作者

相关机构

相关主题

浏览历史

基于组合词和同义词集的关键词提取算法 被引量：18

参考文献14

二级参考文献58

共引文献165

同被引文献159

引证文献18

二级引证文献220

相关作者

相关机构

相关主题

浏览历史

基于组合词和同义词集的关键词提取算法被引量：18