基于密度聚类模式的中文新闻网页关键词提取被引量：2

Keyword Extraction Method Based on Density Clustering for Chinese News Web Pages

下载PDF

导出

摘要关键词在文本聚类/分类、自动摘要、信息检索等领域具有重要地位,然而当前互联网上的众多新闻网页没有提供关键词,人工标注关键词代价巨大,并且大多数已有的关键词自动提取算法都需要建立在人工标注的训练集之上,因而难以实用。由于关键词是文章中较重要且主题关联较凝聚的词的集合,因此提出一种基于密度聚类模式的中文新闻网页关键词提取方法,根据词语之间的共现信息,对网页分词后的词语进行聚类,在分析词语关联度的基础上提取出反映新闻主题的关键词。通过大量随机新闻网页实验结果表明,与单纯的TF/IDF(词频和文档频率倒数的乘积)方法相比,此算法召回率平均提高了7.15%,准确率平均提高了7.075%。 Keywords play a key role in text clustering,text classification,automatic text summarization, and information retrieval. However,keywords available for most web pages. Manual assignment of keywords is expensive and time-consuming and most existing automatic keyword extraction approaches require training sets with human-labeled keywords. Keywords can be considered as a set of words which are important and subject correlated cohesively in a document. Therefore,an automatic keyword extraction method based on density clustering is proposed in this paper. Web pages are segmented, and the words are clustered based on their co-occurrence. Co-occurrence relations between words are analyzed, and keywords that capture the main topics of the document are extracted. Experiments from Chinese news pages demonstrate that the recall rate can be improved by 7.15 percent and the precision rate by 7. 075 percent compared with the TF/IDF （term frequency/inverted document frequency） method.

作者尹倩胡学钢谢飞吴信东

机构地区合肥工业大学计算机与信息学院佛蒙特大学计算机系

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2009年第1期201-204,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家基金海青课题资助项目(60828005)

关键词关键词提取词共现聚类自然语言处理 keyword extraction word co-occurrence clustering natural language processing

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1IKONOMAKIS M. KOTSIANTIS S, TAMPAKAS V. Text classification using machine learning techniques [J]. WSEAS Transactions on Computers ,2005,4(8) : 966-974.
2LI Juanzi FAN Qi＇na ZHANG Kuo.Keyword Extraction Based on tf/idf for Chinese News Document[J].Wuhan University Journal of Natural Sciences,2007,12(5):917-921. 被引量：26
3TURNEY P D. Learning algorithms for keyphrase extraction[J]. Information Retrieval,2000(2):303-336.
4WITTEN I H,PAYNTER G W,FRANK E,et al. KEA:practical automatic keyphrase extraction[C]//Proc of the Fourth ACM Conference on Digital Libraries. New York:ACM Press, 1999:254-255.
5索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
6赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
7耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
8ERCAN G,CICEKLI I. Using lexical chains for keyword extraction [J]. Information Processing and Management, 2007,43(6):1705-1714.
9PEAT H J ,WILLET P. The limitations of term co-occurrence data for query expansion in document retrieval systems [J]. JASIS,1991,42(5) : 378-383.
10ESTER M,KRIEGEL H P,SANDER J,et al. A density-based algorithm for discovering clusters in targe spati-al databases with noise [C]//Proc. of the 2nd International Conference on Knowledge Discovery and Data Mining. Menlo Park,CA :AAAI Press, 1996 : 226-231.

二级参考文献32

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
4郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
5王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
6Reyhani N, Badie K, Kharrat M. A two layered case based reasoning approach to text summarization, based on summarization pattern. Systems and Information Engineering Design Symposium, Virginia, USA, 2003,47 - 50.
7Mallett D, Elding J, Nascimento MA. Information-content based sentence extraction for text summarization. International Conference on Information Technology, Las Vegas, USA, 2004,214218.
8Po Hu, Tingting He, Donghong Ji, Meng Wang. A study of Chinese text summarization using adaptive clustering of paragraphs. Computer and Information Technology, Wuhan, China,2004,1159- 1164.
9Jian-Hui Wang, Shui-Geng Zhou, Yun-Fa Hu. Sentences clustering based automatic summarization. In: Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi' an, China, 2003,57 - 62.
10Peat H.J., Willet P. The limitations of term co-occurrence datafor query expansion in document retrieval systems. JASIS,1991,42(5) :378 - 383.

共引文献153

1罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
2Shuang Yang,Yan Tang.News Topic Detection Based on Capsule Semantic Graph[J].Big Data Mining and Analytics,2022,5(2):98-109. 被引量：3
3石晶,胡明,戴国忠.基于小世界模型的中文文本主题分析[J].中文信息学报,2007,21(3):69-75. 被引量：9
4施水才,程涛,王霞,吕学强.基于网页内容的广告推介研究[J].中文信息学报,2007,21(4):42-47. 被引量：1
5丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
6章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：41
7徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：66
8孔庆苹,刘宗田,廖涛.基于概念获取的多文档主题划分研究[J].计算机科学,2008,35(5):131-133. 被引量：6
9陈戈,段建勇,陆汝占.基于潜在语义索引和句子聚类的中文自动文摘[J].计算机仿真,2008,25(7):82-85. 被引量：5
10章成志,苏新宁.基于条件随机场的自动标引模型研究[J].中国图书馆学报,2008,34(5):89-94. 被引量：24

同被引文献11

1张庆国,薛德军,张振海,张君玉.海量数据集上基于特征组合的关键词自动抽取[J].情报学报,2006,25(5):587-593. 被引量：17
2刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
3章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：41
4IKONOMAKIS M,KOTS1ANTIS S,TAMPAKAS V. Text classification using machine learning techniques[J].WSEAS Transactions on Computers,2005,(08):966-974.
5BO Jin;TENG Hong-fei;SHI Yan-jun.Chinese patent mining based on sememe statistics and key-phrase extraction[A]黑龙江哈尔滨,2007516-523.
6MATSUO Y,OHSAWA Y,ISHIZUKA M. Keyword:extracting keywords in a document as a small world[J].Lecture Notes in Computer Science,2001.271-281.
7CANCHO R F I,SOLE R V. The small world of human language[A].London,2001.2261-2265.
8ZHANG K;XU H;TANG J.Keyword extraction using support vector machine[A]香港,200685-96.
9赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
10马力,焦李成,白琳,周雅夫,董洛兵.基于小世界模型的复合关键词提取方法研究[J].中文信息学报,2009,23(3):121-128. 被引量：14

引证文献2

1唐俊.复杂网络在新闻网页关键词提取中的应用[J].云南民族大学学报（自然科学版）,2012,21(4):305-308. 被引量：4
2徐涛,蓝传锜.基于卡方统计量的藏文新闻网页关键词提取方法[J].电脑知识与技术（过刊）,2017,23(9X):171-173. 被引量：3

二级引证文献7

1李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
2何晓阳,张精理,丁婷.医学新闻关键词自动提取策略[J].中华医学图书情报杂志,2014,23(4):13-17. 被引量：2
3崔诚煜,冉晓旻.基于频繁模式挖掘的中文关键词提取算法[J].太赫兹科学与电子信息学报,2015,13(2):279-284.
4张金龙.一种移动通信网络的关键用户预测方法[J].移动通信,2017,41(10):11-14.
5顾亦然,许梦馨.基于PageRank的新闻关键词提取算法[J].电子科技大学学报,2017,46(5):777-783. 被引量：15
6高定国.藏文信息处理研究进展[J].广西科学院学报,2018,34(1):1-11. 被引量：10
7白曙光,林民,李艳玲,张树钧.文本关键词抽取方法及在几种民族语言上的应用[J].内蒙古师范大学学报（自然科学版）,2021,50(2):134-144. 被引量：1

1袁津生,毛新武.基于组合特征的中文新闻网页关键词提取方法[J].计算机工程与应用,2014,50(19):222-226. 被引量：8
2钱爱兵,江岚.基于标题的中文新闻网页自动分类[J].现代图书情报技术,2008(10):59-68. 被引量：7
3胡学钢,李星华,谢飞,吴信东.基于词汇链的中文新闻网页关键词抽取方法[J].模式识别与人工智能,2010,23(1):45-51. 被引量：22
4赵旭剑,金培权,岳丽华.TTP:一个面向中文新闻网页的主题时间解析器[J].小型微型计算机系统,2013,34(5):1042-1049. 被引量：7
5张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].情报科学,2012,30(10):1542-1544. 被引量：45
6钟晓旭.层次聚类方法在关键词提取上的研究应用[J].电脑知识与技术（过刊）,2009,0(6):1483-1484. 被引量：1
7袁晓峰.基于《知网》的文本相似度研究[J].成都大学学报（自然科学版）,2014,33(3):251-253. 被引量：3
8张严月.基于SVM金融分析报告的行业分类研究[J].现代计算机,2012,18(15):13-17.
9袁燚,张璟,李军怀.基于网页关键词的个性化Web推荐算法[J].西安理工大学学报,2007,23(1):59-61. 被引量：1
10熊才权,田浩.基于PageRank值的文本相似度改进模型[J].网络安全技术与应用,2010(6):55-57. 被引量：1

广西师范大学学报（自然科学版）

2009年第1期

浏览历史

内容加载中请稍等...

基于密度聚类模式的中文新闻网页关键词提取被引量：2

参考文献11

二级参考文献32

共引文献153

同被引文献11

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于密度聚类模式的中文新闻网页关键词提取 被引量：2

参考文献11

二级参考文献32

共引文献153

同被引文献11

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于密度聚类模式的中文新闻网页关键词提取被引量：2