一种改进的TFIDF网页关键词提取方法被引量：31

AN IMPROVED TFIDF-BASED APPROACH TO EXTRACT KEY WORDS FROM WEB PAGES

下载PDF

导出

摘要传统TFIDF关键词提取方法虽然实现起来简单,时间复杂度低,但是效果并不理想,难以获得对文本内容起到关键性作用的特征。提出了一种在考虑中文文本结构特征和中文词语词性特征的基础上,借助扩展的同义词词林,利用改进的TFIDF公式来提取的方法。实验结果表明:该方法明显优于传统方法,能够抽取到令人满意的结果。 Although the classical TFIDF-based keywords extraction method is easy to implement and has low time cost,its results are not good enough to acquire features which play key roles in the text content.This paper proposes such a method,it uses the improved TFIDF formula to extract keywords by means of extended synonym dictionary and based on the considerations of the structure feature of Chinese texts and the lexical category feature of Chinese words and phrases.Experimental results show that our method outperforms the classical method evidently,and is able to extract satisfied results.

作者李静月李培峰朱巧明

机构地区苏州大学计算机科学与技术学院

出处《计算机应用与软件》 CSCD 2011年第5期25-27,共3页 Computer Applications and Software

基金国家自然科学基金(90920004 60970056 60873150) 江苏省自然科学基金(BK2008160) 江苏省高校自然科学重大基础研究项目(08KJA520002)

关键词文本结构关键词抽取 TFIDF Text structure Keywords extraction Term frequency-inverse document frequency（TFIDF）

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1Cohen J D.Highlights:Language and Domain-independent Automatic Indexing Terms for Abstracting[J].Journal of the American Society for Information Science,1995,46(3):162-174.
2Matsuo Y,Ishizuka M.Keyword Extraction from a Single Document Using Word Co-ocuurrence Statistical Information[J].International Journal on Artificial Intelligence Tools,2004,13(1):157-169.
3Yang Wenfen,Li Xing.Chinese keyword extraction based onmax-duplicated strings of the documents[C] //Proceedings ofthe 25th Annual InternationalACM SIGIR Conference on Re-search and Development in Information Retrieval,2002.
4Chien L F.PAT-tree-based Keyword Extraction for Chinese Information Retrieval[C] //Proc of the 20th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR1997),1997:50-58.
5王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
6李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
7赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
8Salton G,Yang C S,Yu C T.A Theory of Term Importance in Automatic Text Analysis[J].Journal of the American society for Information Science,1975,26(1):33-44.
9徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302. 被引量：66

二级参考文献29

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2韦洛霞,李勇,李伟,邵明珠,罗诗裕.汉字网络的3度分隔与小世界效应[J].科学通报,2004,49(24):2615-2616. 被引量：16
3王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
4索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
5刘佳宾,陈超,邵正荣,吉翔华.基于机器学习的科技文摘关键词自动提取方法[J].计算机工程与应用,2007,43(14):170-172. 被引量：15
6Gilchrist, A. D. Classification and thesauri [ A ]. In: Vickery, B. (ed.). Fifty Years of Information Progress: a Journal of Documentation Review [C]. London: ASLIB. 1994. 85- 118.
7Foskett, D.J. Thesaurus [A]. In:A. Kent, H. Lancours, and J.E. Daily (Eds.) Encyclopedia of Library and Informarion Science[C], NY: Marcel Dekker. 1980. Vol.30, 416 - 462.
8张琪玉.当代中国的分类法与主题词表[A]..张琪玉情报语言学文集[c].北京:北京图书馆出版社,1999.211-229.
9Shiri, A. A.. Thesauri on the Web: current developments and trends [J], Online Information Review, 2000, 24(4):273 - 279.
10Schütze, et al. A cooccurrence - based thesaurus and two applications to information retrieval [J], Info. Processing and Management: an Int. J, 2000, 33(3):307- 318.

共引文献208

1孙星恺,王晓,陆浩.面向活动的网络媒体监测与建模分析:IVFC案例解析[J].智能科学与技术学报,2019,1(4):352-368. 被引量：1
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：15
4张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：17
5侯筱婷,苏变萍,鲁萍.建设法规政策知识库智能化查询分析与设计[J].微电子学与计算机,2006,23(6):176-177. 被引量：4
6索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
7张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
8马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2
9刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
10王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10

同被引文献220

1钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：31
2李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
3田娟,王崇骏,李静,陈兆乾.一个基于谱图分割的简单聚类算法[J].复旦学报（自然科学版）,2004,43(5):810-814. 被引量：3
4袁里驰,钟义信.基于相似度的词聚类算法[J].微电子学与计算机,2005,22(8):93-95. 被引量：4
5郑家恒,卢娇丽.关键词抽取方法的研究[J].计算机工程,2005,31(18):194-196. 被引量：41
6彭波,闫宏飞.搜索引擎检索系统质量评估[J].计算机研究与发展,2005,42(10):1706-1711. 被引量：10
7唐培丽,王树明,胡明.基于语义的汉语文献主题词提取算法研究[J].吉林大学学报（信息科学版）,2005,23(5):535-540. 被引量：16
8王军.词表的自动丰富——从元数据中提取关键词及其定位[J].中文信息学报,2005,19(6):36-43. 被引量：40
9耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
10耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30

引证文献31

1范华,翁利国,周艳,姜川,孙涛.基于Bi-LSTM和TFIDF的工单事件提取[J].电脑知识与技术,2020,0(4):291-293.
2王珏,成玉茜,赵文栋,田畅.语义Web服务匹配方法分析[J].军事通信技术,2012,33(3):33-38. 被引量：1
3许霄峰,徐炜民.基于认知复杂度度量的文本推荐模型[J].计算机工程与设计,2012,33(10):3990-3994. 被引量：2
4刘雅正,陈受凯,唐向阳.基于简化MD5的TFIDF算法[J].科学技术与工程,2012,20(31):8447-8450. 被引量：1
5罗繁明,杨海深.大数据时代基于统计特征的情报关键词提取方法[J].情报资料工作,2013,34(3):64-68. 被引量：16
6刘一松,潘超.基于领域本体的个性化信息检索模型研究[J].无线通信技术,2013,22(3):29-33.
7穆翠霞,周琳琳.电子商务网络资讯管理系统的设计与实现[J].电脑开发与应用,2014,27(4):12-15.
8何晓华,朱津津,凌坚.新闻节目导语中关键词自动提取方法研究[J].电视技术,2014,38(20):88-90. 被引量：1
9袁津生,毛新武.基于组合特征的中文新闻网页关键词提取方法[J].计算机工程与应用,2014,50(19):222-226. 被引量：8
10刘峰,吴瑞红,徐川,吕学强.专利文献中关键词抽取方法的改进[J].情报杂志,2014,33(12):36-40. 被引量：5

二级引证文献238

1邓卫华,吕佩.反转或缓解?突发事件政府回应有效性研究——基于在线文本情感分析[J].中国行政管理,2021(2):123-130. 被引量：19
2郭旨龙.计算机犯罪的时代更新[J].国家检察官学院学报,2023,31(4):77-98. 被引量：10
3刘璐,张小明.白银景泰“5·22”黄河石林百公里越野赛舆情情感分析:基于新浪微博的研究[J].中国应急管理科学,2022(2):91-104. 被引量：1
4李静.中国突发事件中网民群体情绪研究的知识图谱分析[J].新媒体与社会,2022(1):329-346. 被引量：1
5王君泽,詹若贤,李怡,杜洪涛.融合主题与细粒度情感特征的气候变化微博舆情分析研究[J].信息技术与管理应用,2023(4):87-104. 被引量：1
6黄微,刘熠,郭苏琳.网络舆情受众失范行为靶向引导的技术框架构建[J].知识管理论坛,2020(3):159-174. 被引量：1
7弓越,翟姗姗.我国政府部门人事任用信息公开现状及其网络舆情反馈实证研究[J].知识管理论坛,2020(2):91-102.
8李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
9吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：5
10包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：9

1袁燚,张璟,李军怀.基于网页关键词的个性化Web推荐算法[J].西安理工大学学报,2007,23(1):59-61. 被引量：1
2闫兴龙,刘奕群,马少平,张敏,茹立云.面向浏览推荐的网页关键词提取[J].智能系统学报,2012,7(5):398-403. 被引量：4
3周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
4王永成,苏海菊,莫燕.中文词的自动办理[J].中文信息学报,1990,4(4):1-11. 被引量：13
5胡莉.中文“词”的语言模型识别研究方法综述[J].北方文学（下）,2011(3):90-90.
6刘友生.网页关键词自动超链接的实现[J].电脑编程技巧与维护,2012(17):66-67. 被引量：1
7徐国华.拓展的LCS算法展开的网页关键词挖掘研究[J].湘潭大学自然科学学报,2015,37(1):107-110. 被引量：1
8李中原,杨守文.基于向量空间模型的网页特征权重计算改进[J].计算机与现代化,2010(6):137-139. 被引量：4
9黄婕.基于Hadoop平台的HITS算法[J].计算机系统应用,2014,23(3):142-148. 被引量：1
10禤宇明,傅小兰.格式、偏好和性格对汉字网页关键词搜索的影响[J].人类工效学,2004,10(2):1-3. 被引量：7

计算机应用与软件

2011年第5期

浏览历史

内容加载中请稍等...

一种改进的TFIDF网页关键词提取方法被引量：31

参考文献9

二级参考文献29

共引文献208

同被引文献220

引证文献31

二级引证文献238

相关作者

相关机构

相关主题

浏览历史

一种改进的TFIDF网页关键词提取方法 被引量：31

参考文献9

二级参考文献29

共引文献208

同被引文献220

引证文献31

二级引证文献238

相关作者

相关机构

相关主题

浏览历史

一种改进的TFIDF网页关键词提取方法被引量：31