Tag-TextRank:一种基于Tag的网页关键词抽取方法被引量：58

Tag-TextRank:A Webpage Keyword Extraction Method Based on Tags

下载PDF

导出

摘要关键词抽取是从文本中抽取代表性关键词的过程,在文本处理领域中具有重要的应用价值.利用一种近年来受到广泛关注的新的信息源——社会化标签(tag)——来提高网页关键词抽取的质量.通过对Tag数据进行统计分析,发现用户往往对多个在话题上相关的网页使用同样的标签词,一个特定的文档可以通过其标注信息找到相关文档.在此基础上,提出了利用Tag进行关键词抽取的框架,并给出了一种具体的实现方法Tag-TextRank.该方法在TextRank基础上,通过目标文档中的每个Tag引入相关文档来估计词项图的边权重并计算得到词项的重要度,最后将不同Tag下的词项权重计算结果进行融合.在公开语料上的实验表明,Tag-TextRank在各项评价指标上均优于经典的关键词抽取方法TextRank,并具有很好的推广性. Keyword extraction is to extract representative keywords from texts and has been widely used in most text processing applications. In this paper, we explore the use of tags for improving the performance of webpage keyword extraction task. Specifically, we first analyze the characteristics of bookmarking behavior and find that people usually use the same tags to label multiple topic-related webpages, which is shown by the fact that over 90~ of labeled webpages can find relevant webpages through their tag information. Based on the discovery, we propose a method called Tag-TextRank. As an extension of the classic keyword extraction method TextRank, Tag-TextRank calculates the term importance based on a weighted term graph and the edge weight for a term pair is estimated by the statistics of the relevant documents which are introduced by a certain tag of the target webpage. The final importance score for a term is the combination of the above tag dependent importance scores. Tag-TextRank can measure the term relations by utilizing more documents so as to better estimate the term importance. Experimental results on a publicly available corpus show that Tag- TextRank outperforms TextRank on various metrics.

作者李鹏王斌石志伟崔雅超李恒训

机构地区中国科学院计算技术研究所

出处《计算机研究与发展》 EI CSCD 北大核心 2012年第11期2344-2351,共8页 Journal of Computer Research and Development

基金国家自然科学基金项目(60776797 60873166) 国家"九七三"重点基础研究发展计划基金项目(2007CB311103) 国家"八六三"高技术研究发展计划基金项目(2006AA010105)

关键词社会化标注标签关键词抽取网页关键词抽取 TextRank social annotation tag keyword extraction webpage keyword extraction TextRank

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献24

1Yih W, Goodman J, Carvalho V R. Finding advertising keywords on Web pages [C]//Proc of WWW'06. New York: ACM, 2006:213-222.
2Kelleher D, I.uz S. Automatic hypertext kcyphrase detection [C] //Proc of IJCAI-05. San Francisco: Morgan Kaufmann, 2005:1608-1609.
3Turney P D. Coherent keyphrase extraction via web mining [C]//Proc of IJCAI 03. San Francisco: Morgan Kaufmann, 2003:434-439.
4Hulth A. Improved automatic keyword extraction given more linguistic knowledge[C] //Proc of EMNLP'03. Stroudsburg: ACL, 2003:216-223.
5A1 Khalifa H S, Davis H C. Folksonomies versus automatic keyword extraction: An empirical study [C]//Proc of IAD1S Web Applications and Research 2006. Southampton: ECS, 2006: 132-143.
6Mihaleea R, Tarau P. TextRank.- Bringing order into texts [C] //ProeofEMNLP'04. Stroudsburg: ACL, 2004:404 - 411.
7Wan Xiaojun, Yang Jianwu, Xiao Jianguo. Towards an iterative reinforcement approach for simultaneous document summarization and keyword extraction[C] //Proe of ACL'07. Stroudsburg: ACL, 2007: 552-559.
8Turney P D. Learning algorithms for keyphrase extraction [J]. Information Retrieval, 2000, 2(4): 303-336.
9Frank E, Paynter G W, Witten I H, et al. Domain specific keyphrase extraction [C] //Proc of IJCAI-99. San Francisco: Morgan Kaufmann, 1999:668-673.
10李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93

二级参考文献11

1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
3Jilin Chen, Benyu Zhang, Dou Shen, Qiang Yang. Zheng Chen. Diverse Topic Phrase Extraction from Text Collection. Data Mining [C]//ICDM apos: 06. Sixth International Conference on Volume, Issue, Digital Object Identifier. 2006.
4Blaz Fortuna, Dunja Mladenic, Marko Grobelnik . Semi-Automatic Construction of Topic Ontology[C]// ESWC 2005.
5Khaled M. Hammouda, Diego N. Matute, and Mohamed S. Kamel. CorePhrase: Keyphrase Extraction for Document Clustering[C]//Machine Learning and Data Mining in Pattern Recognition. 2005: 265-274.
6Neto, J., Santos, A., Kaestner, C., Freitas, A. Document clustering and text summarization [C]// Proc. 4th International Conference Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), London, UK: 2000:41-55.
7Salton, G. (1991): Developments in Automatic Text Retrieval[J]. Science, Vol 253, 974-979.
8K.B. Khoo and M. Ishizuka. Emerging Topic Track ing System [C]//Proc. of Web Intelligent (WI 2001), LNAI 2198 (Springer), Maebashi, Japan: 2001: 125-130.
9Khoo Khyou Bun, Mitsuru Ishizuka, Topic Extraction from News Archive Using TF× PDF Algorithm[C]// The Third International Conference on Web Information Systems Engineering (WISE'02), 2002.
10董振东董强.[EB/OL].知网[EB/OL].http://www.keenage.com,1999.

共引文献104

1张博凯,李想.基于知识图谱的Android端农技智能问答系统研究[J].农业机械学报,2021,52(S01):164-171. 被引量：17
2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量：88
3张敏,耿焕同,王煦法.一种利用BC方法的关键词自动提取算法研究[J].小型微型计算机系统,2007,28(1):189-192. 被引量：19
4马芳,王炳锡,李弼程.英语从句识别中的特征表示[J].计算机应用研究,2007,24(2):89-91. 被引量：2
5刘远超,王晓龙,徐志明,刘秉权.基于粗集理论的中文关键词短语构成规则挖掘[J].电子学报,2007,35(2):371-374. 被引量：17
6王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
7王素格,杨军玲,张武.基于最大熵模型与投票法的汉语动词与动词搭配识别[J].小型微型计算机系统,2007,28(7):1306-1310. 被引量：3
8刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6
9章成志.自动标引研究的回顾与展望[J].现代图书情报技术,2007(11):33-39. 被引量：41
10章成志,周冬敏,苏新宁.自动标引通用评价模型研究[J].中国索引,2007,5(4):9-17. 被引量：1

同被引文献403

1张智雄,刘欢,丁良萍,吴朋民,于改红.不同深度学习模型的科技论文摘要语步识别效果对比研究[J].数据分析与知识发现,2019,3(12):1-9. 被引量：31
2解(亻刍),汪小帆.复杂网络中的社团结构分析算法研究综述[J].复杂系统与复杂性科学,2005,2(3):1-12. 被引量：87
3钱爱兵,江岚.基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例[J].情报理论与实践,2008,31(6):945-950. 被引量：31
4徐雅斌,李艳平,郑芬.基于MapReduce架构的网络热点话题发现[J].华中科技大学学报（自然科学版）,2012,40(S1):236-239. 被引量：3
5陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013,25(S1):142-146. 被引量：344
6吴少华,崔鑫,胡勇.基于SNA的网络舆情演变分析方法[J].四川大学学报（工程科学版）,2015,47(1):138-142. 被引量：14
7陈智,隋光远,皮秀云.论知识点是人的认知单位[J].心理科学,2002,25(3):369-370. 被引量：24
8李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
9张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：35
10金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80

引证文献58

1陈财森,向阳霞,寇应展,刘会英.面向装备作战数据的知识图谱平台构建[J].装甲兵学报,2022(5):105-110. 被引量：2
2王永亮,郭巧,曹奇敏.一种基于同义词的中文关键词提取方法[J].江南大学学报（自然科学版）,2013,12(5):620-625. 被引量：2
3陈荟慧,舒云星,林丽.多语种Web新闻语料抓取的通用模型研究[J].洛阳理工学院学报（自然科学版）,2013,23(4):34-39. 被引量：1
4曾文,徐硕,张运良,翟娟华.科技文献术语的自动抽取技术研究与分析[J].现代图书情报技术,2014(1):51-55. 被引量：17
5高影繁,徐红姣,杜枫.基于过滤与权重平滑策略的自动标引方法研究[J].情报理论与实践,2014,37(2):103-106. 被引量：1
6王旭仁,李娜,何发镁,王彦丽,宋蓓.基于改进聚类算法的网络舆情分析系统研究[J].情报学报,2014,33(5):530-537. 被引量：14
7顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
8曾文.面向电动汽车领域的专利文献加工和术语抽取方法研究[J].中国科技资源导刊,2014,46(5):53-56.
9曾聪,张东站.基于同义词词林和《知网》的短语主题提取[J].厦门大学学报（自然科学版）,2015,54(2):263-269. 被引量：8
10赵佳鹏,林民.基于维基百科的领域历史沿革信息抽取[J].计算机应用,2015,35(4):1021-1025. 被引量：5

二级引证文献419

1郭崇慧,许蒙.一种基于众包模式的试题知识点标注方法[J].信息与管理研究,2019,0(6):64-72. 被引量：3
2聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
3梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
4李春霞,许键,彭艳兵.基于语义关联融合的案件识别[J].数字技术与应用,2024,42(3):155-160.
5罗益超,李争彦,张奇.基于句子选择的关键短语生成[J].中文信息学报,2021,35(8):64-72.
6任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：9
7沙尔旦尔·帕尔哈提,阿布都热合曼·卡的尔,阿力木江·亚森.多字体印刷体维-哈-柯文关键词图像识别[J].计算机科学,2022,49(S02):615-620. 被引量：1
8孟庆国,王友奎,田红红.政务服务中的智能化搜索:特征、应用场景和运行机理[J].电子政务,2020,0(2):21-33. 被引量：27
9李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
10山火.数字用户线技术发展的辩证[J].电子产品世界,2000,7(4):8-8.

1潘晓英,胡开开,朱静.一种基于TextRank的文本二次聚类算法[J].计算机技术与发展,2016,26(8):7-11. 被引量：3
2方康,韩立新.基于HMM的加权Textrank单文档的关键词抽取算法[J].信息技术,2015,39(4):114-116. 被引量：12
3顾益军,夏天.融合LDA与TextRank的关键词抽取研究[J].现代图书情报技术,2014(7):41-47. 被引量：70
4田长波,林民,斯日古楞.融合PAM和主题偏好TextRank的历史沿革信息抽取[J].计算机应用研究,2017,34(1):123-127. 被引量：6
5袁燚,张璟,李军怀.基于网页关键词的个性化Web推荐算法[J].西安理工大学学报,2007,23(1):59-61. 被引量：1
6李亚芬,李征.基于Alfresco的出版社资源库系统的研究与实现[J].软件,2015,36(5):34-39.
7罗文兵,徐雄飞,王明文,左家莉.面向新闻的情感关键句抽取与判定[J].江西师范大学学报（自然科学版）,2015,39(6):642-646.
8陆伟,程齐凯.一种基于加权网络和句子窗口方案的信息检索模型[J].情报学报,2013,32(8):797-804. 被引量：10
9杨晓东,郜鲁涛,杨林楠,刘建阳.基于Hadoop平台的农产品价格数据爬取和存储系统的研究[J].计算机应用与软件,2017,34(3):76-80. 被引量：4
10闫兴龙,刘奕群,马少平,张敏,茹立云.面向浏览推荐的网页关键词提取[J].智能系统学报,2012,7(5):398-403. 被引量：4

计算机研究与发展

2012年第11期

浏览历史

内容加载中请稍等...

Tag-TextRank:一种基于Tag的网页关键词抽取方法被引量：58

参考文献24

二级参考文献11

共引文献104

同被引文献403

引证文献58

二级引证文献419

相关作者

相关机构

相关主题

浏览历史

Tag-TextRank:一种基于Tag的网页关键词抽取方法 被引量：58

参考文献24

二级参考文献11

共引文献104

同被引文献403

引证文献58

二级引证文献419

相关作者

相关机构

相关主题

浏览历史

Tag-TextRank:一种基于Tag的网页关键词抽取方法被引量：58