期刊文献+

基于词汇链的中文短信主题语句抽取方法 被引量:3

Research of theme statement extraction for Chinese short message text based on lexical chain
在线阅读 下载PDF
导出
摘要 提出一种基于词汇链的中文短信文本主题的抽取方法。该方法首先通过构造多条词汇链来表达短信文本的叙事线索,并从多条词汇链中抽取出富含主题信息的词汇链,将其作为构造短信文本主题语句的关键词序列。实验表明该方法抽取的短信文本主题能够更全面地覆盖短信文本的信息,并能消除多个关键词序列表达同一主题信息的冗余。其效果明显优于采用统计信息进行短信文本主题抽取的方法。 An algorithm for Chinese SMS text topic extraction based on lexical chain is proposed. By constructing lexical chains for each SMS text, the article’s multiple depiction clews can be reflected, and some strong lexical chains with high quality can be extracted to represent main content of this article, and as the subject phrase SMS text structure sequence. Experiments demonstrate that SMS text topic from this algorithm can cover SMS text information more completely. This algorithm can remove redundancy that different keyword sequence reflect same meanings. This method outperforms the method which uses statistics to perform extraction.
出处 《计算机工程与应用》 CSCD 2012年第7期132-134,共3页 Computer Engineering and Applications
基金 淮安科技计划项目(No.HAG09061) 淮阴工学院重点基金项目(No.HGA0907)
关键词 短信文本 词汇链 主题语句 抽取方法 short message text lexical chain theme statement extraction method
  • 相关文献

参考文献11

二级参考文献115

共引文献271

同被引文献26

  • 1李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量:93
  • 2索红光,刘玉树,曹淑英.一种基于词汇链的关键词抽取方法[J].中文信息学报,2006,20(6):25-30. 被引量:88
  • 3赵鹏,蔡庆生.一种基于《知网》的中文文本聚类算法的研究[J].计算机工程与应用,2007,43(12):162-163. 被引量:7
  • 4庞剑锋;卜东波;白硕.基于向量空间模型的文本自动分类系统的研究与实现[J]计算机应研究,2001(09).
  • 5Delgado M, Martin-Bautista M J, Sanchez D, et al. Mining text data: Special features and patterns [ C ]//Proceedings of ESF Exploratory Workshop on Pattern Detection and Discovery. London : Springer-Verlag,2002 : 140 - 153.
  • 6Novovicova J, Malik A. Information- theoretic feature selection algorithms for text classification [ C] //Proceedings of IEEE International Joint Conference on Neural Networks. Washington, DC : IEEE Computer Society, 2005:3272 - 3277.
  • 7Vries A D, Mamoulis N, Nes N, et al. Efficient KNN search vertically decomposed data [ C ]//Proceedings of the 2002 ACM SIGMOD International Conference on Management of Data. Madison : ACM Press ,2002:322 - 333.
  • 8郑伟,王锐.文本分类中特征提取方法的比较与研究[J].河北北方学院学报(自然科学版),2007,23(6):51-54. 被引量:10
  • 9Akiko A. An information-theoretic perspective of tf-idf measures[J].Information Processing and Management,2004,(01):45-65.
  • 10Witten I H,Paynter G W,Frank E,Gutwin C,Nevill-Maning C G. KEA:Practical automatic key-phrase extraction[A].Bereley,CA,USA,1999.254-255.

引证文献3

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部