期刊文献+

语义分析与词频统计相结合的中文文本相似度量方法研究 被引量:42

Chinese text similarity method research by combining semantic analysis with statistics
在线阅读 下载PDF
导出
摘要 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。 Based on the statistical text similarity measurements method used TF-IDF method to model text documents as term frequency vectors,and computed similarity between documents by using cosine similarity.This method ignored semantic information of text documents,the similarity value wasn't correct.Although based on semantics method made up for the drawback,but need of knowledge to construct the relationship between words.By studying the advantages and disadvantages of two kinds of methods,this paper presented a novel text similarity method,which firstly pre-processed text,then chose the terms with higher TF-IDF value as the feature items,next used semantic dictionary and TF-IDF method to compute the text similarity,finally used several K-means clustering methods for evaluating performance of the new text document similarity.Experimental results show that the method's F-measure is superior to the others' which proves that the proposed method is effective.
出处 《计算机应用研究》 CSCD 北大核心 2012年第3期833-836,共4页 Application Research of Computers
基金 国家自然科学基金资助项目(60970056 61070123 61003155) 模式识别国家重点实验室开发课题基金资助项目 江苏省自然科学基金资助项目(BK2008160) 高等学校博士学科点专项科研基金资助项目(20093201110006)
关键词 向量空间模型 语义分析 词频 概率分布 文本相似度 vector space model semantic analysis term frequency probability distribution text similarity
  • 相关文献

参考文献13

  • 1KUMAR N. Approximate string matching algorithm[ J]. International Journal on Computer Science and Engineering, 2010,2 ( 3 ) : 641-644.
  • 2COELHO T A S, CALADO P P, SOUZA L V, et al. Image retrieval using multiple evidence ranking [ J]. IEEE Trans on Knowledge and Data Engineering, 2004,16 ( 4 ) :408-417.
  • 3KO Y, PARK J, SEO J. Improving text categorization using the im- portance of sentences [ J ]. Information Processing and Manage- ment,2004,40(1) :65-79.
  • 4THEOBALD M, SIDDHARTH J. SpotSigs: robust and efficient near duplicate detection in large Web collection [ C ]//Proc of the 31 st An- nual International,ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York:ACM Press,2008:563-570.
  • 5刘群 李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
  • 6李素建.基于语义计算的语句相关度研究[J].计算机工程与应用,2002,38(7):75-76. 被引量:83
  • 7董振东 董强.知网[EB/OL].http://www.keenage.com,2002.
  • 8车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计算[C]//全国第七届计算语言学联合学术会议论文集.北京:清华大学出版社,2003:81-88.
  • 9PATWARDHAN S, BANERJEE S, PEDERSEN T. Using measures of semantic relatedness for word sense disambiguation [ C ]//Proc of the 4th International Conference on Intelligent Text Processing and Com- putational Linguistics. 2003:301-308.
  • 10MILLER G. WordNet: a lexical database for English[ J]. Communi- cations of the ACM,1995,38( 11 ) :39-41.

二级参考文献1

  • 1穗志文.基于骨架依存树的语句相似度计算模型[J].计算语言学文集,1998,(3):176-184.

共引文献198

同被引文献362

引证文献42

二级引证文献222

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部