摘要
为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。
To improve the quality of text clustering and get the satisfactory clustering results,this paper proposed a text clustering based on similarity and ontology(TCBOS).By organizing text as ontology,this paper were easy to represent the meanings and relations of concepts.This paper designed and improved the measurement of similarity and measured the text similarity by similarity of text ontology,designed the algorithm of text clustering based on similarity.Experiments show that the method can avoid using the term isolation and high-dimensional,and can improve the clustering quality in correction degree and association degree,it's a way to analyze the text automatically.
出处
《计算机应用研究》
CSCD
北大核心
2010年第7期2494-2497,共4页
Application Research of Computers
基金
陕西省教育厅资助项目(09JK317)
智能信息处理技术关键问题及应用研究(2008akxy005)
基于本体的服务研究(AYQDZR200916)
关键词
本体
相似度
文本聚类
语义
ontology
similarity
text clustering
semantic