基于本体及相似度的文本聚类研究被引量：9

Study on text clustering based on ontology and similarity

下载PDF

导出

摘要为了改善文本聚类的质量,得到满意的聚类结果,针对文本聚类忽略概念的内涵及缺少概念间的联系,设计和改进了基于本体和相似度的文本聚类方法TCBOS(textclusteringbased on ontology and similarity)。研究了文本预处理及分词的方法,设计了用有限状态自动机来自动提取概念和关系的方法,对概念语义扩展和相似度计算方法进行了改进和完善,通过应用本体的语义相似度来度量文档间相近程度,完善了根据相似度进行文本聚类的K中心点算法。实验证明,该方法从聚类的准确性和聚类的关联度方面改善了聚类质量,为文本的自动分析和推荐提供了一条途径。 To improve the quality of text clustering and get the satisfactory clustering results,this paper proposed a text clustering based on similarity and ontology（TCBOS）.By organizing text as ontology,this paper were easy to represent the meanings and relations of concepts.This paper designed and improved the measurement of similarity and measured the text similarity by similarity of text ontology,designed the algorithm of text clustering based on similarity.Experiments show that the method can avoid using the term isolation and high-dimensional,and can improve the clustering quality in correction degree and association degree,it＇s a way to analyze the text automatically.

作者王刚邱玉辉

机构地区安康学院电子与信息工程系西南大学语义网格实验室

出处《计算机应用研究》 CSCD 北大核心 2010年第7期2494-2497,共4页 Application Research of Computers

基金陕西省教育厅资助项目(09JK317) 智能信息处理技术关键问题及应用研究(2008akxy005) 基于本体的服务研究(AYQDZR200916)

关键词本体相似度文本聚类语义 ontology similarity text clustering semantic

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1SONG Shao-xu,LI Chun-ping.TCUAP:a novel approach of text clustering using asymmetric proximity[C] //Proc of IICAI.2005:676-685.
2孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
3WEINSTEIN P,BIRMINGHAM W.Comparing concepts in differentiated ontologies[C] //Proc of KAW-99.1999.
4WACHE H,VOGELE T,VISSER U,et al.Ontology based integration of information:a survey of existing approaches[C] //Proc of the IJCAI-01 Workshop on Ontologies and Information Sharing.New York:IEEE Press,2001:108-117.
5FRIDMANNOY N,MUSEN M.PROMPT:algorithm and tool for automated ontology merging and alignment[C] //Proc of AAAI-2000.Austin,Texas:MIT Press/AAAI Press,2000:450-455.
6PANDYA A,BHATTACHARYYA P.Text similarity measurement using concept representation of texts[C] //Proc of the 1st International Conference on Patttern Recognition and Machine Intelligence.Berlin,Germany:Springer,2005:678-683.
7薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
8王刚,邱玉辉,蒲国林.一个基于语义元的相似度计算方法研究[J].计算机应用研究,2008,25(11):3253-3255. 被引量：13
9范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2002.

二级参考文献23

1吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：217
2TANGMUNARUNKIT H. Ontology based resource matching in the grid:the grid meets the semantic Web[ C]//Proc of the 2nd International Semantic Web Conference. Sanibel-Captiva Islands : [ s. n. ], 2003.
3LIU Chuang, FOSTER I. A constraint language approach to grid resource selection[ C]//Proc of the 12th IEEE International Symposium on High Performance Distributed Computing . Chicago:IEEE Press, 2003.
4WACHE H, VOGELE T, VISSER U ,et al. Ontology-based integration of information: a survey of existing approaches [ C ]//Proc of the IJCAI' 01 Workshop: Ontologies and Information Sharing. Seattle, WA : Springer, 2001.
5LI Lei, HORROCKS I. A software framework for matchmaking based on semantic Web technology [ C ]//Proc of the 12th International World Wide Web Conference (WWW2003). Germany:Folbah Yerlag Press ,2003.
6PAOLUCCI M. Semantic matching of Web service capabilities [ C ]// Proc of the 1st.International Semantic Web Conference (ISWC). Italy :IOS Press, 2002.
7SOLOMON M. Matchmaking distributed resource management for high throughput computing[ C ]//Proc of the 7th IEEE International Symposium on High Performance Distributed Computing. Chicago: IEEE CS Press, 1998.
8SOLOMON M, RAMAN R. Resource management through multilateral matchmaking[ C]//Proc of the 9th IEEE Symposium on High Performance Distributed Computing (HPDC9). Pittsburgh:AAAI Press,2000.
9BIANCHINI D. Hybrid ontology based matchmaking for service discovery[ C]//Proc of Symposium on Applied Computing the 2006 ACM Symposium on Applied Computing. New York:ACM Press, 2006.
10唐焕玲.[D].北京:清华大学计算机系,2003.

共引文献95

1任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
2许高建.基于Web的文本挖掘技术研究[J].计算机技术与发展,2007,17(6):187-190. 被引量：19
3关庆珍,周竹荣.基于Ontology的用户模型研究[J].计算机应用,2007,27(10):2504-2507. 被引量：8
4何松柏,袁晓洁,窦志成,王亚军.高速公路交通事故成因分析与关联因素研究[J].计算机工程与应用,2008,44(5):218-220. 被引量：11
5李国慧.Web数据挖掘研究[J].电脑知识与技术,2008(2):592-594. 被引量：2
6裘江南,罗志成,王延章.基于中文语义词典的语义相关度方法比较研究[J].情报理论与实践,2008,31(5):715-719. 被引量：5
7林海文.文本挖掘技术研究[J].电脑知识与技术,2008,3(12):1711-1712. 被引量：5
8阎萍,邱修峰.C语言中符号串相似度的计算方法[J].福建电脑,2009,25(3):191-192.
9李子叶,王亚刚,郭菊娥,席酉民.基于模糊集贴近度的文本信息分类器分辨率改进算法研究[J].管理工程学报,2009,23(1):13-18.
10葛育祥,熊励.整合文本挖掘的商务智能系统结构研究[J].计算机技术与发展,2009,19(4):1-4. 被引量：2

同被引文献80

1张锐.Wordnet综述[J].辽宁教育行政学院学报,2003,20(9):5-7. 被引量：3
2罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
3孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
4徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
5刘兴伟,姚书怀.基于层次聚类的语义Web服务发现算法[J].计算机应用与软件,2007,24(7):173-175. 被引量：6
6Han Jiawei,Kamber Micheline,范明,孟小峰,等译.数据挖掘概念与技术[M].北京:机械工业出版社,2007:424-479.
7邝砾,邓水光,李莹,吴健,吴朝晖.使用倒排索引优化面向组合的语义服务发现[J].软件学报,2007,18(8):1911-1921. 被引量：24
8王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
9Studer R, Benjamins V R, Fensel D. Knowledge Engineering: Principles and Methods [ J ]. Data and Knowledge Engineering, 1998,25 (1-2) : 161-197.
10张勇,门涛.基于WORDNET的领域本体半自动构建研究[J].渤海大学学报（自然科学版）,2007,28(4):381-384. 被引量：2

引证文献9

1张玉芳,熊荣东,熊忠阳.本体概念与词汇的语义相似度计算方法[J].世界科技研究与发展,2011,33(5):763-764.
2杨岳明,陈立潮,谢斌红,潘理虎.基于用户情境聚类的Web服务发现方法研究[J].计算机工程与设计,2012,33(4):1442-1446. 被引量：5
3洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
4马莹,岳振军,顾思远,唐谦.基于本体和需求满足度的情报评价方法[J].情报杂志,2014,33(6):37-39. 被引量：1
5李少博,邸书灵,范通让.利用本体技术的文本聚类模型[J].河北省科学院学报,2014,31(2):79-82.
6王琼.一种改进的k-means文本聚类优化方法[J].计算机与现代化,2015(3):48-51.
7毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
8李伟民.基于相似度聚类的网络异常快速识别方法研究[J].信息与电脑,2019,0(9):117-118.
9邱泽国,贺百艳.基于PCA-Spectral-LDA的网络舆情聚类和情感演进分析:一个微博文本挖掘研究[J].系统科学与数学,2021,41(10):2906-2918. 被引量：13

二级引证文献36

1吴玉霄,白尚旺,王永明.一种支持QoS预测的语义Web服务发现模型[J].电脑开发与应用,2013,26(6):51-54.
2许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
3郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
4金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
5古凌岚.基于情境的Web服务推荐方法[J].计算机工程与设计,2014,35(3):1115-1120. 被引量：3
6许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32. 被引量：3
7李敏,顾铭斯.基于用户情境类聚合的移动信息个性化服务研究[J].图书馆学研究,2015(5):65-68. 被引量：5
8张进,傅秀芬.利用匹配关系图的Web服务发现方法[J].计算机工程与设计,2015,36(10):2738-2742. 被引量：1
9袁小艳.基于情境的个性化学习云服务推荐模型研究[J].电子设计工程,2016,24(4):39-41. 被引量：6
10赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：8

1陶惠,张妍,郝光权.基于向量空间的文档聚类算法分析[J].电脑知识与技术（过刊）,2011,17(7X):4781-4782. 被引量：2
2肖天灿,陈志刚.数据挖掘概念及国内外现状[J].计算机光盘软件与应用,2012,15(20):13-14. 被引量：1
3陈阳梅,丁晓明.一种基于K中心点算法的测试用例集约简方法[J].计算机科学,2012,39(B06):422-424. 被引量：3
4蒋翠清,高家飞,李斌生.面向产品设计人员的知识推送服务研究[J].合肥工业大学学报（自然科学版）,2012,35(3):392-397. 被引量：5
5王美,李晓峰,孟令军,张立军.基于k中心点算法的TOPO服务器算法的研究[J].计算机技术与发展,2014,24(4):122-125. 被引量：1
6赵书慧.K中心点算法——PAM的分析与实现[J].福建电脑,2008,24(6):104-105. 被引量：2
7吴景岚,朱文兴.基于K中心点的文档聚类算法[J].兰州大学学报（自然科学版）,2005,41(5):88-91. 被引量：4
8谢娟英,郭文娟,谢维信.基于邻域的K中心点聚类算法[J].陕西师范大学学报（自然科学版）,2012,40(4):16-22. 被引量：35
9孟颖,罗可,刘建华,姚丽娟.基于云计算的ACO-K中心点资源优化算法[J].计算机工程与应用,2013,49(5):103-107. 被引量：2
10刘令,赵云龙.交巡警服务平台的设置[J].中国科技投资,2013(A27):153-153.

计算机应用研究

2010年第7期

浏览历史

内容加载中请稍等...

基于本体及相似度的文本聚类研究被引量：9

参考文献9

二级参考文献23

共引文献95

同被引文献80

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于本体及相似度的文本聚类研究 被引量：9

参考文献9

二级参考文献23

共引文献95

同被引文献80

引证文献9

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

基于本体及相似度的文本聚类研究被引量：9