基于关联规则的Web文档聚类算法被引量：41

A Web Document Clustering Algorithm Based on Association Rule

下载PDF

导出

摘要 Web文档聚类可以有效地压缩搜索空间,加快检索速度,提高查询精度.提出了一种Web文档的聚类算法.该算法首先采用向量空间模型VSM(vector space model)表示主题,根据主题表示文档;再以文档为事务,以主题为事务项,将文档和主题间的关系看作事务的形式,采用关联规则挖掘算法发现主题频集,相应的文档集即为初步文档类;然后依据类间距离和类内连接强度阈值合并、拆分类,最终实现文档聚类.实验结果表明,该算法是有效的,能处理文档类间固有的重叠情况,具有一定的实用价值. By grouping similar Web documents into clusters, the search space can be reduced, the search accelerated, and its precision improved. In this paper, a new clustering algorithm is introduced. In the clustering technique, topics are represented according to VSM (vector space model), documents are represented according to topics, and the relation between documents and topics is viewed in a transactional form, each document corresponds to a transaction and each topic corresponds to an item. A frequent item sets can be found by using the association rules discovery algorithm, corresponding documents can be seen as initial clusters. These clusters are merged according to the distance between clusters, or divided according to the strength of connection among documents of a cluster. By real Web documents, experimental results show the algorithm抯 effectiveness and suitability for tackling the overlapping clusters inhered by documents.

作者宋擒豹沈钧毅

机构地区西安交通大学计算机科学与技术系

出处《软件学报》 EI CSCD 北大核心 2002年第3期417-423,共7页 Journal of Software

基金国家自然科学基金资助项目(60173058) 国家863青年基金资助项目(863-306-QN2000-5)~~

关键词产联规则 WWW Web文档聚类算法数据挖掘数据库 document clustering association rule Web mining WWW

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1[1]Broder,A.Z.,Glassman,S.C.,Manasse,M.S.Syntactic clustering of the Web.Technical Report,1997-015,Palo Alto,CA:Digital Systems Research Center (Digital),1997.
2[2]Chang,C.H.,Hsu,C.C.Customizable multi-engine search tool with clustering.Computer Network and ISDN Systems,1997,29(8-13):1217~1224.
3[3]Chen,L.,Katya,S.Webmate:a personal agent browsing and searching.In:Sycara,K.P.,Wooldridge,M.,eds.Proceedings of the 2nd International Conference on Autonomous Agents.New York:ACM Press,1998.132~139.
4[4]Ron,W.,Bienvenido,V.,Mark,A.S.,et al.Hypursuit:a hierarchical network search engine that exploits content-link hypertext clustering.In:ACM,ed.Proceedings of the 7th ACM Conference on Hypertext.New York:ACM Press,1996.180~193.
5[5]Ackerman,M.,Billsus,D.,Gaffney,S.,et al.Learning probabilistic user profiles.AI Magazine,1997,18(2):47~56.
6[6]Cheeseman,P.,Stutz,J.Bayesian classification (autoclass):theory and results.In:Fayyad,U.M.,Piatetsky-Shapiro,G.,Smyth,P.,et al.,eds.Advances in Knowledge Discovery and Data Mining.Menlo Park,CA:AAAI/MIT Press,1996.153~180.
7[7]Agrawal,R.,Srikant,R.Fast algorithm for mining association rules.In:Jorge,B.B,Matthias,J.,Carlo,Z.,eds.Proceedings of the 20th International Conference on Very Large Databases.Santiago:Morgan Kaufmann Publishers,Inc.,1994.487~499.

同被引文献445

1刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
2苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
3肖欣延,张东站,高君杰,薛永生.一种新的Web检索结果聚类方法[J].计算机研究与发展,2007,44(z2):79-83. 被引量：3
4侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：15
5王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7刘立平,易华容,何文斌.一种基于向量空间模型的文本聚类方法[J].株洲师范高等专科学校学报,2004,9(5):23-25. 被引量：4
8吕静,王晓峰,Osei Adjei,Fiaz Hussain.序列模式图及其构造算法[J].计算机学报,2004,27(6):782-788. 被引量：16
9王俊峰,杨建华,周虹霞,谢高岗,周明天.网络测量中自适应数据采集方法(英文)[J].软件学报,2004,15(8):1227-1236. 被引量：11
10黄聪明,陈湘秀.小生境遗传算法的改进[J].北京理工大学学报,2004,24(8):675-678. 被引量：49

引证文献41

1张培颖.基于模糊隶属度的个性化网页推荐系统[J].计算机系统应用,2008,17(11):11-13.
2王建会,申展,胡运发.一种实用高效的聚类算法[J].软件学报,2004,15(5):697-705. 被引量：26
3邢东山,沈钧毅,宋擒豹.集成Web使用挖掘和内容挖掘的用户浏览兴趣迁移挖掘算法[J].小型微型计算机系统,2004,25(7):1170-1173. 被引量：5
4朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
5王楠.基于聚类的全文检索系统后处理[J].情报杂志,2005,24(1):112-114. 被引量：4
6谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：54
7马国俊,贠卫国.基于潜在语义索引的中文文本聚类的研究[J].现代电子技术,2005,28(10):58-59. 被引量：4
8来升强,朱建平.数据挖掘中关联规则算法的发展趋势[J].统计与信息论坛,2005,20(3):16-20. 被引量：3
9杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
10蔡江辉,张继福,赵旭俊.二阶段模糊聚类方法研究[J].哈尔滨工程大学学报,2006,27(B07):552-557.

二级引证文献318

1沈昕怡,柯艺璐,徐成龙.基于文本挖掘的我国全民健身政策量化评价[J].体育视野,2023(24):6-8.
2张敏杰,徐宁,胡俊华,王宇飞,李晨,徐剑波,张诗玉.面向变压器智能运检的知识图谱构建和智能问答技术研究[J].全球能源互联网,2020,3(6):607-617. 被引量：15
3郑晓鸣,吕士颖,王晓东.一种基于随机抽取的有限深度层次聚类[J].郑州大学学报（理学版）,2007,39(3):80-83.
4姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
5况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
6李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
7马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
8夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：10
9周如旗.个性化数据聚类的属性坐标分析法[J].电脑与信息技术,2005,13(3):5-7. 被引量：1
10郑双怡.文本挖掘及其在知识管理中的应用[J].中南民族大学学报（人文社会科学版）,2005,25(4):127-130. 被引量：26

1杨炳儒,邵阔义,宋泽锋,张克君.基于高性能特征选择函数的Web文档聚类算法[J].计算机应用研究,2009,26(2):631-633. 被引量：2
2黄发良,苏毅娟.基于GA与PSO混合优化的Web文档聚类算法[J].小型微型计算机系统,2013,34(7):1531-1533. 被引量：5
3雷景生,伍庆清,王平.一种基于混合神经网络的Web文档聚类算法[J].计算机工程,2005,31(1):12-13. 被引量：1
4马艳英.基于遗传算法的Web文档聚类算法[J].现代电子技术,2016,39(1):148-152. 被引量：4
5王培涌,陈好刚,王树峰.一种改进的中文文本特征选择方法[J].现代计算机,2009,15(12):75-77.
6李毅,王浩,杨静.基于语义相似度的Web文档聚类算法[J].合肥工业大学学报（自然科学版）,2009,32(12):1846-1850. 被引量：3
7刘振鹿,王大玲,冯时,张一飞,方东昊.一种基于LDA的潜在语义区划分及Web文档聚类算法[J].中文信息学报,2011,25(1):60-65. 被引量：19
8吴斌,傅伟鹏,郑毅,刘少辉,史忠植.一种基于群体智能的Web文档聚类算法[J].计算机研究与发展,2002,39(11):1429-1435. 被引量：41
9张蓉.一种快速有效的Web文档聚类方法[J].计算机应用研究,2004,21(4):174-176. 被引量：1
10赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5

软件学报

2002年第3期

浏览历史

内容加载中请稍等...

基于关联规则的Web文档聚类算法被引量：41

参考文献7

同被引文献445

引证文献41

二级引证文献318

相关作者

相关机构

相关主题

浏览历史

基于关联规则的Web文档聚类算法 被引量：41

参考文献7

同被引文献445

引证文献41

二级引证文献318

相关作者

相关机构

相关主题

浏览历史

基于关联规则的Web文档聚类算法被引量：41