基于Web日志的高精度聚类算法被引量：4

High Precision Clustering Algorithm Based on Web Log

下载PDF

导出

摘要提出一种Web日志挖掘算法,该算法首先以Web站点的URL为行、以用户的UserID为列,建立URL- UserID关联矩阵,元素值为用户的访问次数;然后,对行向量进行相似性度量获得用户会话粗聚类,最后,利用层次结构对比聚类算法,对用户会话粗聚类进行进一步地处理得到更高精度的聚类,实验表明该算法在提高聚类精度方面卓有成效。 Similar customer groups, relevant Web pages and frequent access paths can be discovered by analyzing Web log files. A Web log mining algorithm is presented here. Firstly, according to Web site' s directed graph defined, a URL-UserID relevant matrix is set up, with URL as row and UserID as column, and users times of visiting as element values. Secondly, rough session clusters are obtained by measuring similarity between row vectors. Finally, by dealing with the rough session clusters further through hierarchy comparison clustering algorithm, clusters with higher precision can be acquired. Experiments prove the effectiveness of the algorithm.

作者金松河钱慎一张素智

机构地区郑州轻工业学院计算机与通信工程学院

出处《河南科技大学学报（自然科学版）》 CAS 2006年第2期49-51,共3页 Journal of Henan University of Science And Technology:Natural Science

基金河南省自然科学基金项目(0411010500)

关键词网络 WEB日志挖掘会话聚类结构层次 Networks Web log mining Session clustering Structure hierarchy

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87
2谭天乐,宋执环,李平.信息系统数据清洗、规则提取的矩阵算法[J].信息与控制,2003,32(4):289-294. 被引量：22
3刘俊强,霍华,普杰信.基于Web三层结构的统计管理系统[J].河南科技大学学报（自然科学版）,2003,24(3):72-75. 被引量：4
4赵泽茂,何坤金,陈鹏,景雪琴,蒋霞东.Web日志文件的异常数据挖掘算法及其应用[J].计算机工程,2003,29(17):195-196. 被引量：11
5王勋,凌云,费玉莲.基于Web日志和缓存数据挖掘的个性化推荐系统[J].情报学报,2005,24(3):324-328. 被引量：14
6肖国强,肖轶.一种从Web日志中挖掘访问模式的新算法[J].华中科技大学学报（自然科学版）,2004,32(5):70-72. 被引量：7
7江宝林,申展,张川,葛家翔,胡运发.结合网站内容和结构进行的Web日志挖掘[J].计算机工程,2004,30(16):30-32. 被引量：9
8许占民,陆长德,李桂琴.基于Web的工业设计信息系统设计与实现[J].河南科技大学学报（自然科学版）,2004,25(1):34-37. 被引量：5

二级参考文献54

1.甘仞初信息系统开发[M].北京：经济科学出版社,1999..
2JibiteshMishraAshokMohanty.现代信息系统设计方法[M].北京：电子工业出版社,2002..
3陆昌辉.SQL Server 2000核心技术内幕[M].北京:希望电子出版社,2002.257—262.
4Lan Shu,Mo Zhi Wen,Hu Dan. Methods of learning rules based on rough set: LBR and LEM3 [ A ]. IFSA World Congress and 20th NAFIPS International Couference [C]. 2001,2:753 -756.
5Bakar A A,Sulaiman M N,Othman M,et al. Fining minimal reduct with binary integer programming in data mining [A]. TENCON 2000 [C]. 2000,(2) :141 -146.
6Felix R, Ushio T. Rough sets-based machine learning using a binary discernibility matrix [ A ]. Proceedings of the Second International Conference on Intelligent Processing and Manufacturing of Materials [C]. 1999,1:299-305.
7Guan J W ,Bell D A,Guan Z. Matrix computation for information systems [ J ]. Information Sciences,2001,131, ( 1 - 4) : 129 -156.
8Zhong Ning,Dong Juzhen,Ohsuga Setsuo. Rule discovery by soft induction techniques[J]. Neurocomputing,2001,36 ( 1 - 4) :171 -204.
9Fujimori S, Kaiya T, Inoue T. Analysis of discharge currents with discernibility matrices [ A]. Proceedings of 1998 International Symposium on Electrical Insulating Materials [ C ]. 1998.649-652.
10Miao Duoqian, Wang Jue. Information-based algerithm for reduction of knowledge [ A ]. IEEE International Conference on Intelligent Processing Systems [C]. 1997,2:1155 -1158.

共引文献145

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2王建州,马志新,李廉.基于混沌的异常数据的动态识别与挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1753-1756. 被引量：7
3杨延娇,王治和.异常数据挖掘在Web服务器日志文件中的应用[J].西北师范大学学报（自然科学版）,2008,44(6):32-34. 被引量：4
4郑慧霞,王丽娜,钱庆.读者访问序列模式的探索[J].图书情报工作,2010,54(S1):271-274.
5卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
6杨尚森,高春玲.校园网设备综合管理信息系统的构建[J].河南科技大学学报（自然科学版）,2004,25(4):39-42. 被引量：8
7王秀,叶东毅.基于分布约简的获取规则的增量式方法[J].福州大学学报（自然科学版）,2005,33(1):16-19. 被引量：1
8黄刚,杨建国,项前,周亚勤.基于Web的纺织品销售管理系统的研制[J].东华大学学报（自然科学版）,2005,31(1):49-53. 被引量：3
9黄兵,周献中.不一致决策表中规则提取的矩阵算法[J].系统工程与电子技术,2005,27(3):441-445. 被引量：12
10王勋,凌云,费玉莲.基于Web日志和缓存数据挖掘的个性化推荐系统[J].情报学报,2005,24(3):324-328. 被引量：14

同被引文献32

1陈洁,张健,包枫.灰色模糊综合评价在新产品开发项目选择中的应用[J].河北理工学院学报,2004,26(3):71-75. 被引量：3
2罗党,刘思峰.一类灰色模糊决策问题的熵权分析方法[J].中国工程科学,2004,6(10):48-51. 被引量：12
3李庆华,苏珊.一种应用于入侵检测的并行聚类算法[J].计算机工程,2005,31(5):151-152. 被引量：1
4刘维峰,卢伟,许海燕.基于局域网和MPI的PC集群计算环境[J].计算机工程与设计,2005,26(5):1327-1329. 被引量：9
5田金兰,朱林,张素琴,刘璐.Improvement and Parallelism of k-Means Clustering Algorithm[J].Tsinghua Science and Technology,2005,10(3):277-281. 被引量：2
6许建华,张学工.经典线性算法的非线性核形式[J].控制与决策,2006,21(1):1-6. 被引量：12
7牛向阳.基于遗传算法和BP算法的混合算法[J].河南科技大学学报（自然科学版）,2007,28(1):46-48. 被引量：13
8吉海颖,吕宗健.用户访问模式挖掘及在电子商务中的应用[J].北方经济（学术版）,2007(1):128-130. 被引量：1
9王辉,高利军,王听忠.个性化服务中基于用户聚类的协同过滤推荐[J].计算机应用,2007,27(5):1225-1227. 被引量：43
10李烈彪,张海鹏,周亚峰.Web日志挖掘中数据预处理方法的研究[J].计算机技术与发展,2007,17(7):45-48. 被引量：15

引证文献4

1王辉,张望,范明.基于集群环境的K-Means聚类算法的并行化[J].河南科技大学学报（自然科学版）,2008,29(4):42-45. 被引量：10
2闫书丽,郑华杰,王传丽,陈巧玉.一种基于灰色聚类和模糊聚类的集成方法[J].河南科技大学学报（自然科学版）,2008,29(6):76-78. 被引量：4
3黄健青,黄浩.Web日志分析中数据预处理的设计与实现[J].河南科技大学学报（自然科学版）,2009,30(5):45-48. 被引量：5
4魏新红,张凯.一种改进的PSO-Means聚类优化算法[J].河南科技大学学报（自然科学版）,2011,32(2):41-43. 被引量：7

二级引证文献26

1彭安华.基于灰色聚类模型的实验成绩评定[J].淮海工学院学报（自然科学版）,2010,19(1):9-12. 被引量：5
2田曲波,邱德红,张奇峰,孙蕾.超级计算机错误预测模型研究[J].计算机工程与应用,2010,46(20):126-128.
3孟海东,杨彦侃.并行聚类算法的设计与研究[J].计算机与现代化,2010(8):5-7. 被引量：2
4程新党,张新刚,王保平,刘志都.分布式IDS动态可信度反馈调整算法[J].河南科技大学学报（自然科学版）,2010,31(4):39-42. 被引量：8
5焦军彩,马树建.基于灰色模糊聚类分析的长江水质的综合评价[J].南阳理工学院学报,2010,2(4):94-97.
6张超,李建成,王剑秦.一种基于网格计算的农业遥感数据快速分类算法[J].西安工程大学学报,2010,24(6):810-813. 被引量：1
7魏新红,张凯.一种改进的PSO-Means聚类优化算法[J].河南科技大学学报（自然科学版）,2011,32(2):41-43. 被引量：7
8王寿超,李杰,王菊,徐志璐,房春生.R型聚类与模糊聚类分析在源解析中的应用[J].安徽农业科学,2011,39(29):17757-17759. 被引量：2
9原建伟,王坤,李爱国.基于GPU的K-means并行算法研究与实现[J].陕西理工学院学报（自然科学版）,2012,28(5):44-48.
10靳玉萍,党婕.基于径向基神经网络改进算法优化锅炉燃烧效率[J].计算机应用,2013,33(6):1771-1773. 被引量：5

1凌海峰,曹荣涛.基于混合蚁群算法的Web用户会话聚类[J].计算机工程与应用,2013,49(22):136-138. 被引量：2
2凌海峰,王浩.细菌觅食算法与K-means结合的Web用户会话聚类[J].计算机工程与应用,2012,48(36):121-124. 被引量：2
3刘汉兴,田绪红,孙微微.基于Web的XML与数据库映射[J].现代计算机,2002,8(11):83-86. 被引量：2
4陈富赞,刘青,李敏强,寇纪淞.一种基于会话聚类算法的Web使用挖掘方法[J].系统工程学报,2012,27(1):129-136. 被引量：4
5周海斌.基于人工蚁群的Web会话聚类[J].重庆邮电学院学报（自然科学版）,2006,18(5):657-659. 被引量：1
6杨明花,古志民.基于超图聚类的用户行为模式挖掘[J].广西师范大学学报（自然科学版）,2006,24(4):163-166. 被引量：5
7杨钤雯,寇纪淞,陈富赞,李敏强.基于本体的语义网络会话聚类和可视化方法[J].模式识别与人工智能,2011,24(1):111-116. 被引量：2
8高春贞,吴军华.基于PLSA模型的Web用户会话聚类[J].煤炭技术,2010,29(7):143-146.
9王羽婷,徐维祥,张翼,李华华.一种新的Web日志聚类算法的研究与实现[J].现代电子技术,2007,30(24):139-142. 被引量：2
10杨明花,古志民.基于兴趣点的会话相似性测量研究[J].北京理工大学学报,2006,26(4):330-333. 被引量：2

河南科技大学学报（自然科学版）

2006年第2期

浏览历史

内容加载中请稍等...

基于Web日志的高精度聚类算法被引量：4

参考文献8

二级参考文献54

共引文献145

同被引文献32

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Web日志的高精度聚类算法 被引量：4

参考文献8

二级参考文献54

共引文献145

同被引文献32

引证文献4

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

基于Web日志的高精度聚类算法被引量：4