基于用户访问兴趣的Web日志挖掘被引量：14

Web log mining based on user's accessing interest

导出

摘要 Web日志挖掘可以发现访问者兴趣和需求,提出了一种改进的以访问时间、点击次数以及访问路径共同刻画用户的访问兴趣的Web日志挖掘算法.首先以Web日志为基础构建相关矩阵,使用平均访问时间相似度和访问路径相似度共同度量用户访问兴趣的相似程度,最后采用直接聚类去除相交项的聚类算法将相似用户和相关URL聚类.实证分析结果表明该算法能较好地解释用户的实际访问兴趣,从而为网站提供相应的运营建议. The Web log mining could obtain the web users＇ browsing interesting and their requirements, so an improved Web log mining algorithm which based on access time,browsing times and browsing paths is proposed.This study use Web log to create related matrixes,and then measure similarity of users＇ interest by considering both similarity of average browsing time and similarity of browsing paths.Finally, direct clustering algorithm is used to cluster the users of similar browsing interest and URL.The empirical study is based on real world Web log data.The result of the proposed algorithm can provide some useful recommendation on the website operation.

作者何跃马丽霞腾格尔

机构地区四川大学工商管理学院

出处《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2012年第6期1353-1361,共9页 Systems Engineering-Theory & Practice

基金国家自然科学基金(70771067)

关键词 WEB日志挖掘用户兴趣相似度聚类 Web log mining user＇s interest similarity clustering

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Chen M S, Park J S, Yu P S. Data mining for path traversal patterns in a web environment[C]//IEEE Computer Society, 1996.
2Weng Ngu D S, Wu X. Sitehelper: A localized agent that helps incremental exploration of the world wide web[J]. Computer Networks and ISDN Systems, 1997, 29(8 13): 1249 1255.
3宋擒豹,沈钧毅.Web日志的高效多能挖掘算法[J].计算机研究与发展,2001,38(3):328-333. 被引量：115
4邢东山,沈钧毅,宋擒豹.从Web日志中挖掘用户浏览偏爱路径[J].计算机学报,2003,26(11):1518-1523. 被引量：87
5蔡智,岳丽华,王熙法.时序模式发现算法研究[J].计算机研究与发展,2000,37(9):1107-1113. 被引量：15
6王实,高文,李锦涛,谢辉.路径聚类:在Web站点中的知识发现[J].计算机研究与发展,2001,38(4):482-486. 被引量：59
7张文东,易轶虎.基于兴趣相似性的Web用户聚类[J].山东大学学报（理学版）,2006,41(3):45-47. 被引量：11
8邢东山,宋擒豹,沈钧毅.一种新的Web事务模糊聚类算法的研究[J].西安交通大学学报,2002,36(8):822-825. 被引量：12
9吴瑞,宁玉富.基于模糊粗糙k-均值的用户访问模式的聚类[J].系统工程理论与实践,2007,27(7):116-121. 被引量：4
10业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367. 被引量：20

二级参考文献38

1业宁,李威,梁作鹏,董逸生.一种Web用户行为聚类算法[J].小型微型计算机系统,2004,25(7):1364-1367. 被引量：20
2李超,余昭平.基于最大模式的关联规则挖掘算法研究[J].微计算机信息,2006(02X):164-165. 被引量：20
3Chen M S，IEEE Trans Knowledge Data Engineering，1996年，8卷，6期，866页
4Agrawal R，Proc of the 2 1st Int’ l Conf on Very Large Data Bases，1995年，490页
5Zaiane O R，Proc Advances Digital Libraries Conf，1998年，19页
6Chen M S，Proc of the 16th Int Conf Distributed Computing Systems，1996年，385页
7Mobasher B，Tech Rep:TR96，1996年
8Yan T，Proc of the 5th Int World Wide Web Conf，1996年，27页
9Anand S S, Patrick A R, Hughes J G. A data mining methodology for cross-sales. Knowledge Based Systems Journal, 1998,10(7):449～461
10Park J S, Chen M S, Yu P S. Using A hash-based method with transaction trimming for mining association rules. IEEE Transactions on Knowledge and Data Eng., 1997, 9(5):813～825

共引文献288

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2徐勇,张利宏,张慧.基于web的肺结核病人规范管理转诊系统的设计与实现[J].科技信息,2008(24):424-425. 被引量：4
3周密,董其军.基于用户信息活动的智能数字图书馆研究[J].图书馆学研究,2002(8):59-62. 被引量：3
4赵娜,臧景才.多标记传播聚类算法在电子商务中的应用[J].青海大学学报（自然科学版）,2009,27(1):85-88.
5薛昌春.浅谈电子商务中客户购物信息挖掘研究[J].科技经济市场,2007(11):32-33. 被引量：1
6蔡猷花,张岐山.Web日志挖掘及其在电子商务领域的应用[J].管理学报,2005,2(z1):133-135.
7杨东,程莉,李邦云.基于数据挖掘的负荷预测初探[J].浙江电力,2003,22(6):17-20.
8郑慧霞,王丽娜,钱庆.读者访问序列模式的探索[J].图书情报工作,2010,54(S1):271-274.
9卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
10朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16

同被引文献103

1吴旗,刘健男,寇文龙,张宗升.改进的单类支持向量机的网络流量检测[J].吉林大学学报（工学版）,2013,43(S1):124-127. 被引量：3
2梁邦勇,李涓子,王克宏.基于语义Web的网页推荐模型[J].清华大学学报（自然科学版）,2004,44(9):1272-1276. 被引量：9
3吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：217
4郭岩,白硕,杨志峰,张凯.网络日志规模分析和用户兴趣挖掘[J].计算机学报,2005,28(9):1483-1496. 被引量：63
5吴丽花,刘鲁.个性化推荐系统用户建模技术综述[J].情报学报,2006,25(1):55-62. 被引量：104
6高忠义,王永贵.用户创新及其管理研究现状与展望[J].外国经济与管理,2006,28(4):40-47. 被引量：40
7吴贵生,谢韡.用户创新概念及其运行机制[J].科研管理,1996,17(5):14-19. 被引量：56
8席运江,党延忠.基于加权知识网络的个人知识存量表示与度量方法[J].管理学报,2007,4(1):28-31. 被引量：8
9郭清蓉.基于C/S和P2P模式的信息资源共享与交流比较[J].图书馆学研究,2007(2):23-25. 被引量：5
10梁志荣.数据挖掘中聚类分析的技术方法[J].电脑开发与应用,2007,20(6):37-39. 被引量：15

引证文献14

1赵洁,温润,周峰,金培权.基于Web用户日志的电子商务领域竞争对手分析——以11家电子商务网站为例[J].信息资源管理学报,2013,3(4):53-62. 被引量：4
2贾永杰,鱼莹.基于Web的社区健身服务信息系统的分析与设计[J].现代电子技术,2014,37(8):86-87. 被引量：2
3梁俊杰,刘琼妮,余敦辉.基于本体的Web资源个性化推荐算法[J].计算机应用,2014,34(11):3135-3139. 被引量：3
4彭思琪.聚类算法在Web日志挖掘中的研究[J].物联网技术,2015,5(7):58-59.
5廖晓,李志宏,席运江.基于加权知识网络的企业社区用户创新知识建模及分析方法[J].系统工程理论与实践,2016,36(1):94-105. 被引量：18
6秦春秀,赵捧未,杨志墨.基于双层聚类方法的P2P文档共享系统的用户兴趣建模[J].情报科学,2016,34(8):138-142. 被引量：1
7李昌兵,凌永亮,汪尔晶.基于兴趣度的Web访问用户关联规则挖掘[J].计算机工程与设计,2017,38(4):852-856. 被引量：8
8姜宇,张大方,刁祖龙.基于点击流的用户矩阵模型相似度个性化推荐[J].计算机工程,2018,44(1):219-225. 被引量：11
9赵小强,张露.基于SVM的高维不平衡数据集分类算法[J].南京大学学报（自然科学版）,2018,54(2):452-461. 被引量：3
10谢莹,许荣斌.基于Harmonic函数的自动试题标注模型[J].韶关学院学报,2018,39(6):1-6.

二级引证文献65

1魏思敏,张宪华,张祯,孟庆春,张夏然.基于复杂网络的虚拟品牌社区意见领袖识别研究——以魅族Flyme社区为例[J].山东大学学报（理学版）,2018,53(11):26-34. 被引量：6
2胡欣悦,汤勇力,王国庆,孙飞,曹兴洋.研发国际化、跨国知识网络与研发单元创新绩效——基于华为PCT专利(2002-2013年)的面板数据分析[J].系统工程理论与实践,2018,38(12):3124-3139. 被引量：21
3余本功,王龙飞,陈杨楠,杨颖.基于文献多属性加权的共词分析方法研究[J].情报科学,2019,37(1):122-128. 被引量：5
4杨军超,雒江涛,申健,邓生雄.基于MapReduce的校园网用户网购偏好分析[J].计算机系统应用,2015,24(10):222-226. 被引量：1
5李霞,郭浩龙,张保威,王永华.一种基于粗糙集的纺织企业纱线质量评价模型[J].计算机科学,2015,42(B11):557-559.
6邹毫,蒋国璋,赵爽,李竹君,陈明豪,陈容,李贝.社区服务信息系统建设[J].科教文汇,2016(13):183-185.
7唐晓波,魏巍.基于本体的推荐系统研究综述[J].图书馆学研究,2016(18):7-12. 被引量：6
8唐洪婷,李志宏,秦睿.基于超网络的大众协同创新社区用户知识模型研究[J].管理学报,2017,14(6):859-867. 被引量：15
9严宇平,吴石松,王建永,张璐.企业移动网站中投资盈利信息检测仿真研究[J].计算机仿真,2017,34(6):423-426.
10徐刘杰,陈世灯.学习者知识建构的社会认知网络[J].开放教育研究,2017,23(5):102-112. 被引量：3

1胡宏智,王华.Web日志挖掘技术的应用研究[J].网络安全技术与应用,2011(5):77-78. 被引量：2
2崔英敏,陈阳.Web日志挖掘中的用户聚类与URL聚类[J].福建电脑,2007,23(6):15-16.
3于水英,丁华福,付志超.基于遗传算法和模糊聚类的文本分类研究[J].计算机技术与发展,2009,19(4):131-133. 被引量：6
4孙胜,曹绍君.对增量式模糊聚类算法的改进[J].黄石理工学院学报,2006,22(4):37-39.
5曹付元,牛文婷.一种基于词袋模型的块数据聚类算法[J].山西大学学报（自然科学版）,2016,39(2):216-222.
6范小春.关于信息检索中应用模糊聚类分析的若干问题[J].科学技术与工程,2010,10(11):2772-2776. 被引量：2
7子寒.你火他火看谁最火[J].网友世界,2006(14):32-32.
8俞木发.百变精灵Pitaschio调理你的Windows[J].电脑爱好者,2007,0(23):35-35.
9夕阳.明明白白买硬盘[J].电脑采购,2000(16):6-6.
10刘盛辉,王伟,彭进业.不同Vague集相似度量直接聚类算法比较[J].中国科技论文,2013,8(1):41-45. 被引量：3

系统工程理论与实践

2012年第6期

浏览历史

内容加载中请稍等...

基于用户访问兴趣的Web日志挖掘被引量：14

参考文献11

二级参考文献38

共引文献288

同被引文献103

引证文献14

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于用户访问兴趣的Web日志挖掘 被引量：14

参考文献11

二级参考文献38

共引文献288

同被引文献103

引证文献14

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

基于用户访问兴趣的Web日志挖掘被引量：14