网络日志规模分析和用户兴趣挖掘被引量：63

Analyzing Scale of Web Logs and Mining Users’ Interests

下载PDF

导出

摘要文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴趣;利用日志中蕴含的用户稳定兴趣,提出了一个基于用户行为的相关文档检索模型和搜索引擎系统SISI.SISI的实际检索性能与分析检索模型所得结论一致:检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数. The work in this paper focuses on Web-log mining. Are there really some characteristics of user access existing in Web logs？ And if yes, can these characteristics be described clearly？ And how to use the characteristics？ To try to answer these questions, this paper analyzes real Web logs. The work in this paper include： As scale of Web logs increasing, the changes of users＇ count, Web documents＇ count and the average of Web documents＇ count accessed by one user are analyzed. A conclusion is drawn that user＇s accessing on Web is more driven by stable interests than casual ones, and user＇s stable interests must be contained in Web logs. To make use of user＇s stable interests in Web logs, this paper provides a model and a search engine, SISI （Similar Interests, Similar access on Internet）, which tries to mine related pages by making use of latent human judgment in related pages contained in Web logs. The performance of SISI is consistent with the analysis result of model： The accuracy and time cost of retrieval mainly rely on users＇ count, and count of result records mainly rely on Web documents＇ count.

作者郭岩白硕杨志峰张凯

机构地区中国科学院计算技术研究所软件研究室

出处《计算机学报》 EI CSCD 北大核心 2005年第9期1483-1496,共14页 Chinese Journal of Computers

基金中国科学院计算技术研究所领域前沿青年基金(2002618024)资助

关键词 WEB日志挖掘日志规模兴趣用户行为 Web-log mining scale of Web logs interest users action

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Perkowitz M., Etzioni O.. Towards adaptive Web sites: Conceptual framework and case study. Artificial Intelligence, 2000, 118: 245～275.
2Schechter S., Krishnan M., Smith M.D.. Using path profiles to predict HTTP requests. In: Proceedings of the 7th International World Wide Web Conference Computer, Networks and ISDN Systems, Brisbane, Australia, 1998, 30: 457～467.
3宋擒豹,沈钧毅.Web日志的高效多能挖掘算法[J].计算机研究与发展,2001,38(3):328-333. 被引量：115
4Cooley R., Mobasher B., Srivastava J.. Data preparation for mining world wide Web browsing patterns. Knowledge and Information Systems, 1999, 1(1): 5～32.
5叶弈乾孔克勤.个性心理学[M].上海:华东师范大学出版社,1993.349,181.
6郭岩.基于网络用户行为的相关页面挖掘模型[J].微电子学与计算机,2003,20(5):76-82. 被引量：11
7郭岩.基于网络用户行为的搜索引擎系统SISI[J].计算机工程,2004,30(16):9-11. 被引量：1

二级参考文献12

1Resnick P, Iacovou N, Suchak M, Bergstrom P, RiedI J.GroupLens: An Open Architecture for Collaborative Filtering of Netnews. Proceedings of 1994 Conference on Computer Supported Collaborative Work, 1994: 175-186.
2Borchers AI, Herlocker Jon, Konstan Joseph, Riedl John.Ganging up on Information Overload. Interact WatchComputer, 1998(4): 106-108.
3Zaiane O R，Proc Advances Digital Libraries Conf，1998年，19页
4Chen M S，Proc of the 16th Int Conf Distributed Computing Systems，1996年，385页
5Mobasher B，Tech Rep:TR96，1996年
6Perkowitz M,Etzioni O.Towards Adaptive Web Sites:Conceptual Framework and Case Study. Artificial Intelligence,2000,118:245-275,http ://www. perkowitz.net/research/papers/aij 99. ps
7Schechter S,Krishnan M,Smith M D.Using Path Profiles to Predict HTTP Requests.http://www7.scu.edu.au/programme/fullpapers/1917/com 1917.htm
8Cooley R,Mobasher B,Srivastava J.Data Preparation for Mining World Wide Web Browsing Patterns.The Journal of Knowledge and Information Systems,http://maya.cs.depaul.edu/～mobasher/papers/webminer-kais.ps, 1999, 1(1)
9王家钺.信息检索中''''相关性''''概念的研究[EB/OL].http://www.in2in.com/jywang/pbbl/mfl0l 02.htm,.
10Netscape Communications Corporation. What′s Related. http://wp.netscape.com/escapes/related/

共引文献126

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2赵娜,臧景才.多标记传播聚类算法在电子商务中的应用[J].青海大学学报（自然科学版）,2009,27(1):85-88.
3薛昌春.浅谈电子商务中客户购物信息挖掘研究[J].科技经济市场,2007(11):32-33. 被引量：1
4汪务生.转变教育思想深化教育改革[J].滁州学院学报,2001,3(3):106-107.
5蔡猷花,张岐山.Web日志挖掘及其在电子商务领域的应用[J].管理学报,2005,2(z1):133-135.
6王恒.基于协同过滤的电子农务推荐系统模型研究[J].宁夏大学学报（自然科学版）,2009,30(4):358-360. 被引量：2
7朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
8郭岩.基于网络用户行为的搜索引擎系统SISI[J].计算机工程,2004,30(16):9-11. 被引量：1
9严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003,25(6):72-75. 被引量：10
10邱均平,张洋.网络信息计量学综述[J].高校图书馆工作,2005,25(1):1-12. 被引量：44

同被引文献518

1陈本辉.网络管理技术应用探讨[J].大理学院学报（综合版）,2004,3(3):101-102. 被引量：5
2李亚楠,王斌.一个中文搜索引擎的查询日志分析[J].数字图书馆论坛,2008(7):1-10. 被引量：4
3田朝晖.行为学、行为科学与行为主义辨析[J].湖南大学学报（社会科学版）,1999,13(4):72-75. 被引量：9
4王继民,彭波.搜索引擎用户访问量模型[J].计算机工程与应用,2004,40(25):9-11. 被引量：12
5费爱国,王新辉.一种基于Web日志文件的信息挖掘方法[J].计算机应用,2004,24(6):57-59. 被引量：24
6张慧颖,梁伟.基于用户访问模式挖掘的网页实时推荐研究[J].计算机应用,2004,24(6):70-73. 被引量：12
7饶浩.利用主观贝叶斯方法进行不确定性推理[J].韶关学院学报,2004,25(6):6-9. 被引量：7
8张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：179
9王咏,申瑞民.通过挖掘Web日志改进站点结构[J].计算机工程,2004,30(12):133-135. 被引量：8
10邢玲,史杏荣.基于UCL的网页自动标引技术[J].计算机工程与应用,2004,40(17):148-151. 被引量：6

引证文献63

1吕佳.Web日志挖掘技术应用研究[J].重庆师范大学学报（自然科学版）,2006,23(4):39-44. 被引量：15
2卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
3杨明花,古志民.基于兴趣特征的WUM数据预处理方法[J].计算机应用,2006,26(10):2393-2394. 被引量：3
4彭文辉,杨宗凯,黄克斌.网络学习行为分析及其模型研究[J].中国电化教育,2006(10):31-35. 被引量：146
5邢玲,马建国,李幼平,刘志文.一种基于UCL的中文网页信息过滤方法[J].电子学报,2006,34(10):1752-1757. 被引量：9
6徐德智,郭臻.基于本体的Web用户行为语义分析[J].现代图书情报技术,2007(1):65-68. 被引量：3
7吕佳.基于兴趣度的Web用户访问模式分析[J].计算机工程与设计,2007,28(10):2403-2404. 被引量：8
8吴晶,张品,罗辛,盛浩,熊璋.门户个性化兴趣获取与迁移模式发现[J].计算机研究与发展,2007,44(8):1284-1292. 被引量：9
9李村合,杨献峰,张培颖.基于Web挖掘与相关反馈的多层次用户兴趣挖掘算法[J].微计算机应用,2007,28(9):911-915. 被引量：3
10陈祖琴,张惠玲,葛继科,郑宏.基于加权关联规则挖掘的相关文献推荐[J].现代图书情报技术,2007(10):57-61. 被引量：14

二级引证文献478

1张杰鑫,庞建民,张铮.拟态构造的Web服务器异构性量化方法[J].软件学报,2020,31(2):564-577. 被引量：16
2冯建英,王博,吴丹丹,穆维松,田东.用户画像技术与其在农业领域应用研究进展[J].农业机械学报,2021,52(S01):385-395. 被引量：9
3黄贤英,阳安志,刘小洋,刘广峰.融合兴趣的微博用户相似度计算研究[J].计算机应用研究,2020,37(1):66-70. 被引量：1
4刘素芹,硕珺,李兴盛,孟令芬.一种基于页面时间的排序算法[J].郑州大学学报（理学版）,2009,41(1):15-18.
5梁斌,王选孔.学习者特征因素影响网络学习行为的研究[J].广州大学学报（社会科学版）,2009,8(9):62-66. 被引量：8
6刘丽英,刘丽芳.基于交互理论的网络学习行为分析及研究[J].中国校外教育（上旬）,2012(9):23-23. 被引量：1
7郑慧霞,王丽娜,钱庆.读者访问序列模式的探索[J].图书情报工作,2010,54(S1):271-274.
8张耕畅,黄晓禹,卢世尧,王晓萍,侯超钧.基于云计算的大学生兴趣社交平台[J].仲恺农业工程学院学报,2013,26(4):38-42. 被引量：1
9吕佳.基于免疫聚类的Web日志挖掘[J].重庆师范大学学报（自然科学版）,2007,24(2):32-35. 被引量：3
10隆功伦,席光文.基于关联规则的虚拟主机网站日志挖掘[J].重庆文理学院学报（自然科学版）,2007,26(4):45-47.

1刘智.基于FPGA实现的FFT速度与规模分析[J].科技视界,2014(21):192-193. 被引量：1
2潘敏,王明文,王晓庆,揭安全.基于簇特征的文本增量聚类研究[J].江西师范大学学报（自然科学版）,2014,38(1):95-101. 被引量：2
3李贵林,杨禹琪,高星,廖明宏.企业搜索引擎个性化表示与结果排序算法研究[J].计算机研究与发展,2014,51(1):206-214. 被引量：7
4甄志龙,韩立新,陆佃龙.基于模糊关系的文本分类特征选择方法[J].情报学报,2008,27(6):851-856. 被引量：1
5陈晓春.基于Apriori算法的Web日志挖掘研究[J].福建电脑,2014,30(7):80-81. 被引量：2
62014英特尔能源管理解决方案峰会在京举行[J].电子产品世界,2015,22(1):75-75.
7吕天文.2011-2012年度中国物联网行业市场分析与展望[J].电源世界,2012(11):8-10.
8应水金,陈福洋.提高森林资源续档数据精度问题的研究[J].林业勘察设计,2008,28(2):204-205.
9余霞,葛红,何俊,王玉峰.基于MPI的并行医学图像处理[J].计算机工程与科学,2009,31(3):32-34. 被引量：5
10张胜,施荣华,赵颖,周芳芳.信息熵时序和树图用于NetFlow可视化的研究[J].高技术通讯,2014,24(9):903-909.

计算机学报

2005年第9期

浏览历史

内容加载中请稍等...

网络日志规模分析和用户兴趣挖掘被引量：63

参考文献7

二级参考文献12

共引文献126

同被引文献518

引证文献63

二级引证文献478

相关作者

相关机构

相关主题

浏览历史

网络日志规模分析和用户兴趣挖掘 被引量：63

参考文献7

二级参考文献12

共引文献126

同被引文献518

引证文献63

二级引证文献478

相关作者

相关机构

相关主题

浏览历史

网络日志规模分析和用户兴趣挖掘被引量：63