-
题名Web日志挖掘中的数据预处理技术研究
被引量:62
- 1
-
-
作者
赵伟
何丕廉
陈霞
谢振亮
-
机构
天津大学计算机科学与技术系
-
出处
《计算机应用》
CSCD
北大核心
2003年第5期62-64,67,共4页
-
基金
天津市科技发展计划项目 (0 2 3 1 0 0 51 1 )
-
文摘
在Web数据挖掘研究领域中,Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面。而数据预处理在Web日志挖掘过程中起着至关重要的作用。文中深入探讨了数据预处理环节的主要任务,并介绍这个过程中一些特殊情况的处理方法。
-
关键词
数据挖掘
web日志挖掘
数据预处理
-
Keywords
data mining
web log mining
data preprocessing
-
分类号
TP311.138
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web日志挖掘中的会话识别方法
被引量:13
- 2
-
-
作者
周爱武
程博
李孙长
夏松
-
机构
安徽大学计算机科学与技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第5期936-938,964,共4页
-
基金
安徽省高等学校省级自然科学研究基金项目(kj2008B092)
-
文摘
为更好地实现会话识别,从而为后续模式发现提供准确的挖掘数据,在分析现有常用的会话识别方法后,提出一种基于待挖掘站点首页的用户会话识别方法。该方法根据用户浏览站点的习惯,以站点首页作为用户新会话开始标识,并增强了用户会话的定义。最后利用数据库编程实现该方法,将识别出的会话存储在数据库中,便于后续数据挖掘使用。实验结果表明,该方法能识别出更多的用户会话,且识别会话的准确率也更高。
-
关键词
数据预处理
web日志
会话识别
站点首页
数据库
-
Keywords
data preprocessing
web log
session identification
site home page
database
-
分类号
TP301
[自动化与计算机技术—计算机系统结构]
-
-
题名Web日志挖掘中的数据预处理技术
被引量:22
- 3
-
-
作者
李燕
冯博琴
鲁晓锋
-
机构
西安交通大学电子与信息工程学院
西安理工大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第22期44-46,49,共4页
-
基金
国家"863"计划基金资助项目(2008AA01Z131)
-
文摘
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。
-
关键词
web日志挖掘
数据预处理
用户会话识别
路径补充
-
Keywords
web log mining
data preprocessing
user-session identification
path completion
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志挖掘中数据预处理的研究
被引量:20
- 4
-
-
作者
赵红玲
宋瀚涛
牛振东
刘桂山
-
机构
北京理工大学计算机系
北京理工大学软件学院
-
出处
《计算机应用研究》
CSCD
北大核心
2005年第6期67-69,共3页
-
基金
霍英东教育基金会高等院校青年教师基金资助项目(91101)
-
文摘
针对框架式页面存在的问题,对数据预处理过程进行了改进,在数据清洗和用户识别部分添加了页面过滤部分,同时对预处理过程中的页面过滤算法和用户识别策略也进行了改进。
-
关键词
数据挖掘
web日志挖掘
数据预处理
-
Keywords
data mining
web log
data preprocessing
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名一种Web日志会话识别的优化方法
被引量:18
- 5
-
-
作者
陈子军
王鑫昱
李伟
-
机构
燕山大学信息学院计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第1期95-97,共3页
-
基金
燕山大学博士基金资助项目
-
文摘
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。该文对此提出优化算法,并对最常用的Timeout方法识别的会话进行优化,通过实验证明会话质量得到了提高。
-
关键词
web日志挖掘
数据预处理
会话识别
-
Keywords
web log mining
data preprocessing
sessions reconstruction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web日志挖掘预处理中的用户识别技术
被引量:21
- 6
-
-
作者
吴强
梁继民
杨万海
-
机构
西安电子科技大学电子工程学院
-
出处
《计算机科学》
CSCD
北大核心
2002年第4期64-66,共3页
-
文摘
1引言
互联网技术和应用的迅速发展使得可以从因特网获取的信息量日益剧增,因此迫切需要一种新的技术从这些信息中快速、及时地发现有用的知识,提高信息的利用率.作为数据挖掘技术[1]研究的一个重要领域,Web日志挖掘(Web L0gMining)是从服务器日志文件内大量的用户访问记录中抽取有用信息的过程.通过对Web日志的分析,可以构造出用户的行为模式,对于分析改进网络性能、优化网站的设计和拓扑结构以及改善企业的市场营销决策等会有极大的帮助[2,3].
-
关键词
因特网
服务器
web
日志挖掘预处理
用户识别
-
Keywords
web log mining, preprocessing, User identification, Cookie
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志预处理中优化的会话识别方法
被引量:11
- 7
-
-
作者
方元康
胡学钢
夏启寿
-
机构
合肥工业大学计算机与信息学院
池州学院计算机中心
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第7期49-51,共3页
-
基金
国家自然科学基金资助项目(050504F)
池州学院自然科学基金资助项目(XK0829)
-
文摘
针对Web日志数据预处理中会话识别这一重要环节,提出一种优化的会话识别算法。在用户识别后,通过过滤框架页面大幅度减少实验产生的有效页面数,为每个页面设置访问时间阈值,并根据页面重要程度对该阈值进行调整,页面的重要性由页面内容及站点结构确定。实验数据显示,与对所有页面使用单一的先验阈值进行会话识别的方法相比较,该方法得到了真实性更强的会话集。
-
关键词
web挖掘
数据预处理
阈值
Frame页面
会话识别
-
Keywords
web mining
data preprocessing
threshold
Frame page
session identification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web使用挖掘数据预处理中的会话构造
被引量:11
- 8
-
-
作者
欧阳一鸣
汪曦东
郭骏
刘红樱
-
机构
合肥工业大学计算机与信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第25期148-151,共4页
-
基金
合肥工业大学科研发展基金项目资助(编号:030503F)
-
文摘
文章主要论述了在Web使用挖掘数据预处理中如何构造用户与网站之间的会话。首先,根据对Web服务器日志数据格式的分析,对会话概念进行了形式化描述;然后在分析目前会话构造方法的基础上,利用基于时间和引用的启发式方法来构造会话;最后依据评估会话构造方法的标准,通过实验对给出的新会话构造方法与其他方法进行了分析比较。
-
关键词
web使用挖掘
数据预处理
会话构造
-
Keywords
web usage mining,data preprocessing,session construction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志挖掘中的会话识别算法
被引量:11
- 9
-
-
作者
蔡浩
贾宇波
黄成伟
黄志强
-
机构
浙江理工大学信息电子学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2009年第6期1321-1323,1390,共4页
-
基金
浙江省教育厅科研计划基金项目(20060599)
浙江理工大学科学基金项目(111251A4Y04002)
-
文摘
会话识别是Web日志挖掘的关键步骤,然而很多方法所得到的会话不够精确。针对Web日志挖掘中的会话识别问题,在最常用的Timeout方法的基础上,提出了一种改进的基于平均时间阈值的识别方法。通过动态计算会话中请求记录间的平均时间间隔,个性化地调整页面的时间阈值,相对于传统的对所有用户页面使用单一的先验阈值,该方法能够更准确地识别出长对话。最后对生成的侯选会话集进行二次识别,使识别出的会话更为合理有效。实验结果表明,会话质量得到了提高。
-
关键词
web挖掘
数据预处理
会话识别
时间阈值
-
Keywords
web mining
data preparation
session identification
threshold
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志挖掘预处理中的Frame页面过滤算法
被引量:14
- 10
-
-
作者
杨怡玲
管旭东
尤晋元
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2001年第2期76-77,共2页
-
文摘
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式。在介绍了典型的数据预处理技术的基础上,指出Frame页面降低了挖掘结果的兴趣性,并提出相应的解决方法--Frame页面过滤算法消除其影响。通过实验数据对该算法进行验证,说明Frame页面过滤算法可以显著地提高Web日志挖掘结果的兴趣性。
-
关键词
web
日志挖掘
数据预处理
数据挖掘
FrAme页面
过滤算法
-
Keywords
web usage mining;log analysis;data preprocess;Frequently visited page groups
-
分类号
TP274.2
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名Web日志挖掘中数据预处理技术的研究
被引量:19
- 11
-
-
作者
马瑞民
李向云
-
机构
大庆石油学院计算机与信息技术学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第10期2358-2360,共3页
-
文摘
在Web日志挖掘中数据预处理是整个挖掘过程的基础,由于客户端缓存的存在,在已往的预处理过程中都是通过路径补充技术得到用户完整的访问路径之后,才能进行事务识别。提出了一种只需根据网站的拓扑结构,不需要使用路径补充技术,由用户访问序列直接生成事务的算法。
-
关键词
web日志挖掘
数据预处理
路径补充
访问序列
访问事务
-
Keywords
web log mining
data preprocessing
path completion
accessed session
accessed transaction
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名关于提取Web用户浏览行为特征的研究
被引量:5
- 12
-
-
作者
胡亚慧
赵红军
鲁汉榕
王海杰
-
机构
空军雷达学院
武汉理工大学
-
出处
《计算机工程与设计》
CSCD
北大核心
2006年第18期3416-3418,共3页
-
文摘
当前,Web日志挖掘技术已成为实现网站个性化服务的研究热点。运用Markov模型来预测用户的浏览模式,从而提高站点访问率、为站点重组提供有利信息是该领域广泛采用的方法之一。但传统方法建立的Markov模型,存在着数据冗余复杂、模型庞大繁琐等问题。针对这些问题,介绍了一种改进的Markov模型。其方法主要是在原有模型的基础之上,在数据清洗、用户会话识别过程中删除一些不予考虑的因素,大大简化了建立的Markov模型,提高了Web日志挖掘的效率。
-
关键词
web日志挖掘
浏览行为
MARKOV模型
数据清洗
会话识别
-
Keywords
web log mining
navigation patterns
Markov model
data cleaning
session identification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的Web访问日志会话识别算法
被引量:8
- 13
-
-
作者
严奉华
刘建平
杨凡丁
-
机构
浙江理工大学信息电子学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第22期5685-5687,5690,共4页
-
文摘
针对Web日志挖掘中的会话识别问题,分别对Timeout方法、参引长度法进行改进,提出了一种改进的会话识别方法。该方法运用网站的拓扑结构信息,动态设定各页面的时间间隔阀值,使页面时间间隔阀值同页面的重要程度结合起来。同时通过灵活界定内容页,并针对内容页,提出了一些启发式规则,突破了"参引长度法"所固有的一个会话中只包含一个内容页的瓶颈。该方法提高了会话识别的准确度,实验结果表明是有效的。
-
关键词
web日志挖掘
数据预处理
会话
内容页
时间阀值
启发式规则
-
Keywords
web log mining
data preprocessing
session
content page
time threshold
heuristics rule
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名改进的Web日志数据预处理技术
被引量:3
- 14
-
-
作者
方元康
胡学钢
夏启寿
朱勇
-
机构
池州学院计算机中心
合肥工业大学计算机与信息学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第10期73-74,77,共3页
-
基金
国家自然科学基金资助项目(050504F)
安徽省教育厅自然科学基金资助项目(XK0829,KJ2008B45ZC)
池州学院自然科学基金资助项目(2007XJ015)
-
文摘
介绍Web日志挖掘预处理过程中一些特殊情况的处理方法,在会话识别阶段给出一种基于过滤框架网页与会话重组相结合的会话识别方法,在会话识别之前进行框架网页的过滤,根据传统的会话识别方法构造初始会话集,使用会话重组算法对初始会话集进行优化。实验结果显示,该方法提高了会话识别的质量。
-
关键词
web日志挖掘
数据预处理
frame页面
会话识别
-
Keywords
web log mining
data preprocessing
frame page
session identification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web日志挖掘中数据预处理方法的研究
被引量:15
- 15
-
-
作者
李烈彪
张海鹏
周亚峰
-
机构
重庆大学计算机学院
-
出处
《计算机技术与发展》
2007年第7期45-48,52,共5页
-
文摘
Web日志挖掘是目前网上智能信息检索和电子商务的主要研究课题之一。而数据预处理在Web日志挖掘中起着很重要的作用,直接影响日志挖掘的质量和结果。介绍了Web日志挖掘数据预处理过程,综述了国际上的研究现状,及流行的处理方法。针对预处理步骤中的用户会话识别和路径填充进行了相应的改进。根据评估会话构造方法的标准,通过实验对给出的新方法与其他方法进行了分析比较。
-
关键词
数据挖掘
web
日志挖掘
数据预处理
-
Keywords
data mining
web log mining
data preprocessing
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名Web访问挖掘的预处理技术的研究
被引量:19
- 16
-
-
作者
熊忠阳
周亚峰
-
机构
重庆大学计算机学院
-
出处
《计算机技术与发展》
2007年第8期11-14,18,共5页
-
文摘
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。
-
关键词
web挖掘
web日志挖掘
数据预处理
用户会话
会话识别
-
Keywords
web mining
web log mining
data preprocessing
user session
session identification
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web日志挖掘数据预处理研究
被引量:6
- 17
-
-
作者
何波
涂飞
程勇军
-
机构
重庆理工大学计算机科学与工程学院
-
出处
《微电子学与计算机》
CSCD
北大核心
2011年第4期111-114,共4页
-
基金
教育部人文社会科学项目基金(09yjc870032)
-
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.
-
关键词
数据预处理
web日志挖掘
路径完善
用户识别
-
Keywords
data preprocessing
web log mining
path completion
user identification
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web日志挖掘中的会话识别方法研究
被引量:4
- 18
-
-
作者
顾兆军
李晓红
王伟
黄杰培
-
机构
中国民航大学计算机学院
-
出处
《计算机技术与发展》
2012年第4期45-49,共5页
-
基金
中国民航局科研基金项目(MHRD200808)
-
文摘
数据预处理是Web日志挖掘的首要环节,而会话识别是数据预处理中的关键步骤之一。为了更好地实现会话识别、提高会话识别的真实度,从而为后续的模式挖掘工作提供精确的挖掘数据,文中在分析了现有常用的会话识别方法后,提出了优化初始会话集的方法。在该方法中,首先初始会话集的产生采用传统的基于访问时间的方法,然后对初始会话集进行合并和断开操作,生成优化的会话集。最后,采用实验实现了该方法。实验结果表明会话质量得到了提高。
-
关键词
web日志挖掘
数据预处理
会话识别
会话重组
访问时间
-
Keywords
web log mining
data preprocessing
session identification
session reconstruction
visit time
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web日志挖掘中数据预处理技术的研究
被引量:9
- 19
-
-
作者
于飞
丁华福
姜伦
-
机构
哈尔滨理工大学计算机科学与技术学院
-
出处
《计算机技术与发展》
2010年第5期47-50,共4页
-
基金
国家自然科学基金项目(60736014)
-
文摘
数据预处理在Web日志挖掘过程中起着至关重要的作用,直接影响日志挖掘的质量和结果。详细分析了数据预处理的过程,提出一种改进的数据清洗方法,以提高日志挖掘中数据预处理的效率,并针对Web日志数据预处理中会话识别这一重要环节,提出一种改进的会话识别方法。在用户识别后,根据页面内容、站点结构确定页面重要程度,对阈值进行调整。然后,根据用户对页面内容的兴趣度来删除会话中的链接页面和不感兴趣的页面。实验结果表明,提出的方法能更准确地确定页面访问时间阈值,得到更为合理有效的会话集合。
-
关键词
web日志挖掘
数据预处理
会话识别
数据清洗
-
Keywords
web log mining
data preprocessing
session identification
data cleaning
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于用户访问树的Web日志挖掘数据预处理
被引量:8
- 20
-
-
作者
刘加伶
范军
-
机构
重庆工学院
重庆邮电大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2009年第9期154-156,210,共4页
-
文摘
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理。
-
关键词
web日志挖掘
数据预处理
用户识别
事务识别
-
Keywords
web log mining, data preprocessing, User identification, Transaction identification
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-