期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
Web日志挖掘中的数据预处理技术 被引量:22
1
作者 李燕 冯博琴 鲁晓锋 《计算机工程》 CAS CSCD 北大核心 2009年第22期44-46,49,共4页
数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中... 数据预处理是Web日志挖掘中的重要步骤,一般分为数据清理、用户识别、会话识别和路径补充。为消除代理服务器、防火墙和本地缓存对Web日志带来的影响,采用基于引用的分析方法完成用户会话识别和路径补充。实验结果表明,在Web访问日志中的记录引用信息较完整的情况下,该方法可以高效地获得用户的访问路径。 展开更多
关键词 web日志挖掘 数据预处理 用户会话识别 路径补充
在线阅读 下载PDF
Web日志挖掘数据预处理研究 被引量:6
2
作者 何波 涂飞 程勇军 《微电子学与计算机》 CSCD 北大核心 2011年第4期111-114,共4页
数据预处理在Web日志挖掘过程中起着至关重要的作用.论文分析了Web日志挖掘数据预处理的主要步骤,设计了用户识别、访问操作识别和路径完善三个步骤的关键算法.实验结果表明,设计的关键算法是有效的.
关键词 数据预处理 web日志挖掘 路径完善 用户识别
在线阅读 下载PDF
基于用户访问树的Web日志挖掘数据预处理 被引量:8
3
作者 刘加伶 范军 《计算机科学》 CSCD 北大核心 2009年第9期154-156,210,共4页
在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以... 在Web日志挖掘中数据预处理是整个挖掘过程的基础,直接影响日志挖掘的质量和结果。提出了一种基于用户访问树的Web日志挖掘数据预处理方法,该方法在处理过程中根据Web日志建立用户访问树,并利用用户访问树进行用户和事务识别,从而可以在缺乏网站拓扑结构的情况下准确地对Web日志进行预处理。 展开更多
关键词 web日志挖掘 数据预处理 用户识别 事务识别
在线阅读 下载PDF
Web访问挖掘的预处理技术的研究 被引量:19
4
作者 熊忠阳 周亚峰 《计算机技术与发展》 2007年第8期11-14,18,共5页
Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进... Web日志挖掘就是运用数据挖掘技术从Web日志中发现和抽取信息的过程。数据预处理是Web日志挖掘的一个关键环节。对数据预处理的各个环节进行研究,并介绍各个环节中的一些特殊处理方法,根据对Web服务期日志数据格式的分析,对会话概念进行了形式化描述,然后在分析目前会话构造算法的基础上,提出了基于时间和引用的启发式方法来构造会话。 展开更多
关键词 web挖掘 web日志挖掘 数据预处理 用户会话 会话识别
在线阅读 下载PDF
Web日志数据挖掘中数据预处理模型的研究与建立 被引量:9
5
作者 赵莹莹 韩元杰 《现代电子技术》 2007年第4期103-105,共3页
数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标... 数据的质量直的好坏接关系到数据挖掘的结果,因此数据预处理是Web日志数据挖掘首要的步骤,基于前期提出的几种数据预处理方法,提出了通用的Web日志挖掘的数据预处理模型,将Web日志数据的预处理分为5个步骤:数据清理、用户标识、会话标识、路径补充和格式化,并结合旅游网站进行了实例验证。证明该数据预处理模型是完全可行,并且具有良好的通用性和可扩展性。 展开更多
关键词 web日志挖掘 数据挖掘 数据预处理 用户标识 会话标识
在线阅读 下载PDF
Web日志挖掘的数据预处理研究 被引量:12
6
作者 方成效 袁可风 《计算机与现代化》 2006年第4期79-81,84,共4页
分析了Web日志挖掘的数据预处理过程,提出了基于日志引用页的用户识别算法,并对其性能进行分析,最后给出了应用实例。
关键词 web日志挖掘 数据预处理 用户识别算法
在线阅读 下载PDF
Web日志挖掘的预处理过程及算法 被引量:5
7
作者 靳风荣 郑雪峰 《微型电脑应用》 2004年第6期44-45,55,共3页
随着WWW的广泛应用和Web技术的发展,数据挖掘进入一个崭新阶段。本文详细介绍了Web日志挖掘的预处理过程,通过实例分析了预处理方法,并给出了预处理过程中用户识别的算法实现。
关键词 web日志挖掘 预处理 算法 数据挖掘 数据格式 数据库
在线阅读 下载PDF
Web日志挖掘及AprioriAll算法的改进 被引量:6
8
作者 王彤 何丕廉 《天津理工大学学报》 2007年第1期13-17,共5页
阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/... 阐述了利用数据挖掘技术对Web日志进行挖掘的可能性及其重要作用.通过用户维的引入,对已有的Apri-oriAll算法进行了改进,改进后的算法降低了原算法的时空复杂度,特别是在新算法中可以对Web日志数据按用户维进行切片,消除了原算法中的I/O相关性.这不仅使对Web日志数据进行的挖掘活动可以分散地进行,而且使多机连网分布式挖掘成为可能,同时还可以实现对Web日志的增量挖掘和动态挖掘.此外,该改进算法的特殊意义还在于它不仅可以将所有用户看作一个整体进行挖掘,而且还可以对不同的用户个体的行为进行独立地挖掘,使挖掘出的结果能够满足对用户个性化使用的需求. 展开更多
关键词 数据挖掘 web日志 算法改进 用户维
在线阅读 下载PDF
基于加权矩阵聚类的Web日志挖掘算法 被引量:1
9
作者 赵娜 田保慧 姜建国 《现代电子技术》 2008年第12期85-87,共3页
Web服务器日志中记录了用户的浏览模式,为了从中提取出具有相似访问模式的用户群,对其提供个性化服务,提出一种针对Web日志的分析方法。通过构建UserID-URL关联矩阵,引入加权关联矩阵,提出一种基于加权矩阵的聚类算法——多标记传播算... Web服务器日志中记录了用户的浏览模式,为了从中提取出具有相似访问模式的用户群,对其提供个性化服务,提出一种针对Web日志的分析方法。通过构建UserID-URL关联矩阵,引入加权关联矩阵,提出一种基于加权矩阵的聚类算法——多标记传播算法。实验表明,该算法在Web日志挖掘中进行用户聚类和页面聚类是高效可靠的。 展开更多
关键词 数据挖掘 web日志挖掘 加权矩阵聚类 多标记传播算法 用户聚类
在线阅读 下载PDF
Web日志挖掘预处理中复杂问题的解决方法 被引量:2
10
作者 徐志玮 《现代情报》 北大核心 2008年第6期79-81,共3页
随着网络的日益普及和信息技术的进步,Web日志挖掘的数据收集和原始数据处理工作变得越来越复杂,使得预处理技术也要进行相应的提高。本文通过对预处理中出现的复杂问题,进行了详细的分析,并列出了目前比较成熟的算法。
关键词 web日志挖掘 预处理 数据收集 数据清洗 用户/会话识别 最佳事务识别
在线阅读 下载PDF
Web日志挖掘的用户识别算法研究 被引量:5
11
作者 吴荣 《微型电脑应用》 2007年第9期61-62,73,共2页
Web日志挖掘是将数据挖掘技术应用到Web服务器的日志中,发现Web用户的行为模式,以便进一步改善网站结构或为用户提供个性化的服务。文中探讨了Web日志挖掘中的用户识别算法,提出了一种多重约束条件的用户识别算法。
关键词 web日志挖掘 数据预处理 用户识别
在线阅读 下载PDF
Web日志挖掘中数据预处理技术的研究 被引量:2
12
作者 秦文胜 《广东轻工职业技术学院学报》 2008年第3期9-12,共4页
Web日志挖掘是利用数据挖掘技术挖掘和分析网络日志,并获取网站使用过程中的有价值的信息和模式的过程。预处理是Web日志挖掘的第一步,也是非常关键的一步,预处理的结果决定了挖掘的效率和质量。本文主要阐述了预处理的一般过程,并针对... Web日志挖掘是利用数据挖掘技术挖掘和分析网络日志,并获取网站使用过程中的有价值的信息和模式的过程。预处理是Web日志挖掘的第一步,也是非常关键的一步,预处理的结果决定了挖掘的效率和质量。本文主要阐述了预处理的一般过程,并针对目前国内外常用的一些预处理技术进行了探讨和分析。 展开更多
关键词 web日志挖掘 数据预处理 用户识别 会话识别
在线阅读 下载PDF
Web使用挖掘日志预处理算法设计 被引量:1
13
作者 孙金华 谢彦麒 《现代计算机》 2009年第8期7-10,共4页
数据预处理是整个Web使用挖掘过程的基础和实施有效挖掘算法的前提,在Web使用挖掘中起着重要的作用。论述数据预处理在Web使用挖掘中的重要性,详细分析Web使用挖掘数据预处理过程,在数据预处理的每个阶段给出一些规则并针对这些规则设... 数据预处理是整个Web使用挖掘过程的基础和实施有效挖掘算法的前提,在Web使用挖掘中起着重要的作用。论述数据预处理在Web使用挖掘中的重要性,详细分析Web使用挖掘数据预处理过程,在数据预处理的每个阶段给出一些规则并针对这些规则设计相应的预处理算法。 展开更多
关键词 web日志 web使用挖掘 数据预处理 用户识别
在线阅读 下载PDF
Web日志挖掘中数据预处理的研究 被引量:2
14
作者 康耀龙 《科技信息》 2010年第5期83-83,共1页
Web日志挖掘是Web使用挖掘一个最重要研究领域,数据预处理是Web日志挖掘中的关键技术之一。论述了数据预处理各主要步骤的方法和技术,重点研究了用户识别和会话识别。
关键词 web日志挖掘 数据预处理 用户识别 会话识别
在线阅读 下载PDF
Web日志挖掘中的数据预处理技术研究 被引量:2
15
作者 杨玉梅 《科技视界》 2014年第12期24-25,20,共3页
预处理是Web日志挖掘的重点,预处理的结果对挖掘算法产生的规则与模式有很大的影响,是保证Web日志挖掘质量的关键。本文提出了DUI技术,增强了预处理技术。并通过实验证明,先进的数据预处理技术可以提高数据预处理的结果质量。
关键词 web日志挖掘 数据预处理 用户识别
在线阅读 下载PDF
基于支持向量机的Web日志用户标志修正算法 被引量:1
16
作者 邹根 闻立杰 《计算机集成制造系统》 EI CSCD 北大核心 2011年第8期1851-1855,共5页
针对用户删除Cookie导致的Web日志用户标志不准确的情况,提出了一种基于支持向量机的用户标志修正算法。首先训练一个分类器判断两个会话是否属于同一个用户,然后计算两个不同标志用户之间的相似度,最后将日志进行分组,发现所有删除Coo... 针对用户删除Cookie导致的Web日志用户标志不准确的情况,提出了一种基于支持向量机的用户标志修正算法。首先训练一个分类器判断两个会话是否属于同一个用户,然后计算两个不同标志用户之间的相似度,最后将日志进行分组,发现所有删除Cookie的用户并进行标志的修正。通过实验验证了算法的有效性。 展开更多
关键词 web日志 数据预处理 用户识别 支持向量机 数据挖掘
在线阅读 下载PDF
Web日志挖掘数据预处理研究 被引量:2
17
作者 夏成文 韩坚华 梁乘铭 《微型电脑应用》 2007年第10期50-53,6,共4页
在详细介绍ELF日志文件格式的基础上定义了会话表,并对预处理过程中几个主要步骤进行深入讨论,总结已有的各种处理手段提出新的改进方法,其中重点针对会话识别进行了改进并给出了新的算法。
关键词 web日志挖掘 数据预处理 用户识别 会话识别 事务识别
在线阅读 下载PDF
基于Web日志挖掘中的数据预处理 被引量:1
18
作者 李晓军 《中国高新技术企业》 2008年第24期157-158,164,共3页
Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,数据预处理是Web日志挖掘中的关键技术之一。本文概述了Web日志挖掘的概念和基本步骤,重点分析了数据预处理中各个环节的主要任务和实现技术,通过实例详细说明了对Web日志实施... Web日志挖掘是Web数据挖掘研究领域中一个最重要的应用方面,数据预处理是Web日志挖掘中的关键技术之一。本文概述了Web日志挖掘的概念和基本步骤,重点分析了数据预处理中各个环节的主要任务和实现技术,通过实例详细说明了对Web日志实施数据预处理的过程。 展开更多
关键词 web日志挖掘 数据预处理 用户识别 会话识别
在线阅读 下载PDF
医院网站日志挖掘数据预处理的研究 被引量:1
19
作者 蒙华 苏静 +1 位作者 李立峰 翟玉兰 《重庆理工大学学报(自然科学)》 CAS 北大核心 2019年第8期144-148,共5页
数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算... 数据预处理是数据挖掘工作的基础。以医院网站服务器用户访问日志为例,对日志挖掘的概念以及数据预处理过程进行研究。采用数据库技术和Matlab工具消除初始数据集的冗余度、复杂度,以网站页面和用户关联性为度量,得出可直接作为挖掘算法输入的相似度矩阵。重点研究了医院网站日志的用户识别以及相似度矩阵的页面聚类标准化方法。实验结果表明:该方法极大降低了初始日志数据冗余度和维度,提高了预处理结果准确性,增强了数据挖掘算法输入的信息含量。 展开更多
关键词 医院网站日志挖掘 数据预处理 用户识别 页面聚类 相似度矩阵
在线阅读 下载PDF
改进的页面与时间阈值的会话识别法 被引量:1
20
作者 郑立山 滕少华 《计算机应用与软件》 CSCD 北大核心 2012年第10期197-199,275,共4页
会话识别是Web日志挖掘的基础,提高会话的识别率能为后续模式的挖掘提供准确可靠的数据,已有许多研究集中于此。在常用的计算时间阈值识别方法的基础上,提出一种改进的基于URL页面类型、页面信息量和停留时间的平均阈值识别方法。针对... 会话识别是Web日志挖掘的基础,提高会话的识别率能为后续模式的挖掘提供准确可靠的数据,已有许多研究集中于此。在常用的计算时间阈值识别方法的基础上,提出一种改进的基于URL页面类型、页面信息量和停留时间的平均阈值识别方法。针对不同的URL页面类型采用不同的阈值计算方法,并设置时间阈值。相对于已有的对所有用户访问页面使用单一的先验阈值和现有动态阈值计算,该方法能够更真实地反映用户会话的情况,且识别的准确率有了较大提高。 展开更多
关键词 web日志挖掘 数据预处理 用户会话识别 动态阈值
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部