期刊文献+
共找到36篇文章
< 1 2 >
每页显示 20 50 100
Research on Web Page Classification Method Based on Query Log
1
作者 YE Feiyue MA Yixing 《Journal of Shanghai Jiaotong university(Science)》 EI 2018年第3期404-410,共7页
Web page classification is an important application in many fields of Internet information retrieval,such as providing directory classification and vertical search. Methods based on query log which is a light weight v... Web page classification is an important application in many fields of Internet information retrieval,such as providing directory classification and vertical search. Methods based on query log which is a light weight version of Web page classification can avoid Web content crawling, making it relatively high in efficiency, but the sparsity of user click data makes it difficult to be used directly for constructing a classifier. To solve this problem, we explore the semantic relations among different queries through word embedding, and propose three improved graph structure classification algorithms. To reflect the semantic relevance between queries, we map the user query into the low-dimensional space according to its query vector in the first step. Then, we calculate the uniform resource locator(URL) vector according to the relationship between the query and URL. Finally, we use the improved label propagation algorithm(LPA) and the bipartite graph expansion algorithm to classify the unlabeled Web pages. Experiments show that our methods make about 20% more increase in F1-value than other Web page classification methods based on query log. 展开更多
关键词 Web page classification word embedding query log
原文传递
Transliterated Word Identification and Application to Query Translation Mining
2
作者 Jing Zhang Lei Guo +1 位作者 Meiling Zhou Jianmin Yao 《Journal of Software Engineering and Applications》 2009年第2期122-126,共5页
Query translation mining is a key technique in cross-language information retrieval and machine translation knowl-edge acquisition. For better performance, the queries are classified into transliterated words and non-... Query translation mining is a key technique in cross-language information retrieval and machine translation knowl-edge acquisition. For better performance, the queries are classified into transliterated words and non-transliterated words based on transliterated word identification model, and are further channeled to different mining processes. This paper is a pilot study on query classification for better translation mining performance, which is based on supervised classification and linguistic heuristics. The person name identification gets a precision of over 97%. Transliterated word translation mining shows satisfactory performance. 展开更多
关键词 TRANSLITERATION query classification Supervised LEARNING TRANSLATION mining
暂未订购
Learning Query Ambiguity Models by Using Search Logs 被引量:1
3
作者 宋睿华 窦志成 +1 位作者 洪小文 俞勇 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第4期728-738,共11页
Identifying ambiguous queries is crucial to research on personalized Web search and search result diversity. Intuitively, query logs contain valuable information on how many intentions users have when issuing a query.... Identifying ambiguous queries is crucial to research on personalized Web search and search result diversity. Intuitively, query logs contain valuable information on how many intentions users have when issuing a query. However, previous work showed user clicks alone are misleading in judging a query as being ambiguous or not. In this paper, we address the problem of learning a query ambiguity model by using search logs. First, we propose enriching a query by mining the documents clicked by users and the relevant follow up queries in a session. Second, we use a text classifier to map the documents and the queries into predefined categories. Third, we propose extracting features from the processed data. Finally, we apply a state-of-the-art algorithm, Support Vector Machine (SVM), to learn a query ambiguity classifier. Experimental results verify that the sole use of click based features or session based features perform worse than the previous work based on top retrieved documents. When we combine the two sets of features, our proposed approach achieves the best effectiveness, specifically 86% in terms of accuracy. It significantly improves the click based method by 5.6% and the session based method by 4.6%. 展开更多
关键词 ambiguous query log mining query classification
原文传递
基于URL主题的查询分类方法 被引量:14
4
作者 张宇 宋巍 +1 位作者 刘挺 李生 《计算机研究与发展》 EI CSCD 北大核心 2012年第6期1298-1305,共8页
互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为... 互联网上很多资源蕴含人类群体智慧.分类网站目录人工地对网站按照主题进行组织.基于网站目录中具有主题标注的URL设计URL主题分类器,结合伪相关反馈技术以及搜索引擎查询日志,提出了自动、快速、有效的查询主题分类方法.具体地,方法为2种策略的结合.策略1通过计算搜索结果中URL的主题分布预测查询主题,策略2基于查询日志点击关系,利用具有主题标注的URL,对查询进行标注获取数据并训练统计分类器预测查询主题.实验表明,方法可获得比当前最好算法更好的准确率,更好的在线处理效率并且可基于查询日志自动获取训练数据,具有良好的可扩展性. 展开更多
关键词 查询分类 URL分类 查询日志 伪相关反馈 统计学习
在线阅读 下载PDF
基于用户日志的查询扩展统计模型 被引量:61
5
作者 崔航 文继荣 李敏强 《软件学报》 EI CSCD 北大核心 2003年第9期1593-1599,共7页
信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联... 信息检索长期存在着用词歧义性问题,在Web搜索上的表现更加突出.提出了一种基于用户查询日志的查询扩展统计模型,将用户查询中使用的词或短语与文档中出现的相应词或短语以条件概率的形式连接,利用贝叶斯公式挑选出文档中与该查询关联最紧密的词加入原查询,以达到扩展优化的目的.实验结果表明,该方法更适宜改进Web上的信息检索,相对传统的查询扩展算法可以大幅度提高查询精度. 展开更多
关键词 信息检索 查询扩展 用户日志 日志挖掘
在线阅读 下载PDF
基于大规模中文搜索引擎的搜索日志挖掘 被引量:16
6
作者 陈红涛 杨放春 陈磊 《计算机应用研究》 CSCD 北大核心 2008年第6期1663-1665,共3页
从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交... 从中英文用户的搜索习惯差异的角度出发,引入中文分词技术对中文搜索引擎的搜索日志进行了分析。重点分析了用户输入搜索词的一些规律,包括选择的语言、搜索词的长度和频率、高级搜索技巧的使用以及搜索词的修改情况;还提出了用户提交搜索词的模型,给出了历史搜索词对搜索结果的影响因子算法。 展开更多
关键词 搜索引擎 数据挖掘 搜索日志 分词
在线阅读 下载PDF
Web查询日志研究综述 被引量:9
7
作者 付博 赵世奇 刘挺 《电子学报》 EI CAS CSCD 北大核心 2013年第9期1800-1808,共9页
本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的... 本文对查询日志在相关领域内的研究现状与进展进行了总结.首先介绍了web查询日志的常用信息和公开的数据集;进而阐述了查询日志在web搜索、信息抽取等方面的相关研究,并对它们进行了细致的介绍和分析;最后指出基于查询日志研究所面临的问题和挑战.重在对基于查询日志研究的主流方法和前沿进展进行概括、比较和分析,以期对后续研究有所助益. 展开更多
关键词 查询日志分析 查询日志挖掘 WEB搜索 信息抽取
在线阅读 下载PDF
利用数据库技术实现的可扩展的分类算法 被引量:14
8
作者 刘红岩 陆宏钧 陈剑 《软件学报》 EI CSCD 北大核心 2002年第6期1075-1081,共7页
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的... 重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点. 展开更多
关键词 数据库 可扩展 分类算法 数据挖掘 结构化查询语言 知识发现
在线阅读 下载PDF
搜索引擎查询日志的聚类 被引量:5
9
作者 张玉连 李彦威 +1 位作者 王权 原福永 《计算机工程》 CAS CSCD 北大核心 2009年第1期43-45,48,共4页
随着搜索引擎技术和网络数据挖掘技术的发展,怎样从搜索引擎查询日志中找到有用的信息成为研究热点。该文在讨论Beeferman提出的算法及Chan对其改进的算法的优缺点后,提出一个基于用户网页兴趣度的改进算法。该算法能进一步减小噪声数... 随着搜索引擎技术和网络数据挖掘技术的发展,怎样从搜索引擎查询日志中找到有用的信息成为研究热点。该文在讨论Beeferman提出的算法及Chan对其改进的算法的优缺点后,提出一个基于用户网页兴趣度的改进算法。该算法能进一步减小噪声数据的影响,并通过模拟实验对3种不同的算法进行了对比。 展开更多
关键词 用户兴趣 搜索引擎查询日志 数据挖掘
在线阅读 下载PDF
中文网页搜索日志中的特殊命名实体挖掘 被引量:5
10
作者 张磊 王斌 +1 位作者 靖红芳 吴丽辉 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2011年第5期119-122,共4页
利用少量具有类别信息的种子词,结合特征选择技术来提取每个类别的特征信息;再利用这些特征信息,结合文本分类等数据挖掘技术来提取特殊命名实体.过程中只有构造种子词的环节需要人工辅助,其他环节均实现自动处理.实验证明,该系统和方... 利用少量具有类别信息的种子词,结合特征选择技术来提取每个类别的特征信息;再利用这些特征信息,结合文本分类等数据挖掘技术来提取特殊命名实体.过程中只有构造种子词的环节需要人工辅助,其他环节均实现自动处理.实验证明,该系统和方法能够从查询日志中挖掘出高质量的命名实体列表,6个类别上识别结果的平均P@500达到了77%.系统的自动化程度和识别的效果均达到实用的要求. 展开更多
关键词 特殊命名实体 数据挖掘 信息检索 网页搜索日志
在线阅读 下载PDF
基于半监督话题模型的用户查询日志命名实体挖掘 被引量:6
11
作者 曹雷 郭嘉丰 +1 位作者 白露 程学旗 《中文信息学报》 CSCD 北大核心 2012年第5期26-32,共7页
基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体... 基于用户查询日志的命名实体挖掘,目标是从用户查询日志中挖掘具有指定类别的命名实体。已有研究工作提出一种基于种子实体的挖掘方法,利用实体类别与候选实体之间的模板分布相似性来对候选实体进行排序。然而该挖掘方法忽略了命名实体具有歧义性、查询模板具有多义性和未标注实体信息,因而不能够有效的对候选实体进行排序。该文采用半监督话题模型,利用查询模板之间的关系来学习实体类别的模板分布,进而改善候选实体的排序效果。实验结果表明了该文提出方法的有效性。 展开更多
关键词 用户查询日志 命名实体挖掘 半监督话题模型
在线阅读 下载PDF
一种基于判别式重排序的拼写校正方法 被引量:3
12
作者 张扬 何丕廉 +1 位作者 向伟 李沐 《软件学报》 EI CSCD 北大核心 2008年第3期557-564,共8页
提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式... 提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%. 展开更多
关键词 拼写校正 判别模型 重排序 日志挖掘 查询链
在线阅读 下载PDF
基于用户日志挖掘的查询扩展方法 被引量:12
13
作者 朱鲲鹏 魏芳 《计算机应用与软件》 CSCD 北大核心 2012年第6期113-117,共5页
查询扩展可以有效地消除查询歧义,提高信息检索的准确率和召回率。通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并在此基础上提出一种从关联查询中提取查询扩展词的查询扩展方法。同时,还提出一种查询歧义的判别方法,... 查询扩展可以有效地消除查询歧义,提高信息检索的准确率和召回率。通过挖掘用户日志中查询词和相关文档的连接关系,构造关联查询,并在此基础上提出一种从关联查询中提取查询扩展词的查询扩展方法。同时,还提出一种查询歧义的判别方法,该方法可以对查询词所表达的检索意图的模糊程度进行有效度量,也可以对查询词的检索性能进行预先估计。通过对查询歧义的度量来动态调整扩展词的长度,提高查询扩展模型的灵活性和适应能力。 展开更多
关键词 查询扩展 日志挖掘 信息检索
在线阅读 下载PDF
基于语义和真值程度的相关查询客观度量 被引量:2
14
作者 张卫丰 张迎周 周国强 《情报学报》 CSSCI 北大核心 2012年第6期574-582,共9页
相关查询可以给用户推荐合适的查询以辅助用户快速获得需要的信息,其中根据原始查询选择相关查询的优劣是相关查询有效性的关键。提出利用用户查询日志获得查询语义相关性,其关键是定义了三个与原始查询相关的相似性测度:查询串流行... 相关查询可以给用户推荐合适的查询以辅助用户快速获得需要的信息,其中根据原始查询选择相关查询的优劣是相关查询有效性的关键。提出利用用户查询日志获得查询语义相关性,其关键是定义了三个与原始查询相关的相似性测度:查询串流行程度、查询串字面相似性和查询串之间语义相似性。使用真值程度度量,将查询串的三个测度度量值映射成一个查询相关性客观评价值,在计算过程中还能得到每个特性的优劣程度。实验结果表明:语义相关查询及其客观评价方法可以显著提高相关查询质量,主、客观评价值之间具有相当高的相关性,表明了本方法挖掘相关查询和评价相关查询的有效性。 展开更多
关键词 相关查询 日志挖掘 语义相关性 真值程度度量
在线阅读 下载PDF
基于SQL的频繁项目集的研究 被引量:4
15
作者 王涛伟 胡锡伟 柴本成 《计算机工程与设计》 CSCD 北大核心 2006年第23期4494-4497,共4页
Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算... Apriori算法是关联规则中挖掘频繁项目集的典型算法。在Apriori算法的基础上,利用关系数据库管理系统的强大功能和SQL语言操作简单,效率高的特点,提出了基于SQL的Apriori算法。该算法实现简单快速,可有效缩小扫描数据库的大小。将该算法应用于经过数据预处理的Web日志文件数据库,实验结果显示该算法是有效的。 展开更多
关键词 数据挖掘 关联规则 频繁项目集 SQL 数据预处理 Web日志文件
在线阅读 下载PDF
基于二部图半监督方法的查询日志实体挖掘 被引量:2
16
作者 曹雷 郭嘉丰 程学旗 《山东大学学报(理学版)》 CAS CSCD 北大核心 2012年第5期32-37,42,共7页
基于用户查询日志的命名实体挖掘的目标是从用户查询日志中挖掘一组具有指定类别的命名实体。为解决已有用户查询日志实体挖掘研究工作中的种子实体不充分的问题,提出了一种基于二部图的半监督排序方法,利用实体之间的关系(实体共享查... 基于用户查询日志的命名实体挖掘的目标是从用户查询日志中挖掘一组具有指定类别的命名实体。为解决已有用户查询日志实体挖掘研究工作中的种子实体不充分的问题,提出了一种基于二部图的半监督排序方法,利用实体之间的关系(实体共享查询模板)来改善实体排序效果。该方法首先基于候选实体和查询模板构建一个二部图,然后基于二部图将种子实体的类别相关性传播到其他候选实体,最后按照类别相关性得分对候选实体进行排序,并进一步给出方法中迭代过程的等价优化框架。实验结果表明本文提出的方法优于基准方法,具有较好的挖掘效果。 展开更多
关键词 用户查询日志 命名实体挖掘 半监督方法 二部图
原文传递
基于查询接口文本VSM的Deep Web数据源分类 被引量:2
17
作者 石龙 强保华 +1 位作者 谌超 吴春明 《计算机应用与软件》 CSCD 北大核心 2013年第8期54-58,共5页
随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接... 随着Internet技术的快速发展,Web数据库数目庞大而且仍在快速增长。为有效组织利用深藏于Web数据库上的信息,需对其按领域进行分类和集成。Web页面上的查询接口是网络用户访问Web数据库的唯一途径,对Deep Web数据源分类可通过对查询接口分类实现。为此,提出一种基于查询接口文本VSM(Vector Space Model)的分类方法。首先,使用查询接口文本信息构建向量空间模型,然后通过典型的数据挖掘分类算法训练分类器,从而实现对查询接口所属领域进行分类。实验结果表明给出的方法具有良好的分类性能。 展开更多
关键词 DEEP WEB 数据源分类 向量空间模型 数据挖掘 查询接口
在线阅读 下载PDF
基于搜索日志的用户行为分析 被引量:6
18
作者 童国平 孙建军 《现代图书情报技术》 CSSCI 2015年第7期80-88,共9页
【目的】利用搜索引擎日志数据对用户查询行为特征进行分析。【方法】采用分词、统计分析、聚类分析、可视化等方法,分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。... 【目的】利用搜索引擎日志数据对用户查询行为特征进行分析。【方法】采用分词、统计分析、聚类分析、可视化等方法,分别从用户的查询串、查询方式、查询主题、查询点击行为和用户类型5个方面对用户使用搜索引擎时的行为特征进行分析。【结果】发现搜索用户偏好使用2-5个中文名词短语组成的查询串;更少使用口语化查询,不爱使用高级检索功能;查询用词变得多样化;查询时间存在高峰低谷;再次证实存在"翘尾现象"。【局限】使用的数据量不够大,没有结合用户详细信息进行分析。【结论】使用搜索引擎日志可以获得用户行为特征,并能为改善搜索引擎提供一些建议。 展开更多
关键词 搜索引擎日志 查询日志 用户行为分析 日志挖掘
原文传递
构建查询需求形式分类体系 被引量:1
19
作者 王超 朱彤 +1 位作者 刘奕群 马少平 《中文信息学报》 CSCD 北大核心 2012年第6期116-120,128,共6页
查询歧义作为查询分类的子问题在信息检索领域已经得到了很多的关注,现有的研究主要是对查询内容上的歧义进行分类,而忽略了用户查询需求形式上的歧义。该文针对查询需求歧义问题进行了研究,提出了相应的查询需求分类模型。该文利用网... 查询歧义作为查询分类的子问题在信息检索领域已经得到了很多的关注,现有的研究主要是对查询内容上的歧义进行分类,而忽略了用户查询需求形式上的歧义。该文针对查询需求歧义问题进行了研究,提出了相应的查询需求分类模型。该文利用网页目录构建用户需求形式分类体系及站点列表,在大规模商业搜索引擎日志上进行用户点击覆盖检测,从而得到对查询需求形式的描述。该文的贡献在于提供了一种实际可行的查询需求分类方法,搜索引擎可以根据用户需求的区别调整排序方式,从而改善搜索性能。 展开更多
关键词 查询歧义 查询分类 需求形式
在线阅读 下载PDF
基于搜索引擎分类信息的用户查询歧义消减 被引量:2
20
作者 孙越恒 何丕廉 《情报学报》 CSSCI 北大核心 2008年第6期839-844,共6页
用户在利用搜索引擎进行信息检索时,查询条件往往存在歧义,这导致搜索结果的多样性和冗余性。传统的方法主要是基于语义分析或构建知识库,此类方法在实际应用中的可行性不高。本文基于搜索引擎的分类信息,实现了一个简单有效的分类... 用户在利用搜索引擎进行信息检索时,查询条件往往存在歧义,这导致搜索结果的多样性和冗余性。传统的方法主要是基于语义分析或构建知识库,此类方法在实际应用中的可行性不高。本文基于搜索引擎的分类信息,实现了一个简单有效的分类搜索系统。它首先根据用户的查询条件,将返回的搜索结果进行分类,并以树形目录的形式展示给用户,而后根据用户的点击数据,逐步确定用户的搜索意图,从而达到了查询歧义消减的目的。论文详细介绍了系统的设计思想、架构和工作流程。测试实例表明,该系统可以在一定程度上确定用户的查询意图,为用户返回更加准确的搜索结果。 展开更多
关键词 查询歧义 搜索引擎 分类搜索系统 歧义消减
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部