应用链接分析的web搜索结果聚类被引量：4

Clustering of Web Search Results Using Link Analysis

下载PDF

导出

摘要随着web上信息的急剧增长,如何有效地从web上获得高质量的web信息已经成为很多研究领域里的热门研究主题之一,比如在数据库,信息检索等领域。在信息检索里,web搜索引擎是最常用的工具,然而现今的搜索引擎还远不能达到满意的要求,使用链接分析,提出了一种新的方法用来聚类web搜索结果,不同于信息检索中基于文本之间共享关键字或词的聚类算法,该文的方法是应用文献引用和匹配分析的方法,基于两web页面所共享和匹配的公共链接,并且扩展了标准的K-means聚类算法,使它更适合于处理噪音页面,并把它应用于web结果页面的聚类,为验证它的有效性,进行了初步实验。 With information proliferation on the Web,how to obtain high-quality information from the Web has been one of hot research topics in many fields like Database as well as IR.Web search engine is the most commonly used tool for information retrieval;however,its current status is far from satisfaction.we propose a new approach to cluster search results returned from Web search engine using link analysis.Unlike document clustering algorithms in IR that based on common words /phrases shared between documents,our approach is base on common links shared by pages using co-citation and coupling analysis.We also extend standard clustering algorithm K-means to make it more natural to handle noises and apply it to web search results..Preliminary experiments are conducted to investigate its effective-ness.The experiment results show that clustering on web search results via link analysis is promising

作者何拥军骆嘉伟孙星明

机构地区湖南大学软件学院湖南大学计算机与通信学院

出处《计算机工程与应用》 CSCD 北大核心 2005年第2期179-183,共5页 Computer Engineering and Applications

基金湖南省自然科学基金项目(编号:03092) 国家教育部重点科研项目

关键词链接分析公共文献引用匹配 hub页面权威页面 link analysis,co-citation,coupling,hub page,authority page

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献25

1J Kleinberg.Authoritative sources in a hyperlinked environment[C].In: proceedings of the 9thACM-SIAM Symposium on Discrete Algorithms (SODA), 1998-01.
2D Ravi Kumar et al.Trawling the Web for emerging eyber-communities[C].In : Proceedings of the 8th WWW conference,Toronto,Canada, ! 999.
3Brin S,Page LThe anatomy of a large-scale hypertextual web search engine[C].In:Proceedings of WWW7,Brisbane,Australia, 1998-04.
4DB Oren Zamir,Oren Etzioni 99 Grouper.A Dynamic Clustering Interface to Web SearchResults[C]An:Proceedings of the 8th WWW Conference,Toronto Canada, 1999.
5Richard C Dubes,Anil K Jain,Algorithms for Clustering Data[M]. Prentice Hall, 1988.
6DB Oren Zamir,Oren Etzioni.Fast and Intuitive clustering of Web documents[C].In :KDD'97,1997:287-290.
7EB Oren Zamir,Oren Etzioni.Web document clustering:A feasibility demonstration[C].In:Melboume,Australia Proceedings of SIGIR'98, 1998.
8Zhihua Jiang et al.Retriever:impring web Search Engine,Results Using Link Analysis.http://citeseer.nj.nec.com/275012.html.
9D Ron Weiss et al.96 Hypursuit:A Hierarchical Network Search Engine that Exploits Content-Link Hypertext Clustering[C].In:ACM Conference on Hypertext,Washington USA, 1996.
10D Michael Steinbach et al.A Comparison of Document Clustering techniques[R].Technical report of University of Minnesota,KDD'2000.

同被引文献71

1杨鲲,孟波.一种基于XML的Web数据挖掘方法[J].计算机应用,2003,23(z1):160-161. 被引量：9
2李彦宏.一“键”中的[J].中国计算机用户,2000(21):54-55. 被引量：8
3姚正.关于决策树分类模型的评分函数研究[J].管理学报,2005,2(S2):166-168. 被引量：4
4韩亚洪,许卓明,董逸生.Web信息检索中主题精选算法的研究与改进[J].计算机工程与应用,2004,40(17):174-178. 被引量：3
5吴明礼,施水才.一种结合超链接分析的搜索引擎排序方法[J].计算机工程,2004,30(15):143-145. 被引量：10
6沙勇忠,牛春华.中国信息化优秀企业网站链接分析与网络影响因子测度[J].兰州大学学报（社会科学版）,2004,32(5):99-107. 被引量：36
7王秀平,李治柱.一种改进的搜索引擎网页排序算法[J].计算机科学,2004,31(B09):17-19. 被引量：3
8徐家坤.网络信息计量研究中常用的四种搜索引擎的比较研究[J].现代图书情报技术,2004(11):46-48. 被引量：9
9沙勇忠,欧阳霞.中国省级政府网站的影响力评价——网站链接分析及网络影响因子测度[J].情报资料工作,2004,25(6):17-22. 被引量：66
10司徒俊峰.Internet的小世界网络研究[J].情报杂志,2004,23(12):86-88. 被引量：24

引证文献4

1黄娟,李振坤,霍劲.基于链接分析的结构挖掘算法在信用评定中的应用与研究[J].中国科技信息,2006(18):159-162.
2李江,殷之明.链接分析研究综述[J].大学图书馆学报,2008,26(2):51-58. 被引量：14
3李元俊,陈俊杰,赵涓涓.基于Web页面链接和标签的聚类方法[J].计算机工程与设计,2009,30(18):4266-4268. 被引量：2
4何拥军,龚发根.基于用户辅助估计的相关网页搜索聚类[J].计算机技术与发展,2011,21(7):112-115. 被引量：1

二级引证文献17

1宋丽丽.网络链接分析法在网站评价中的研究与应用[J].农业图书情报学刊,2009,21(6):15-18. 被引量：3
2范哲.国内优秀企业门户网站外部链接的分析与思考[J].情报杂志,2009,28(9):146-151. 被引量：9
3高立敏,李俊,肖艳芹.基于Web的网络信息挖掘技术研究[J].电脑知识与技术,2010,6(6):4339-4341. 被引量：1
4魏瑞斌.国内链接分析研究的计量分析[J].图书情报工作,2012,56(2):40-45. 被引量：6
5蒋海龙,陈丹丹.国内链接分析期刊论文的引文分析[J].现代情报,2012,32(8):165-169. 被引量：1
6吴夙慧,孙建军,郑彦宁,潘云涛.链接分析研究进展[J].情报科学,2013,31(4):155-160. 被引量：5
7王旖旎.一种企业web网站的后台数据库与页面链接的编程方法[J].计算机光盘软件与应用,2013,16(3):233-233. 被引量：1
8秦萍,贾玉文.基于链接分析的网上书店分析——以当当网和京东商城为例[J].内蒙古科技与经济,2013(21):67-68.
9江林升,张春霞.含关键字的新浪微博获取与舆情分析[J].宝鸡文理学院学报（自然科学版）,2014,34(1):51-54. 被引量：4
10王学东,谢辉,宋景璟,曹高辉.基于链接关系的多模态知识资源生成及其分布研究[J].情报科学,2014,32(6):14-17.

1王舜燕,甘泉.基于Web结构挖掘的HITS算法分析与改进[J].软件导刊,2007,6(2):67-68.
2童亚拉.基于自适应混沌粒子群的Web搜索结果聚类研究[J].微电子学与计算机,2010,27(1):173-176. 被引量：1
3宋建康,张礼平.Web结构挖掘算法探讨[J].华东理工大学学报（自然科学版）,2003,29(5):537-540. 被引量：18
4许方,张桂珠.基于SFLA和FCM的Web搜索结果聚类[J].计算机工程与应用,2013,49(14):109-112. 被引量：1
5周勇,刘锋.基于粗糙集的Web结构挖掘[J].计算机技术与发展,2008,18(3):151-153. 被引量：1
6彭松行.基于描述优先算法的Web搜索结果聚类系统研究[J].心智与计算,2010,0(4):250-257. 被引量：1
7易高翔,胡和平.一种基于容错粗糙集的Web搜索结果聚类方法[J].计算机研究与发展,2006,43(2):275-280. 被引量：5
8邓超,何月顺.基于Web结构挖掘的HITS算法分析及改进[J].湖南农机（学术版）,2011,38(1):80-81. 被引量：1
9丁振国,孟星.基于K-center和信息增益的Web搜索结果聚类方法[J].计算机应用研究,2008,25(10):3125-3127. 被引量：1
10周晓峥,刘勘,孟波,周洞汝.自组织映射在Web结构挖掘中的应用[J].计算机工程与应用,2003,39(3):31-33. 被引量：1

计算机工程与应用

2005年第2期

浏览历史

内容加载中请稍等...

应用链接分析的web搜索结果聚类被引量：4

参考文献25

同被引文献71

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

应用链接分析的web搜索结果聚类 被引量：4

参考文献25

同被引文献71

引证文献4

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

应用链接分析的web搜索结果聚类被引量：4