网页去重策略被引量：13

The Strategy on Processing Replicated Web Collections

下载PDF

导出

摘要提出基于同源网页去重与内容去重的策略.通过对网址URL进行哈希散列完成对同源网页的去重,并对内容相同或近似的网页采用基于主题概念的去重判断.实验表明,该方法有效且去重效果良好.基于上述算法实现了教育资源库教育资讯搜索引擎系统. This paper presented techniques on how to build an effective crawler to collect non-replicative Web pages. A novel Hash function was proposed, together with a content-oriented approach, to filter based on URLs and contents. On one hand, this technique can parallelize crawling process while minimize the overlap effectively. On the other hand, it can identify those near-duplicated collections. The experimental results show the feasibility of the approach. On the basis of this work, the implementation of an educational search engine was presented in the end.

作者高凯王永成肖君

机构地区上海交通大学计算机科学与工程系上海远程教育集团

出处《上海交通大学学报》 EI CAS CSCD 北大核心 2006年第5期775-777,782,共4页 Journal of Shanghai Jiaotong University

基金国家高技术研究发展计划(863)项目(2002AA119050)

关键词信息检索搜索引擎哈希函数主题概念 information retrieval search engine Hash function subject concept

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1中国互联网络信息中心．第十六次中国互联网络发展状况统计报告[EB／OL]．http://www．cnnic．net．cn／index／OE／00／11／index．htm．2005—07—01．
2Border A Z, Glassman S C, Manasse M S, etal. Syntactic clustering of the Web[C]//Proceedings of the 6th ACM International Conference on World Wide Web.USA: ACM Press, 1997:1157-1166.
3Cho J H, Shivakumar N, Gareia-Molina H. Finding replicated web collections[C]//Proeeedings of the ACM International Conference on Management of the Data.USA: ACM Press, 2000, 29(2): 355-366.
4Shivakumar N, Garcia-Molilna H. Finding near-replicas of documents on the Web [C]//Proceedings of Workshop on Web Databases. Spain: Springer Press,1998:204-212.
5Cho J H, Garcia-Molina H. Parallel crawlers[C]//Proceedings of the 11th ACM International Conference on World Wide Web. Hawaii: ACM Press, 2002:124-135.
6Bharat K, Broder A Z. Mirror, mirror, on the Web:A study of host pairs with replicated content[J]. Computer Networks, 1999. 31(11-16): 1579-1590.
7Nam G W, Park J H, Kim T Y. Dynamic management of URL based on object-oriented paradigm[C]//Proceedings of the International Conference on Parallel and Distributed Systems. Taiwan, China: IEEE Computer Society Press, 1998:226-230.
8李晓明,凤旺森.两种对URL的散列效果很好的函数[J].软件学报,2004,15(2):179-184. 被引量：45

二级参考文献9

1Cormen TH,Leiserson CE.Introduction to Algorithms.2nd ed.,Cambridge:MIT Press,2001.221-252.
2Knuth DE.Sorting and Searching,Volume 3 of the Art of Computer Programming.New York:Addison-Wesley,1973.506-549.
3McKenzie BJ,Harries R,Bell T.Selecting a hashing algorithm.Software Practice and Experience,1990,20(2):208-210.
4Tong MCF.General hashing [Ph.D.Thesis].Computer Science Department,University of Auckland,1996.
5Peter K.Pearson,fast hashing of variable length text strings.Communications of the ACM,1990,33(6):676-678.
6Berners-Lee T.Universal resource locator.2003.http://www.w3.org/Addressing/URL/Overview.html
7Yan HF,Wang JY,Li XM,Guo L.Architectural design and evaluation of an efficient Web-crawling system.Journal of System and Software,2002,60(3):185-193.
8Shaffer CA.Zhang M,Liu XD,Trans.Data Structure and Algorithm Analysis.Beijing:Publishing House of Electronics Industry,1998.211-213(in Chinese).
9ShafferCA 著张铭刘晓丹译.数据结构与算法分析[M].北京:电子工业出版社,1998.211-213.

共引文献48

1张智江,王志军,张尼.一种可应用于大流量环境的双层散列算法研究[J].电信科学,2011,27(S1):280-284.
2梁正友,张林才.基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,28(S2):185-186. 被引量：8
3燕彩蓉,彭勤科,沈钧毅,武红江.基于两阶段散列的Web集群服务器内容分配研究[J].西安交通大学学报,2005,39(8):812-815. 被引量：5
4李玉玲.厦门高校学生对本地就业意愿的调查[J].中国大学生就业,2005(16):37-38. 被引量：1
5詹川,卢显良,侯孟书,邢茜.一种快速的基于URL的垃圾邮件过滤系统[J].计算机科学,2005,32(8):55-56. 被引量：3
6徐凤刚,许俊奎,潘清.可扩展Hash方法的一种改进算法[J].计算机工程与应用,2006,42(4):95-97. 被引量：3
7肖明忠,闵博楠,王佳聪,代亚非.一个实用的针对URL的哈希函数[J].小型微型计算机系统,2006,27(3):538-541. 被引量：3
8吴丽辉,白硕,张刚,张凯.Web信息采集中的哈希函数比较[J].小型微型计算机系统,2006,27(4):673-676. 被引量：8
9孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
10何淑庆,李村合,张培颖.URL分级散列在分布式搜索引擎中的应用[J].电子技术应用,2006,32(7):25-28. 被引量：3

同被引文献76

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3梁循,杨健,陈华,曾月卿.互联网金融信息搜索[J].中国管理科学,2005,13(z1):240-246. 被引量：5
4姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
5曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
6王哲.基于特征码的网页去重算法研究[J].山东电大学报,2009(1):14-16. 被引量：4
7赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量：52
8王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
9白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
10邹志文,朱金伟.数据挖掘算法研究与综述[J].计算机工程与设计,2005,26(9):2304-2307. 被引量：53

引证文献13

1曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
2沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报（自然科学版）,2007,25(2):30-33. 被引量：3
3阮进,袁景瑞,梁循.互联网金融新闻搜索的文本消重方法研究[J].西华大学学报（自然科学版）,2008,27(2):1-3.
4孟时,王彦.larbin网络爬虫的体系结构[J].电脑学习,2010(4):80-81. 被引量：3
5李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
6刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
7张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
8丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
9闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
10徐济惠.基于Simhash算法的海量文档反作弊技术研究[J].计算机技术与发展,2014,24(9):103-107. 被引量：7

二级引证文献31

1刘炜,陈俊杰.元搜索引擎中的推理技术[J].广西师范大学学报（自然科学版）,2007,25(4):241-247.
2苏国荣,杨岳湘,邓劲生.一种去除重复URL的算法[J].广西师范大学学报（自然科学版）,2010,28(1):122-126. 被引量：5
3李跃健,朱程荣.基于Larbin的网络爬虫体系结构的研究与改进[J].计算机技术与发展,2012,22(7):147-150. 被引量：2
4程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
5熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2
6毕金龙.对互联网教育舆情监测系统的分析[J].计算机光盘软件与应用,2013,16(23):283-283. 被引量：3
7闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1
8朱向彩,万齐飞.基于网络爬虫的优惠商品搜索平台研究[J].周口师范学院学报,2014,31(2):129-131. 被引量：1
9高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
10王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4

1杨祥清.存储系统数据去重策略研究[J].信息通信,2014,27(8):132-132. 被引量：5
2陈少英,魏明桦.ASP.NET中数字签名的实现[J].中国科技信息,2006(24):86-87.
3江勇,王文海,张龙旗.组态软件中历史数据存储与查询的一种新方法[J].江南大学学报（自然科学版）,2005,4(6):579-583. 被引量：2
4李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
5刘向东.数据库系统身份证明安全方法应用研究[J].数字技术与应用,2017,35(3):211-212. 被引量：1
6丁泽亚,张全.基于编辑距离的网页去重策略[J].网络新媒体技术,2013,2(6):1-7.
7洪华剑,叶东毅.含规则数优化的多目标属性约简进化算法[J].小型微型计算机系统,2016,37(8):1707-1711. 被引量：1
8杨航,侯琼煌.基于Q-Gram的数据库模式匹配算法[J].信息技术,2015,39(8):139-142. 被引量：1
9魏尚北,牛超.密码学的区块链技术在电子货币交易中的应用研究[J].科技创新与生产力,2016(9):95-96. 被引量：8
10丁振国,吴宝贵,辛友强.基于Bloom Filter的大规模网页去重策略研究[J].现代图书情报技术,2008(3):45-50. 被引量：15

上海交通大学学报

2006年第5期

浏览历史

内容加载中请稍等...

网页去重策略被引量：13

参考文献8

二级参考文献9

共引文献48

同被引文献76

引证文献13

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

网页去重策略 被引量：13

参考文献8

二级参考文献9

共引文献48

同被引文献76

引证文献13

二级引证文献31

相关作者

相关机构

相关主题

浏览历史

网页去重策略被引量：13