一种基于关键词的近似网页检测算法被引量：3

Detecting Near-replicas of Web Pages Based on Keywords

下载PDF

导出

摘要针对海量Web文本信息,利用从网页主题内容提取出来的特征关键词,在倒排索引基础上建立相似度计算模型。对一篇新入库的网页文档,利用所包含的关键词迅速缩小计算范围,提高计算效率。实验结果表明该算法是有效的,小规模评测结果得到较好的效果。 The presence of replicas or near - replicas of documents is very common on the Web. To solve near - replicas of large - scale web pages crawled by search engine, a similarity dealing algorithm was proposed based on keywords extracted from the web pages. The algorithm reduces the scope of web pages that to be processed and improves efficiency largely.

作者杜海刚李先国

机构地区西北工业大学计算机学院

出处《微计算机应用》 2008年第2期41-45,共5页 Microcomputer Applications

关键词近似网页搜索引擎网页消重 Near - replicas detection, Vector space model, Search engine

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Sahon G,Wong A , Yang C S. A Vector Space Model for Automatic Indexing. Information Retrieval and Language Processing , 1975 , 18 (11) :613-620.
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3Lin, S. - H. and Ho, J. - M. , Discovering Informative Content Blocks from Web Documents, In Proceedings of ACM. SIGKDD 02. 002.
4Chakraharti S, Joshi M, Tawde V. Enhanced Topic Distillation using Text, Markup tags, and Hyperlinks, ACM SIGIR Conference 2001, 2001.
5J.H. Lee, Combining Multiple Evidence from Different Properties of Weighting Schemes, Proceedings of the 18th Annual ACM - SIGIR, 1995.
6赫枫龄,左万利,张雪松.高性能网页索引器JU_Indexer的实现[J].吉林大学学报（理学版）,2006,44(1):50-56. 被引量：4
7宋玲,马军,连莉,张志军.文档相似度综合计算研究[J].计算机工程与应用,2006,42(30):160-163. 被引量：44
8郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8

二级参考文献44

1张长利,赫枫龄,左万利.一种基于后缀数组的无词典分词方法[J].吉林大学学报（理学版）,2004,42(4):548-553. 被引量：14
2衣英楠,马军.数字文档管理系统的设计与实现[J].山东大学学报（理学版）,2005,40(2):62-66. 被引量：1
3Shian-Hua Lin, Jan-Ming Ho. Discovering informative content blocks from Web documents. In: SIGKDD, 2002
4Soumen Chakrabarti, Mukul M. Joshi and Vivek B. Tawde.Enhanced topic distillation using text, markup tags, and hyperlinks. In: SIGIR, 2001
5S. Chakrabarti, M. Joshi, and M. Subramanyam. Accelerated focused crawling through online relevance feedback. In :WWW, Hawaii. ACM, 2002
6Yiming Yang. Noise reduction in a statistical approach to text categorization. In: Proceedings of SIGIR-95, 18th ACM International Conference on Research and Development in Information Retrieval, 1995
7Li Xiaoli and Shi Zhongzhi. Innovating Web page classification through reducing noise. Journal of Computer Science & Technology, 2002 ,17(1): 9 ～ 17
8http://162. 105.80.84/cgi-bin/getdirectory? ccode = 0
9http://e. pku. edu. cn
10Yang Y. Expert network:effective and efficient learning from human decisions in text categorization and retrieval. In: Proceedings of the Seventeenth International ACM SIGIR Conference on Research and Development in Information Retrieval,1994. 13 ～ 22

共引文献107

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：71
2孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
3陈雪,徐慧,沈家峻.基于网页结构的网页去噪算法设计[J].软件,2013,34(8):95-97. 被引量：1
4胡冬梅.泰达图书馆个性化信息服务系统的探索与实践[J].现代图书情报技术,2004(10):92-95. 被引量：8
5孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
6翟东升,余旸.国际贸易技术壁垒信息采集系统设计与实现[J].情报杂志,2005,24(8):33-35. 被引量：3
7张健,欧红.应用正则式抽取Google网页内容[J].现代图书情报技术,2005(9):50-53. 被引量：6
8翟东升,余旸,李莉.网络信息抽取技术及其在TBT预警中的应用[J].现代图书情报技术,2005(9):76-79. 被引量：1
9贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
10王芳,于浩,谭红叶,赵铁军.基于链接分块的相关链接提取方法[J].计算机工程与应用,2006,42(31):110-113. 被引量：2

同被引文献29

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
4白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
5陈基漓,牛秦洲.基于特征码的网页去重[J].微计算机信息,2006,22(03X):113-115. 被引量：11
6高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
7郭晨娟,李战怀.基于概念的网页相似度处理算法研究[J].计算机应用,2006,26(12):3030-3032. 被引量：8
8连浩,刘悦,许洪波,程学旗.改进的基于布尔模型的网页查重算法[J].计算机应用研究,2007,24(2):36-39. 被引量：7
9张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
10党春辉.网页消重和聚类算法在高校搜索引擎中的应用.上海:东华大学,2009.8-11.

引证文献3

1李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
2虞曼,熊前兴.基于净化网页的改进消重算法[J].计算机系统应用,2011,20(12):197-199.
3谢志豪,杨贤.网络内容的去重算法与语义量化研究[J].现代计算机,2024,30(17):1-6.

二级引证文献9

1程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
2高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
3王君泽,曾润喜,杜洪涛.基于网页转载关系判别的网络舆情传播态势分析[J].情报杂志,2015,34(1):144-149. 被引量：4
4贲兴龙,贾大文,袁林.一种面向大规模网页去重的三层分布式架构[J].计算机与数字工程,2015,43(10):1751-1755. 被引量：2
5刘年国,王芬,吴家奇,李雪,陶涛.基于Counting Bloom Filter的海量网页快速去重研究[J].安徽电气工程职业技术学院学报,2016,21(3):92-97.
6黄伟建,杨海龙.Hadoop下改进布隆过滤器算法的网页去重[J].计算机工程与科学,2017,39(2):285-290. 被引量：1
7张庆梅.舆情去重算法的研究与比较[J].电子设计工程,2017,25(14):23-27. 被引量：2
8吴家奇,刘年国,李雪,谢翔,王涛.基于Counting Bloom Filter的海量网页快速去重研究[J].电力大数据,2018,21(12):37-42. 被引量：1
9李洪奇,冯海波,张伟,杨中国,宋伟城.基于字集特征向量的网页消重改进算法[J].计算机工程与应用,2017,53(2):53-57.

1闫亮,李先国.基于网页特征关键词的近似检测算法[J].科学技术与工程,2009,9(4):919-923.
2杨文忠,彭曙蓉.简报近似网页的一种检测算法[J].微计算机应用,2006,27(1):22-22.
3王祖析.基于网页内容的网页消重高效检测算法研究[J].佳木斯大学学报（自然科学版）,2010,28(1):22-24. 被引量：1
4程芃森,安俊秀.基于特征词群的新闻类重复网页和近似网页识别算法[J].成都信息工程学院学报,2012,27(4):374-379.
5彭曙蓉,王耀南.针对小文本的Web数据挖掘技术及其应用[J].微计算机信息,2006,22(07X):203-205. 被引量：10
6易丽萍,章胜江.WEB文本信息的提取[J].学园,2011(10):32-32.
7刘晓星,胡畅霞.WEB中文本信息检索的关键技术研究[J].硅谷,2011,4(16):96-96.
8曹玉娟,牛振东,彭学平,江鹏.一个基于特征向量的近似网页去重算法[J].中国索引,2009,7(1):11-14. 被引量：5
9张元丰,董守斌,张凌,陈晓志.基于Map/Reduce的网页消重并行算法[J].广西师范大学学报（自然科学版）,2007,25(2):153-156. 被引量：2
10张莉,孙丽娜,郭峰.在线社会网络中近似网页识别方法研究[J].微电子学与计算机,2017,34(2):141-144.

微计算机应用

2008年第2期

浏览历史

内容加载中请稍等...

一种基于关键词的近似网页检测算法被引量：3

参考文献8

二级参考文献44

共引文献107

同被引文献29

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于关键词的近似网页检测算法 被引量：3

参考文献8

二级参考文献44

共引文献107

同被引文献29

引证文献3

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

一种基于关键词的近似网页检测算法被引量：3