基于特征码的网页去重被引量：11

Duplicated Webpages Deletion Based on Feature Code

下载PDF

导出

摘要网页去重处理是提高检索质量的有效途径,本文给出了一个基于特征码的网页去重算法,介绍了算法的具体实现步骤,采用二叉排序树实现。算法有较高的判断正确率,在信息检索中有较好的应用前景。 Duplicated webpages deletion can improve quality of information retrieval. A duplicated webpages deletion algorithm based on feature code is given , the main steps of algorithm are introduced, the algorithm is realized on binary sort tree. The algorithm＇s precision is high, has better application in information retrieval.

作者陈基漓牛秦洲

机构地区桂林工学院电子与计算机系

出处《微计算机信息》北大核心 2006年第03X期113-115,共3页 Control & Automation

基金广西区科技攻关项目(桂科攻0428002-1)

关键词网页去重网页特征码二叉排序树 Duplicated webpages deletion feature code of webpages binary sort tree

分类号 TP285 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献3

1谢立,王永强,于德敏,许增朴.利用图像的灰度特征实现半透明产品的识别[J].微计算机信息,2005,21(07X):44-45. 被引量：10
2Finding near-replicas of documents on the web. Narayanan Shivakumar, et al. WebDB 1998
3Finding replicated web collections. Junghoo Cho, N. Shivakumar et al. In Proceedings of 2000 ACM International Conference on Management of Data (SIGMOD), May 2000.

二级参考文献5

1丁丽娟.数值计算方法[M].北京:北京理工大学出版社,2002..
2.Visual C++数字图象处理[M].北京:人民邮电出版社,2001.78.
3王博,王毅.多灰度等级图象分割算法及实现[J].计算机工程与应用,2002,38(22):244-245. 被引量：5
4江柳,沈未名,种衍文,段汉文.基于多尺度空间分析的图像阈值分割方法[J].武汉大学学报（信息科学版）,2002,27(6):582-585. 被引量：5
5邓志鹏,许丽敏,杨杰,全勇.基于直方图相关的图像灰度校正[J].红外与激光工程,2003,32(2):167-169. 被引量：17

共引文献9

1王永强,孟然,于德敏,许增朴.机器视觉玻壳产品在线分类识别系统研究[J].仪器仪表学报,2005,26(z1):636-637. 被引量：2
2孟然,王永强,于德敏,许增朴.利用模板匹配方法实现工业产品在线分类[J].精密制造与自动化,2005(2):49-51.
3孟然,王永强,于德敏,许增朴.基于机器视觉实现工业产品在线分类的一种有效方法[J].传感器世界,2005,11(5):11-13.
4莫海燕.控制你的“恐龙头脑”[J].职业,2005(9):30-31.
5金峰,鲁华祥.灰度图的峰分解:算法及应用[J].微计算机信息,2006(12X):304-305.
6汪小澄,万乐,刘新,唐琳娜,戴琳.数字图像处理技术在瓶装液检测中的应用[J].微计算机信息,2007,23(05X):269-271. 被引量：2
7郭会茹,苗长云,武志刚.X射线检测钢绳夹心输送带系统设计[J].微计算机信息,2007,23(22):122-123. 被引量：9
8王小鹏,刘志华,陈天宁.透明材料微小器件键合质量检测系统设计[J].光学精密工程,2013,21(1):69-76. 被引量：9
9徐城.基于归一化互相关的半透明遮挡视差估计[J].计算机应用与软件,2022,39(1):188-194.

同被引文献106

1韩正服,杨喜权,张一鸣,丛荣华.基于特征码的大规模XML文档去重研究[J].中国管理信息化（综合版）,2006,9(7):75-77. 被引量：1
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
3马志新,陈晓云,王雪,李龙杰.最大频繁项集挖掘中搜索空间的剪枝策略[J].清华大学学报（自然科学版）,2005,45(S1):1748-1752. 被引量：5
4姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量：3
5王建勇,谢正茂,雷鸣,李晓明.近似镜像网页检测算法的研究与评价[J].电子学报,2000,28(z1):130-132. 被引量：21
6张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
7程冲,黄水清.利用正则表达式解析新闻网页的算法研究[J].农业图书情报学刊,2005,17(4):5-8. 被引量：7
8白广慧,连浩,刘悦,程学旗.网页查重技术在企业数据仓库中的应用[J].计算机应用,2005,25(7):1713-1715. 被引量：3
9高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
10郑冬冬,崔志明.Deep Web爬虫爬行策略研究[J].计算机工程与设计,2006,27(17):3154-3158. 被引量：13

引证文献11

1谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量：5
2赵仁杰,李众立.网页清洗系统基于静态正则表达式的实现[J].微计算机信息,2007,23(36):226-227. 被引量：5
3杨申彦,黄青松.网页去重在基于Web企业竞争情报平台中的应用与研究[J].云南民族大学学报（自然科学版）,2008,17(4):380-382.
4陈硕,陈真勇,熊璋.企业门户信息系统统一检索平台的研究[J].微计算机信息,2008,24(33):4-6. 被引量：2
5李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
6李贵,韩子扬,郑新录,李征宇.基于Apriori算法的Deep Web网页关系挖掘研究[J].山东大学学报（理学版）,2011,46(5):67-70.
7熊志斌,王冬,尹成国.舆情监测技术及应用综述[J].软件,2012,33(12):322-326. 被引量：2
8杨俊峰.一种中文网页消重算法的设计与实现[J].电子技术（上海）,2013(9):29-31.
9郭艳卿,赵锐,孔祥维,付海燕,蒋金平.基于事件要素加权的新闻摘要提取方法[J].计算机科学,2016,43(1):237-241. 被引量：9
10刘驰,闫宏飞.基于元信息的云盘资源检索结果去重[J].山东大学学报（理学版）,2016,51(7):11-17.

二级引证文献33

1周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
2廖开际,易聪.基于Web挖掘的商业信息抽取研究[J].情报杂志,2010,29(5):159-162.
3史晓磊,沈志宏,黎建辉.支持科学数据专业类型的统一检索框架[J].计算机系统应用,2010,19(12):6-10. 被引量：3
4常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
5李志义,梁士金.国内网页去重技术研究:现状与总结[J].图书情报工作,2011,55(7):118-121. 被引量：9
6李欢,刘倩,张英.基于元搜索的信息检索模块的研究和实现[J].计算机系统应用,2011,20(5):167-169.
7张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
8潘文富,郭友实.网络舆情监测技术研究综述[J].福建电脑,2011,27(8):39-41. 被引量：10
9方斌,谢冰.基于正则表达式的数据处理应用[J].微计算机信息,2012,28(8):142-144. 被引量：1
10田大军,赵林亮.基于正则表达式的网站孤立文件发现机制[J].网络新媒体技术,2012,1(5):21-25.

1曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量：1
2张艳.基于专业搜索引擎的网页去重技术研究[J].软件导刊,2012,11(4):138-141.
3刘书一.基于文本相似度的网页消重策略[J].计算机应用与软件,2011,28(11):228-229. 被引量：6
4张小娣,宋余庆.基于网页正文逻辑段落和长句提取的网页去重算法[J].图书情报研究,2012,5(2):41-45. 被引量：1
5徐娜,刘四维,汪翔,倪卫明.基于Bloom Filter的网页去重算法[J].微型电脑应用,2011(3):48-51. 被引量：6
6周小平,黄家裕,刘连芳,梁一平,申文明.基于网页正文主题和摘要的网页去重算法[J].广西科学院学报,2009,25(4):251-253. 被引量：5
7伊兵哲,平西建.基于LSSVM的JPEG图像隐写分析算法[J].东南大学学报（自然科学版）,2007,37(A01):81-86. 被引量：3
8张玉连,王莎莎,宋桂江.基于元搜索的网页去重算法[J].燕山大学学报,2011,35(2):121-123. 被引量：2
9马辉.网页去重技术问题研究[J].移动信息,2015(8):67-67.
10闫俊伢.基于MD5的网页去重算法的设计与研究[J].实验室研究与探索,2013,32(12):105-108. 被引量：1

微计算机信息

2006年第03X期

浏览历史

内容加载中请稍等...

基于特征码的网页去重被引量：11

参考文献3

二级参考文献5

共引文献9

同被引文献106

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于特征码的网页去重 被引量：11

参考文献3

二级参考文献5

共引文献9

同被引文献106

引证文献11

二级引证文献33

相关作者

相关机构

相关主题

浏览历史

基于特征码的网页去重被引量：11