网络搜索引擎的设计与实现被引量：1

Design and Implementation of Network Search Engine

下载PDF

导出

摘要提出了一个基于Java的全文搜索引擎设计方案,该方案包括基于HTMLParser设计的网络蜘蛛、基于Lucene设计的索引器和检索器3部分。网络蜘蛛采用标签爬行策略和宽度优先遍历算法,实现了对网页的遍历;索引器对网络蜘蛛抓取到的网页创建索引,建立了索引数据库;检索器根据用户输入的关键词对索引数据库进行检索并将检索结果反馈给用户。检索实验证明,该搜索引擎是一个比较高效的检索工具。 This paper proposes a full-text search engine design scheme based on Java.The scheme includes three parts：A web spider based on HTML Parser,an indexer and a searcher based on Lucene.The web spider uses tag crawling strategy and breadth-first traversal algorithm,realizes the traversal of web pages; the indexer create index for the page which is scraped by the web spider to build the index database; the searchers search on the index database according to the keyword entered by the user and return the search results back to the user.Retrieval experiments show that the search engine is a more efficient retrieval tools.

作者郭永利卢颖颖

机构地区南阳广播电视大学

出处《微型电脑应用》 2014年第4期22-24,共3页 Microcomputer Applications

关键词搜索引擎网络蜘蛛索引器检索器 Search Engine Web Spider Indexer Searcher

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1孙宏,李戴维,董旭阳,季泽旭.搜索引擎技术与发展综述[J].计算机光盘软件与应用,2012,15(14):24-26. 被引量：4
2李国芳.全文搜索引擎快速搭建的设计与实现[J].计算机与现代化,2012(11):197-199. 被引量：2
3克罗夫特[美].搜索引擎:信息检索实践[M].北京:机械工业出版社,2010:69-83.
4李浩,蒋蘋.网络蜘蛛的研究与实现[J].科技信息,2012(26):49-49. 被引量：5
5陈建峡,黄日,马忠宝.基于PageRank的Lucene排序算法优化与实现[J].计算机工程与科学,2012,34(10):123-127. 被引量：12
6刘敏娜.基于Lucene的中文分词技术改进[J].咸阳师范学院学报,2012,27(2):55-57. 被引量：1
7麦肯德利斯等[美].Lucene实战[M].北京:人民邮电出版社,2011:53-92.

二级参考文献40

1欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
2李学勇,田立军,谭义红,欧阳柳波,李国徽.一种基于非贪婪策略的网络蜘蛛搜索算法[J].计算技术与自动化,2004,23(2):35-39. 被引量：6
3周宁,谷宏群.基于Lucene/XML的全文检索机制研究[J].图书情报知识,2005,22(3):75-77. 被引量：9
4黄知义,周宁.Google搜索引擎的PageRank技术及其优化研究[J].图书馆学研究,2005(8):21-23. 被引量：1
5陈庆伟,刘军.基于Lucene的网站全文搜索的设计与实现[J].科技情报开发与经济,2005,15(15):242-244. 被引量：15
6姚树宇,赵少东.一种使用分布式技术的搜索引擎[J].计算机应用与软件,2005,22(10):127-129. 被引量：7
7沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
8曾宜礼.搜索引擎技术综述[J].科技情报开发与经济,2007,17(6):198-200. 被引量：3
9管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：71
10邵斐,孙济庆.一种适用于动态网页的网络蜘蛛爬行策略研究[J].情报杂志,2007,26(5):28-30. 被引量：5

共引文献18

1曲俊燕.中文搜索引擎发展瓶颈及对策研究[J].科技资讯,2012,10(36):22-22.
2张俊飞.全文搜索引擎搭建解析[J].现代计算机,2013,19(17):67-69.
3张宣,刘晓飞.基于Lucene和Heritrix的全文搜索引擎的设计与实现[J].现代计算机,2013,19(22):74-77. 被引量：1
4马睿瑄,朱丽波.面向毕业生求职帮助信息主题搜索引擎的研究[J].计算机光盘软件与应用,2013,16(24):108-109.
5薛冬梅,纪峰,石兴华.网络视听节目监测与监管[J].计算机与网络,2014,40(3):99-101. 被引量：1
6王泽贤.基于Lucene的书目搜索相似度评分算法改进研究[J].图书情报工作,2014,58(4):94-98. 被引量：3
7刘全飞,周相兵.基于lucene的站群全文检索系统设计与实现[J].电脑与信息技术,2015,23(1):36-39. 被引量：1
8陈建峡,李志鹏.基于移动终端的博客搜索引擎系统研究与应用[J].湖北工业大学学报,2015,30(2):89-94. 被引量：2
9郭承坤,陈国松,阮怀军,陈英义,屠星月.基于Heritrix+Solr的农业信息垂直搜索引擎研究与设计[J].广东农业科学,2015,42(5):139-144.
10吴家皋,刘杰,钱科宇,李云.基于改进排序算法的用户查询优化的研究[J].计算机技术与发展,2015,25(7):49-53.

同被引文献2

1王永敏,施玲琳.万方、清华同方、维普三个数据库检索平台的比较[J].晋图学刊,2012(6):22-34. 被引量：9
2李宁,李秉严.知识挖掘技术及应用[J].情报杂志,2003,22(6):34-36. 被引量：18

引证文献1

1王婷.面向知识服务的企业知识挖掘系统设计[J].科技创业月刊,2015,28(21):113-115.

1许亚梅.个人网页创建心得[J].电脑技术——Hello-IT,2001(8):38-38.
2怎样编辑HTML文件来创建网页[J].江苏科技信息,1997(11):7-8.
3梁音.学用FrontPage轻轻松松作网页[J].教学仪器与实验（中学版）,2001,17(9):9-12.
4陶陶.八大网页制作软件助你成为网页创建高手[J].中国传媒科技,2004(1):55-56. 被引量：1
5使用ImageReady优化Web图像[J].计算机与网络,2007,33(9):30-30.
6陈万领,陈卓宁,宾鸿赞.基于粗糙集理论的Web工艺网页智能搜索[J].武汉理工大学学报,2005,27(11):75-78.
7宋涛.八大网页制作软件助你成为网页创建高手[J].计算机与网络,2001,0(20):26-26.

微型电脑应用

2014年第4期

浏览历史

内容加载中请稍等...

网络搜索引擎的设计与实现被引量：1

参考文献7

二级参考文献40

共引文献18

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

网络搜索引擎的设计与实现 被引量：1

参考文献7

二级参考文献40

共引文献18

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

网络搜索引擎的设计与实现被引量：1