期刊文献+

基于Deep Web Search技术的主题式爬虫模块研究与设计

Research and Design of Topical Crawl Module Based on Deep Web Search Technology
原文传递
导出
摘要 随着Web技术的飞速发展,海量数据的管理与搜索变得尤为重要。海量信息的异构性和动态性特点要求信息集成需要Web爬虫来自动获取这些页面,以便进一步处理数据。而一些企业内部的资料既要保密又要供不同的内部职员使用,这种既开放又保守的特点成为企业发展的瓶颈。为了帮助用户完成这样的任务,本文改变传统的资源共享形式,为企业提供了一个高效便利保密的资源共享管理平台--企业搜索引擎(ESE),提出了一种基于主题式爬虫的Deep Web页面的企业搜索引擎(ESE)的和基于开源Java Lucene的索引企业搜索系统设计与实现方法。通过在电信行业Deep Web站点部署实验,经运行检验,结果达到了设计指标要求,为电信行业搜索发挥了作用。并对搜索的精度、速度,以及垃圾网页反舞弊等方面研究进行了展望。 As the web rapidly grows,massive data management and search becomes particularly important.Heterogeneous mass information and dynamic characteristics of information integration require Web crawlers to automatically access these Web pages in order to further process the data,the internal confidential information of enterprises must be only used by different internal staffs,the openness and conservative features become the major bottleneck for the enterprise development.To help out this task,some forms of the traditional resource sharing are changed,an efficient,convenient,and confidential resource sharing management platform-Enterprise Search Engine(ESE) is provided,and the design and implementation method for Deep Web ESE based on topical crawl and indexed enterprise search systems based on open source Java Lucene is proposed.After the deployment and experiment of Deep Web site in the telecommunications industry,the results are proved to meet the design target.It plays an important role in the telecommunications industry.Finally,the studies on the search accuracy and speed,anti-spam pages and fraud,etc are looked forward.
作者 孟敬 刘寿强
出处 《科技导报》 CAS CSCD 北大核心 2011年第21期31-35,共5页 Science & Technology Review
基金 广东省交通科技项目(2007-27) 国家自然科学基金项目(61072028)
关键词 主题式爬虫 企业搜索引擎 DeepWeb搜索技术 电信 设计与实施 topical crawl Enterprise Search Engine Deep Web Search technology telecommunications design and implementation
  • 相关文献

参考文献3

二级参考文献20

  • 1The Apache Jakarta Project:Lucene[EB/OL].http://jakarta.apache.org/lucene/,2003-04.
  • 2车东.在应用中加入全文检索功能--基于Java的全文索引引擎Lucene简介[EB/OL].http://www.chedong.com/tech/lucene.html,2002-08.
  • 3JavaCC[EB/OL].https://javacc.dev.java.net/,2003-04.
  • 4Katz H.JavaCC、解析树和XQuery 语法[EB/OL].http://www-900.ibm.com/developerWorks/cn/xml/x-javacc/part1/index.shtml,2002-12.
  • 5吴泽欣.网站优化方法[EB/OL].http://www.seochat.org,.
  • 6L Page, S Brin, R Motwani et al. The PageRank Citation Ranking:Bring order to the Web. Stanford University,Tech Rep:1997- 0072, 1997.
  • 7Boutin P. Search Engine Optimization FREE. http://webmonkey.wired. com/ webmonkey/01/23/index1 a. html.
  • 8Karen编译."HillTop"论-探索Google排名新算法[EB/OL].http://www.google8.net/archives/000182.html,.
  • 9李晓明 刘建国.搜索引擎技术及趋势[EB/OL].http://www.media.ccidnet.com/media/ccu/4061/02701.htm,2003-03-02.
  • 10Walker Troy.Automating the extraction of domain-specific information from the web-a case study for the genealogical domain[].Brigham Young University.2004

共引文献68

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部