期刊文献+

基于开源搜索引擎Nutch的研究与实现

在线阅读 下载PDF
导出
摘要 Nutch是一个Java实现的开源搜索引擎。对开源搜索引擎Nutch存在的中文分词和页面排序问题进行分析,给出了改进方法。结合Paoding分词算法对Nutch中文分词器进行改进,利用Page Rank排序算法改进了Nutch评分机制。
作者 王然 程晓荣
出处 《电脑编程技巧与维护》 2015年第19期20-20,54,共2页 Computer Programming Skills & Maintenance
  • 相关文献

参考文献4

二级参考文献20

  • 1曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量:49
  • 2翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量:42
  • 3刘畅.综合搜索引擎与垂直搜索引擎的比较研究[J].情报科学,2007,25(1):97-102. 被引量:49
  • 4王东,陈笑蓉.一种改进的高效分词词典机制[J].贵州大学学报(自然科学版),2007,24(4):380-384. 被引量:8
  • 5当前几个主要的Lucene中文分词器的比较[EB/OL].(2009-08-08).http://www.iteye.com/news/9637.
  • 6Tsai Chih-Hao. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm[EB/OL]. (2000-03-12). http://teehnology. chtsai.org/mmseg.
  • 7Google Projet Hosting.imdiet-chinses-analyzer智能词典所采用的智能中文分词程序[EB/OL].(2011-01-15).http://code.google.corvdp/imdict-chinese-analyzer/.
  • 8Gospodnetic O, Hatcher E. Lucene in Action[M]. Greenwich, UK: Manning Press, 2004.
  • 9Hai-Tao Zheng,Bo-Yeong Kang,Hong-Gee Kim.An ontology-based approach to learnable focused crawling[J].Information Sciences.2008(23)
  • 10P. Srinivasan,F. Menczer,G. Pant.A General Evaluation Framework for Topical Crawlers[J].Information Retrieval.2005(3)

共引文献29

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部