基于Nutch和Hadoop的分布式搜索引擎探究
被引量:1
摘要
分析Apache开源框架Nutch和Hadoop的系统结构,利用Nutch和Hadoop设计高效、可靠、可扩展的分布式搜索引擎,来解决搜索引擎对海量数据的处理和存储问题。
出处
《信息通信》
2012年第5期120-121,共2页
Information & Communications
参考文献4
-
1http ://hadoop.apache.org/common/docs/rO. 18.2/cn/hdfs_ design.html,2009.
-
2http://nutch.apache.org/apidoes-2.0/index.html,2011.
-
3谢桂兰,罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用,2010,29(8):4-7. 被引量:69
-
4曹羽中.用Hadoop进行分布式并行编程.http://www.ibm.com/developerworks/cn/open-source/os·cn-ha-d00_p1/index.html,2008.
二级参考文献3
-
1WHITE T.Hadoop,the definitive guide[M].O'Reilly Media,Inc,2009.
-
2DEAN J,GHEMAWAT S.MapReduee:simplified data processing on large clusters.[C]//Proc of the 6th Symposium on Operating Systems Design and Implementation.San Francisco:Google Inc,2004.
-
3Hadoop官方文档:http://hadoop.apache.org/common/docs/r0.18.2/cn/mapred_tutorial.html,2008.
共引文献68
-
1张晓冉,舒昝.面向ETL数据处理过程的优化研究[J].自动化与仪器仪表,2016(7):109-110. 被引量:3
-
2王宏宇.Hadoop平台在云计算中的应用[J].软件,2011,32(4):36-38. 被引量:42
-
3李响.基于Hadoop的云计算基础架构分析[J].计算机时代,2011(11):4-6. 被引量:4
-
4李响.基于Hadoop的云计算基础架构分析[J].石油工业计算机应用,2011(4):20-22.
-
5李响.基于Hadoop的云计算基础架构分析[J].计算机与网络,2012,38(2):65-67. 被引量:4
-
6常浩.云计算中的MapReduce和负载平衡[J].太原大学学报,2012,13(1):131-133.
-
7贾瑞玉,刘范范,潘雯雯,王伟东.基于MapReduce模型的并行量子进化算法[J].计算机工程,2012,38(8):180-182. 被引量:6
-
8陈石磊,宋志毅,蔡佳义,罗骎骎.基于云计算的低冗余远程智能恢复系统的实现[J].信息网络安全,2012(9):54-59. 被引量:1
-
9吕雪骥,李龙澍.FP-Growth算法MapReduce化研究[J].计算机技术与发展,2012,22(11):123-126. 被引量:19
-
10聂瑞,卢建军,卫晨.基于Hadoop平台的OLAP煤炭销售数据分析系统[J].工矿自动化,2012,38(11):77-80. 被引量:2
同被引文献50
-
1百度百科.新浪微博[EB/OL].[2010-07-13].http://baike.baidu.com/view/2762127.htm?fr=ala0_1.
-
2新浪博客[EB/OL].新浪网,http://blog.sina.com.cn/,2007-01-01.
-
3人人网[EB/OL].http://zh.wikipedia.org/wiki/%E4%BA%BA%E4%BA%BA%E7%BD%91#cite-note-1,2012-02-24.
-
4京东商城[EB/OL].[2014-01-03].http://www.jd.com/.
-
5MACDONALD C, OUNIS I. The TREC Blogs06 collection: creating and analyzing a blog test collection. DCS technical re- port TR-2006-224 [EB/OL]. [2012-12-01]. http: //terri- erteam, dcs. gla. ac. uk/publications/macdonald06creating, pdf.
-
6ZHANG W, YU C, MENG W. Opinion retrieval from blogs [ C] //Proceedings of the 16th ACM International Conference on Information and Knowledge Management (CIKM 2007 ), Lisbon, Portugal, November6-10, 2007: 831-840.
-
7ZHANG M, YE X. A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieval [ C ]//Pro- ceedings of the 31st Annual International ACM SIGIR Confer- ence on Research and Development in Information Retrieval ( SIGIR2008), Singapore, July 20-24, 2008 : 411-418.
-
8GERANI S, CARMAN M J, CRESTANI F. Proximity-based o- pinion retrieval [ C ] // Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Infor- mation Retrieval (SIGIR 2010), UniMail, Geneva, Switzer- land, July 19-23, 2010: 403-410.
-
9GERANI S, CARMAN M, CRESTANI F. Aggregation methods for proximity-based opinion retrieval [ J ]. Transactions on In- formation Systems, 2012, 30 (4): 1-26.
-
10WU S. Applying the data fusion technique to blog opinion re- trieval [J]. Expert Systems with Applications, 2012, 39 (1) : 1346-1353.
二级引证文献6
-
1余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量:13
-
2余传明,冯博琳,田鑫,安璐.基于深度表示学习的多语言文本情感分析[J].山东大学学报(理学版),2018,53(3):13-23. 被引量:13
-
3周京艳,刘如,张惠娜,李蕾.基于观点的情报感知方法研究[J].情报杂志,2019,38(12):35-39. 被引量:9
-
4余传明,原赛,胡莎莎,安璐.基于深度学习的多语言跨领域主题对齐模型[J].清华大学学报(自然科学版),2020,60(5):430-439. 被引量:2
-
5余传明,李浩男,安璐.基于深度学习的领域知识对齐模型研究:知识网络视角[J].情报学报,2020,39(5):521-533. 被引量:6
-
6姚远,徐世东,郝群,卢建秋.基于大数据的高校图书馆知识创新服务研究[J].中国电化教育,2019(2):110-117. 被引量:27
-
1邓加娜.应用OOP设计新一代控制测量一体化系统[J].电力勘测设计,1994,0(3):26-28.
-
2黄文依,王劲松,林胜.HDFS可视化操作研究与实现[J].天津理工大学学报,2012,28(1):31-34. 被引量:6
-
3朱晓丽.基于Hadoop的远程教育海量资源存储方法研究[J].山东广播电视大学学报,2012(3):26-29. 被引量:2
-
4黄沈滨,王海洁,朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用,2015,5(3):88-90. 被引量:1
-
5罗翠,王志波,何璘琳,游胜玉,叶志翔,李卫东.校园自主可控软件云平台建设[J].科技广场,2015(12):47-52. 被引量:1
-
6魏斐翡.ECLHadoop:基于Hadoop的有效电子商务物流大数据处理策略[J].计算机工程与科学,2013,35(10):65-71. 被引量:13
-
7蒋辉,张宇弘.一种高效的Verilog预处理工具的实现[J].江南大学学报(自然科学版),2008,7(5):573-578.
-
8王晓华.一种新型的Hadoop本地化测试模型[J].赤峰学院学报(自然科学版),2013,29(19):20-21.