一种基于大数据的有效搜索方法被引量：12

A Kind of Efficient Search Method Based on Big Data

下载PDF

导出

摘要针对大数据查询效率低下的问题,提出了一种有效的搜索方法。将共享的历史查询结果作为中间结果集,在新的查询请求到达时,首先与历史查询进行匹配,若能实现匹配,则直接将匹配部分的历史查询结果直接作为新查询请求结果的一部分。这减少了大量的对历史查询的重复计算,节省了搜索时间,提高了查询效率。实验对比分析表明,新的基于大数据的查询方法能较好地提高查询效率。 This paper proposed an efficient search method to the problem of low efficiency for large dada queries. Using shared history query results as a set of intermediate results, when a new query request arrives, the first match for histor- ical inquiry is directly added to the matching portion of the historical results for directly as part of the new query result of the request if achieving matching. It can reduce the large number of double counting query history, save search time and improve query efficiency. By experimental comparison and analysis show that data based query methods can improve query efficiency.

作者尤川川张桂刚

机构地区武汉大学软件工程国家重点实验室湖北经济学院信息管理学院清华大学信息技术研究院

出处《计算机科学》 CSCD 北大核心 2013年第6期183-186,共4页 Computer Science

基金国家973计划项目(2011CB302302)资助

关键词大数据搜索查询网云数据库 Big data, Search, Query network, Cloud database

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献9

1Dean J,Ghemawat S.MapReduce:Simplified data processing on large clusters[C]//Brewer E,Chen P,eds.Proc.of the OSDI.California:USENIX Association,2004:137-150.
2Ekanayake J,Li Hui,Zhang Bing-jing,et al.Twister..A Runtime for Iterative MapReduce[C]//The First International Workshop on MapReduce and its Applications (MAPREDUCE'10).2010:110-119.
3Bu Y Y,Howe B,Balazinska M,et al.HaLoop:Efficient iterarive data processing on large clusters[J].PVLDB2010,2010,3(1/2):285-296.
4Isard M,Budiu M,Yu Y,et al.Dryad:Distributed data-parallel programs from sequential building blocks[J].ACM SIGOPS Operating Systems Review,2007,41 (3):59-72.
5Zaharia M,Chowdhury M,Franklin M J,et al.Spark:Cluster Computing withWorking Sets[R].Technology report of UC Berkeley.2011.
6Dittrich J,Quian'e-Ruiz J A,Jindal A,et al.Hadoop++:Making a yellow elephant run like a cheetah (without it even noticing)[J].PVLDB,2010,3(1/2):518-529.
7陈国华,汤庸,彭泽武,李建国.基于学术社区的学术搜索引擎设计[J].计算机科学,2011,38(8):171-175. 被引量：13
8殷哲,曹炬.带差商信息的云搜索优化算法及其收敛性分析[J].计算机科学,2012,39(1):252-255. 被引量：6
9杨艺,周元.基于用户查询意图识别的Web搜索优化模型[J].计算机科学,2012,39(1):264-267. 被引量：17

二级参考文献36

1凌波,周水庚,周傲英.P2P信息检索系统的查询结果排序与合并策略[J].计算机学报,2007,30(3):405-414. 被引量：13
2张光卫,康建初,李鹤松,李德毅.基于云模型的全局最优化算法[J].北京航空航天大学学报,2007,33(4):486-490. 被引量：37
3戴朝华,朱云芳,陈维荣,林建辉.云遗传算法及其应用[J].电子学报,2007,35(7):1419-1424. 被引量：84
4Broder A. A taxonomy of Web search[C]//SIGIR Forum. New York, N Y, USA: ACM Press, 2002 : 3-10.
5Rose D E, Levinson D. Understanding user goals in web search [C] //WWW ' 04 : Proceedings of the 13the international confe- rence on World Wide Web. New York, N Y, USA: ACM Press, 2004: 13-19.
6Jansen B J,Booth D L,Spink A. Determining the user intent of Web search engine queries[C] // Williamson CL, Zurko ME, Patel-Schneider PF,et al. , eds. Proc. of the 16th Int'l Conf. on World Wide Web. New York: ACM Press, 2007:1149-1150.
7Ricardo A, Liliana C B, Cristina N. The intention behind Webqueries[C]//Crestani F, Ferragina P, Sanderson M, eds. Proc. of the 13th Int'l Conf. on String Processing and Information Re- trieval (SPIRE 2006 ). Berlin, Heidelberg: Springer-Verlag, 2006 :98-109.
8Qi G, Eugene A. Exploring mouse movements for inferring que- ry intent[-C]//Myaeng SH, Oard DW, Sebastianj F, et al. , eds. Proc. of the 31st Annual Int' 1 ACM SIGIR Conf. on Research and Development in Information Retrieval. 2008:707-708.
9Holland J. Adaptation in Natural and Artificial Systems [M]. Ann Arbor,MI:Univ. of Michigan Press,1975:1-9.
10Goldberg D E. Genetic Algorithms in .Search, Optimization, and Machine Learning [M]. New York: Addison-Wesley, 19 8 9.

共引文献30

1李建国,毛承洁,刘晓,梁茹.学术信息服务平台的研究与设计[J].华南师范大学学报（自然科学版）,2012,44(3):51-54. 被引量：3
2陆伟,周红霞,张晓娟.查询意图研究综述[J].中国图书馆学报,2013,39(1):100-111. 被引量：29
3李春英,汤庸,陈国华,汤志康.面向学术社区的专家推荐模型[J].智能系统学报,2012,7(4):365-369. 被引量：11
4吴涛,陈一祥,杨俊杰.图像过渡区提取与分割的逆向云方法[J].计算机科学,2013,40(5):287-290. 被引量：1
5周相兵,马洪江,苗放.云计算环境下的一种基于Hbase的ORM设计实现[J].西南师范大学学报（自然科学版）,2013,38(8):130-135. 被引量：14
6李敏,罗惠琼,唐春玲,王强.Web交互模型的形式化验证研究[J].计算机科学,2014,41(2):219-221. 被引量：1
7陈臣,陈双飞.一种基于大数据的数字图书馆高效搜索引擎[J].现代情报,2014,34(1):49-51. 被引量：14
8郑炜,梁战平,梁建.面向用户意图的智能搜索引擎框架研究[J].现代图书情报技术,2014(3):65-72. 被引量：8
9金国栋,范炜.卓越科学家数据语义关联与搜索发现研究[J].数字图书馆论坛,2014(4):26-34.
10张萍,王建忠.一种基于大数据的有效搜索方法的改进[J].计算机应用研究,2014,31(8):2331-2333. 被引量：4

同被引文献86

1黄中华.水电机组稳定性试验中几个主要问题的探讨[J].青海电力,2004,23(4):1-2. 被引量：1
2陈亮,屠成宇.基于TCAM的大容量文本搜索[J].计算机工程,2005,31(5):210-212. 被引量：2
3刘卫昌,马增良.企业综合自动化系统中实时数据库系统设计[J].计算机应用研究,2005,22(8):146-149. 被引量：7
4冯乃勤,邱玉辉,王芳.一种提高神经网络泛化能力的新方法[J].计算机科学,2006,33(2):201-204. 被引量：5
5中文分词.http://baike.baidu.com/view/19109.htm.
6Dung X L,Berti E L,Srivastava D.Truth discovery and copying detection in a dynamic world [J].Proceedings of the VLDB En-dowment,2009,2(1):562-573.
7Kopeke H,Thor A,Rahm E.Evaluation of entity resolution ap-proaches on real-world match problems [J].Proceedings of the VLDBEndowment,2010,3(1/2):484-493.
8Fan W F,Geerts F.Capturing missing tuples and missing value [A].Proc of the 29th ACM SIGMOD slGAcT-SIGART Symp c Principles of Database Systems [C].New York:ACM,2010:169-178.
9Li M J,Ng M K,et al.Agglomerative fuzzy K-means clustering algo-rithm with selection of number of clusters [J].IEEE Transactions on Knowledge and Data Engineering,2008,20(11):1519-1534.
10Frank A,Asuncion A.UCI machine learning repository [EB/0L].[2012-05-20]http://archive.ics.uci.edu/mI.

引证文献12

1马宾.一种改进的并行K_近邻网络舆情分类算法研究[J].微电子学与计算机,2015,32(6):62-66. 被引量：1
2陈臣,陈双飞.一种基于大数据的数字图书馆高效搜索引擎[J].现代情报,2014,34(1):49-51. 被引量：14
3陈思慧.基于MIP和改进模糊K-Means算法的大数据聚类设计[J].计算机测量与控制,2014,22(4):1270-1272. 被引量：4
4张萍,王建忠.一种基于大数据的有效搜索方法的改进[J].计算机应用研究,2014,31(8):2331-2333. 被引量：4
5陈臣.大数据时代基于个性化服务的数字图书馆数据搜索引擎设计[J].图书馆理论与实践,2015(4):91-94. 被引量：30
6黄中华,王勇劲,赵文强.基于大数据分析的水电机组状态诊断研究[J].青海电力,2015,34(3):44-47. 被引量：2
7曲朝阳,孙立擎,潘峰,曲楠,颜佳,张率.基于流形排序的电网截面数据检索[J].科学技术与工程,2016,16(15):239-244. 被引量：4
8吴秋莉,郭丽娟,吕泽承,邬蓉蓉.智能电网海量数据实时搜索技术研究[J].电力信息与通信技术,2016,14(12):38-45. 被引量：2
9杜占河,原欣伟.企业信息资源管理与大数据的融合与变革[J].情报科学,2017,35(3):8-12. 被引量：14
10周闯,范彬,朱蕾,陆新江.用于鲁棒性建模的概率权重极限学习机[J].计算机科学,2017,44(8):242-245.

二级引证文献83

1郑帅,吕芳.模糊K-means算法在临床路径决策中的应用[J].辽宁师专学报（自然科学版）,2019,21(3):81-88. 被引量：3
2王华.大数据背景下高职院校图书馆服务创新探索[J].贵图学苑,2020(2):31-32. 被引量：1
3孙金潞.试论企业信息资源管理应注意的几个问题[J].商情,2019,0(30):58-59.
4杨雁.公共图书馆应用大数据的理性思考[J].图书馆学刊,2014,36(7):5-8. 被引量：10
5张毅,赵元媛.大数据技术在数字图书馆中的应用分析[J].网络安全技术与应用,2015(3):52-53. 被引量：5
6张新丽.基于大数据的数字图书馆信息服务研究[J].消费导刊,2015,0(5):286-286.
7周世平.基于大数据的图书馆服务体系构建分析[J].黑龙江科技信息,2015(20):157-157.
8卢威,戴文娟,黄雅馨,张峰,陈靓瑜.面向表层海水温度的时空数据挖掘研究[J].海洋信息,2015,30(3):9-15.
9雷金星.基于大数据的信息用户行为的信息组织研究[J].内蒙古科技与经济,2015(20):156-158. 被引量：3
10苏新宁.大数据时代数字图书馆面临的机遇和挑战[J].中国图书馆学报,2015,41(6):4-12. 被引量：265

1王小良,李强.并行遗传算法研究及其应用[J].微计算机信息,2007,23(03X):205-206. 被引量：5
2许超超.基于大数据的数据处理方法研究[J].电脑知识与技术（过刊）,2014,20(2X):894-896.
3张萍,王建忠.一种基于大数据的有效搜索方法的改进[J].计算机应用研究,2014,31(8):2331-2333. 被引量：4
4朱长武,戴上平,刘智.并行遗传算法在并行多机调度中的应用[J].微计算机信息,2007,23(02X):200-201. 被引量：4
5姜锋.Web网站通信安全的优化方案[J].网络安全技术与应用,2015(10):53-53.
6张忠平,张艳,金晓丹,何丽荣.一种基于中间结果集的有效视图维护算法[J].计算机应用研究,2008,25(10):2998-3001.
7王大明,毛宗源.并行遗传算法综述[J].暨南大学学报（自然科学与医学版）,1998,19(1):20-25. 被引量：10
8廖宇,李振华,刘勤.出版管理信息系统的设计[J].兵工自动化,2004,23(3):53-53.
9罗会兰,王威,王慧.一种基于集成学习技术的图像分割算法的研究[J].江西理工大学学报,2012,33(3):56-61. 被引量：2
10生力军.浅谈ASP.NET下水晶报表的实现[J].电脑知识与技术（过刊）,2011,17(3X):1809-1810.

计算机科学

2013年第6期

浏览历史

内容加载中请稍等...

一种基于大数据的有效搜索方法被引量：12

参考文献9

二级参考文献36

共引文献30

同被引文献86

引证文献12

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

一种基于大数据的有效搜索方法 被引量：12

参考文献9

二级参考文献36

共引文献30

同被引文献86

引证文献12

二级引证文献83

相关作者

相关机构

相关主题

浏览历史

一种基于大数据的有效搜索方法被引量：12