增量式迭代计算模型研究与实现被引量：8

Research and Implementation Incremental Iterative Model

下载PDF

导出

摘要不动点迭代广泛存在于数据挖掘和机器学习算法中,这些算法已应用到诸如社会网络分析、高性能计算、推荐系统、搜索引擎、模式识别等诸多领域中.在云计算环境中,利用MapReduce编程模型所带来的便利,通过普通的PC集群运行相应的迭代算法,可以提高迭代算法的执行效率.但由于数据的快速变化,每当数据发生改变,整个迭代算法也需要重新运行,这将会导致大量的运算资源浪费和性能损失.文中研究基于原始迭代结果和新增数据的增量迭代计算DELTA(Delta data based incrEmentaL iTerAtive computing),并提出DELTA模型以解决上述问题.文中理论证明了DELTA模型的正确性,阐述了其适用范围,并列举了PageRank、K-means和Descendant Query算法在DELTA模型中的运用.文中还扩展HaLoop为ΔHaLoop框架,使其支持增量式的迭代计算.通过一系列的测试用例,对DELTA模型功能、性能进行了分析和讨论,实验结果表明DELTA模型在获得准确的迭代结果的基础上性能优势明显.文中提出的DELTA模型能够适应多数迭代算法,对云计算环境下的迭代计算的应用和优化起到推动作用. The fixed point iterative algorithms widely exist in the area of data mining and machine learning, which have been applied in many fields, such as social network analysis, high- performance computing and recommended system. In cloud computing environment, we can utilize the convenience brought by MapReduce to improve the efficiency of iterative algorithms on big data through running the algorithm on larger PC-cluster. However, the entire iterative algorithm has to be re-executed when new data is introduced, which cause large amount of computing resource wastes and performance losses. In this paper, the original iterative results new data based incremental iterative computing, which is named as DELTA（Delta data based incrEmentaL iTerAtive computing）, is well studied, and the corresponding DELTA model is proposed. We prove the correctness of the model, and describe the application scope. Then, the application cases of DELTA model applying on the iterative algorithms are enumerated, such like PageRank,K-means and Descendant Query. Finally, AHaLoop is implemented by extending HaLoop to support DELTA model. A series of test cases are designed to analyze the DELTA model on functionality and performance. The results show that the model improves the iteration performance without any loss of accuracy. The DELTA model proposed in this paper can adapt many iterative algorithms, which promotes the application and optimization of iterative algorithms in cloud computing environment.

作者宋杰郭朝鹏张一川张岩峰于戈

机构地区东北大学软件学院东北大学计算中心东北大学信息科学与工程学院

出处《计算机学报》 EI CSCD 北大核心 2016年第1期109-125,共17页 Chinese Journal of Computers

基金国家自然科学基金(61433008 61202088 61272179 61173028) 教育部博士点基金(20130042120006) 教育部-中国移动科研基金项目(MCM20125021) 中国博士后科学基金面上基金(2013M540232) 中央高校基本科研业务费专项资金(N130417001) 辽宁省博士启动基金(201403314)资助

关键词云计算大数据 MAPREDUCE 迭代计算增量迭代 cloud computing big data MapReduce iterative computing incremental iterative

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献30

1Page L, Sergey B, Motwani R, Winograd T. The PageRank citation ranking: Bringing order to the web. Stanford InfoLab, USA: Technical Report 422, 1999.
2Kiri W, Claire C, Seth R, Stefan S. Constrained K-means clustering with background knowledge//Proceedings of the 18th International Conference on Machine Learning. Williamstown, USA, 2001:577-584.
3Breese J S, Heckerman D, Kadie C. Empirical analysis of predictive algorithms for collaborative filtering:/Proceedings of the Uncertainty in Artificial Intelligence. San Francisco, USA, 1998: 43-52.
4Mingmin C. Bruzzone L. A novel transductive SVM for semisupervised classification of remote sensing images. IEEE Transactions on Geoscience and Remote Sensing, 2006, 44(11) : 3363-3373.
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2439
6王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752. 被引量：621
7Dean J, Sanjay G. MapReduce: Simplified data processing on large elusters//Proceedings of the 6th Symposium on Operating Systems Design and Implementation. Berkeley, USA, 2004: 137-149.
8Bu Yingyi, Howe B, Balazinska M, Ernst M D. The HaLoop approach to large-scale iterative data analysis. The International Journal on Very Large Data Bases, 2012, 21 (2) : 169-190.
9Daniel P, Frank D. Large-scale incremental processing using distributed transactions and notifications//Proceedings of the 9th Symposium on Operating Systems Design and Implemen- tation. Berkeley, USA, 2010:137-149.
10Bhatotia P, Wieder A, Rodrigues R, et al. Ineoop: MapReduce for incremental computations//Proceedings of the 2nd ACM Symposium on Cloud Computing. Cascais, Portugal, 2011, 7.

二级参考文献209

1[OL].<http://hadoop.apache.org.>.
2WinterCorp: 2005 TopTen Program Summary. http:// www. wintercorp, com/WhitePapers/WC TopTenWP. pdf.
3TDWI Checklist Report: Big Data Analytics. http://tdwi. org/research/2010/08/Big-Data-Analytics, aspx.
4Chaudhuri S, Dayal U. An overview of data warehousing and OLAP technology. SIGMOD Rec, 1997,26(1): 65-74.
5Madden S, DeWitt D J, Stonebraker M. Database parallelism choices greatly impact scalability. DatabaseColumn Blog. http://www, databasecolumn, com/2007/10/database-parallelism-choices, html.
6Dean J, Ghemawat S. MapReduce: Simplified data processing on large clusters//Proceedings of the 6th Symposium on Operating System Design and Implementation (OSDI ' 04). San Francisco, California, USA, 2004: 137-150.
7DeWitt D J, Gerber R H, Graefe G, Heytens M L, Kumar K B, Muralikrishna M. GAMMA--A high performance dataflow database machine//Proceedings of the 12th International Conference on Very Large Data Bases (VLDB' 86). Kyoto, Japan, 1986:228-237.
8Fushimi S, Kitsuregawa M, Tanaka H. An overview of the system software of a parallel relational database machine// Proceedings of the 12th International Conference on Very Large DataBases(VLDB'86). Kyoto, Japan, 1986:209-219.
9Brewer E A. Towards robust distributed systems//Proceedings of the 19th Annual ACM Symposium on Principles of Distributed Computing (PODC' 00). Portland, Oregon, USA, 2000:7.
10http: //www. dbms2, com/2008/08/26/known-applications of mapreduce/.

共引文献2861

1韩莹莹,钟专,褚月娇,康春阳,李东霓,王志佳,刘晓阳,张白羽.基于大数据智能化背景下神经病学实践教学体系构建的探索[J].中国实验诊断学,2023,27(8):1006-1009. 被引量：3
2李坪.大数据赋权正当性证成[J].中山大学法律评论,2020(1):3-21. 被引量：1
3孙昊鹏.大数据在新冠肺炎疫情中的应用和缺失[J].郑州师范教育,2020,9(3):91-96. 被引量：1
4张刘玲.会展行业发展现状及未来发展趋势[J].质量与市场,2023(12):31-33. 被引量：2
5闫妍.刍议大数据时代背景下全面预算管理对提升项目储备精益化管理水平的价值[J].质量与市场,2020,0(1):19-21. 被引量：7
6李明建.试论大数据技术的图书馆特色馆藏文化建设[J].作家天地,2020(21):189-190.
7叶青.违法立案的检察监督机制研究[J].国家检察官学院学报,2024,32(1):53-68. 被引量：4
8刘厚营.大数据在安保工作情报分析中的应用[J].工程技术研究,2018,3(1):243-244. 被引量：1
9肖楠,陈红梅.从融媒体到智媒体:一种技术驱动下的传媒经济发展路径[J].新闻知识,2020(9):19-22. 被引量：3
10杨东,郑清洋.从TikTok事件看数字人民币的路径选择:从流量入口到金融优势的转化[J].新疆师范大学学报（哲学社会科学版）,2021,42(4):126-135. 被引量：8

同被引文献84

1方滨兴,郭云川,周渊.互联网信息内容安全的ICCON控制模型及评价[J].中国科学（F辑:信息科学）,2009,39(9):951-965. 被引量：10
2张晋豫,孟洛明,邱雪松,关富英.优化的IP-DiffServ动态资源定价机制[J].软件学报,2005,16(8):1456-1464. 被引量：5
3都金康,李罕,王腊春,严苏宁.防洪水库（群）洪水优化调度的线性规划方法[J].南京大学学报（自然科学版）,1995,31(2):301-309. 被引量：23
4徐刚,马光文.基于蚁群算法的梯级水电站群优化调度[J].水力发电学报,2005,24(5):7-10. 被引量：56
5尹正杰,胡铁松,崔远来,王小林,曾志炫.水库多目标供水调度规则研究[J].水科学进展,2005,16(6):875-880. 被引量：41
6胡海波,王林.幂律分布研究简史[J].物理,2005,34(12):889-896. 被引量：89
7岳晓宁,徐宝树,王竞波.基于多服务等级随机网络系统价控策略分析[J].沈阳大学学报,2006,18(4):48-52. 被引量：3
8王国才.基于ASP收益管理的互联网流量优化模型[J].系统工程学报,2006,21(5):544-547. 被引量：3
9谭跃进,吴俊,邓宏钟,朱大智.复杂网络抗毁性研究综述[J].系统工程,2006,24(10):1-5. 被引量：65
10万福才,王伟.数字产品动态定价方法[J].系统工程,2006,24(10):92-95. 被引量：8

引证文献8

1宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：97
2王晓斌,卢福军,孙挺,闫萌,马忠义.迭代计算与金融大数据分析[J].信息通信技术,2017,11(4):47-52. 被引量：1
3饶元,吴连伟,张君毅.跨媒介舆情网络环境下信息传播机制研究与进展[J].中国科学：信息科学,2017,47(12):1623-1645. 被引量：14
4王晓斌,卢福军,殷颖,闫萌,马忠义.多区域大规模迭代计算框架应用研究[J].信息通信技术,2018,12(5):62-67. 被引量：1
5魏占辰,刘晓宇,黄秋兰,孙功星.Spark迭代密集型应用的优化方法研究[J].计算机工程与应用,2020,56(23):68-73. 被引量：3
6胡志鹏,吴莹.基于迭代动态初始解的水电站发电流量计算方法研究[J].四川水力发电,2021,40(3):124-129. 被引量：1
7庄伟卿,Morgan.C.Wang.IOS-DaaS精准定价规则[J].中央民族大学学报（自然科学版）,2019,28(1):26-35. 被引量：1
8刘卫华,史婷婷,许学添.基于Spark的层次聚类算法的研究与应用[J].计算机科学与应用,2020,10(5):824-831.

二级引证文献118

1南卫东.融媒体时代信息传播的特点与应对研究[J].新闻传播,2020(6):38-39. 被引量：1
2陈鹏.治理的算法和算法的治理[J].观察与思考,2020,0(1):95-104. 被引量：12
3赵铁柱,董辉,林玉文,袁华强.大数据技术在轨道交通领域中的研究和挑战[J].东莞理工学院学报,2019,26(1):28-32. 被引量：9
4余传明,原赛,王峰,安璐.大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源[J].图书情报工作,2019,63(4):101-111. 被引量：13
5门威.基于MapReduce的大数据处理算法综述[J].濮阳职业技术学院学报,2017,30(5):85-88. 被引量：2
6门威.基于MapReduce的大数据处理算法综述[J].吉林广播电视大学学报,2017(9):48-50.
7林宗缪,郭先超,裴雨清,唐浩,姚文勇.基于Spark的网络日志分析平台研究与设计[J].自动化与仪器仪表,2017(11):157-159. 被引量：3
8沈浩,谈和,熊玉兰.热点信息的传播结构和路径研究——以“中共十九大”为例[J].新闻与写作,2018,0(2):11-18. 被引量：2
9陈丽娟,谢伙生.带负项值的on-shelf效用项集并行挖掘算法[J].计算机与现代化,2018(4):13-16.
10刘萍.基于Hadoop与Spark的大数据处理平台的构建研究[J].通化师范学院学报,2018,39(6):83-88. 被引量：11

1苗晴,唐斌兵,周海银.基于最小二乘增量迭代正则化方法的图像复原[J].计算机应用,2005,25(12):2827-2829. 被引量：4
2韩承双.增量迭代的软件开发方法[J].合肥工业大学学报（自然科学版）,2004,27(6):714-717. 被引量：2
3罗晓东,王换招,和海莲.UML建模过程中获取用例的增量迭代方法[J].微型电脑应用,2007,23(8):58-61.
4张立荣.浅谈对并行数据库的认识[J].价值工程,2010,29(11):143-144.
5王牌熊猫.免费午餐别错过硬件驱动巧设置（上）[J].网友世界,2005(18):51-53.
6陈玥文,赵亮.浅谈增量迭代模型中的基线管理活动[J].中小企业管理与科技,2016,0(13):39-40.
7黄复贤.游戏软件的一种敏捷开发方法[J].电子科技,2005,18(7):53-56.
8马莹莹,王黎明,王世卿.基于MapReduce的并行增量迭代支持向量机算法[J].计算机应用与软件,2015,32(4):288-291. 被引量：1
9王世安.基于敏捷开发的构件化软件可靠性研究[J].微电子学与计算机,2011,28(3):119-122. 被引量：6
10夏骄雄,刘政,刘绪彬,宋阳,袁佳锦.基于快速应用开发的功能点增量迭代模型[J].上海理工大学学报,2014,36(6):578-584. 被引量：4

计算机学报

2016年第1期

浏览历史

内容加载中请稍等...

增量式迭代计算模型研究与实现被引量：8

参考文献30

二级参考文献209

共引文献2861

同被引文献84

引证文献8

二级引证文献118

相关作者

相关机构

相关主题

浏览历史

增量式迭代计算模型研究与实现 被引量：8

参考文献30

二级参考文献209

共引文献2861

同被引文献84

引证文献8

二级引证文献118

相关作者

相关机构

相关主题

浏览历史

增量式迭代计算模型研究与实现被引量：8