基于MapReduce的并行贝叶斯分类算法的设计与实现被引量：5

Design and Implementation of Parallel Bayes Classification Algorithm Using MapReduce

下载PDF

导出

摘要针对现代大规模文本文档分类在单机计算机上训练和测试过程计算时间长,本文设计和实现了一种基于MapReduce架构的并行贝叶斯文本分类算法。在用普通PC搭建的Hadoop集群上研究实验,结果表明,基于MapReduce架构的贝叶斯文本自动分类算法处理大规模的文档自动分类时,在保证分类效果的情况下,并能获得接近线性的加速比。 Aiming to improve the computational time in training and testing process on large scale documents, a implementation of parallel bayes classification algorithm based on MapReduce is proposed.We studied the performance of our parallel algorithm on a large hadoop cluster.We report both timing and accuracy results which indicate that the proposed parallel algorithm based on MapReduce is capable of handling large document collections.

作者丁光华周继鹏周敏

机构地区暨南大学计算机科学与技术系

出处《微计算机信息》 2010年第9期190-191,176,共3页 Control & Automation

关键词 MAPREDUCE 文本分类 HADOOP 贝叶斯 mapreduce text classification hadoop bayes

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1Dean J, Ghemawat S.MapReduce: Simplifed Data Processing on Large Clusters[C]//Proc. of the 6th Symposium on Operating System Design and hnplementation, San Francisco. 2004.
2Christopher D. Manning, Prabhakar Raghavan and Hinrich Schutze. Introduction to Information Retrieval. Cambridge University Press. 2008.
3Cutting D. Scalable Computing with MapReduce [C]//Proc. of O'Reilly Open Source Convention, Poland. 2005.
4Tom M.Mitchell.曾华军,张银奎等译.机器学习[M].北京:机械工业出版社.2003.
5Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin. Map-Reduce for Machine Learning on Multicore. [C]//Proceedings of Neural Information Processing Systems Conference (NIPS). Vancouver, Canada. 2006.
6David Lewis. Na i ve(bayes) at forty:The independence assumption in information retrieval. [C]//In ECML98: Tenth European Conference On Machine Learning. Chemitz, Germany. 1998.
7张冬慧,孙波,徐照财,程显毅.文本自动分类关键技术研究[J].微计算机信息,2008,24(6):197-199. 被引量：12

二级参考文献3

1[1]Harry Zhang,Charles X.Ling.A Fundamental Issue of Naive Bayes,Advances in Artificial Intelligence,AI2003[C],Halifax,Canada,2003(6):591?595.
2[2]Han-joon Kim,Jae-young Chang.Improving Naive Bayes Text Classifier with Modified EM Algorithm[C].ISMIS 2003:326-333.
3[6]Salton G,McGill M.J.Introduction to Modern Information Retrieval[M].NewYork,McGraw-Hill,1983.

共引文献11

1孟春艳.用于文本分类和文本聚类的特征抽取方法的研究[J].微计算机信息,2009,25(9):149-150. 被引量：12
2徐猛,胡平.基于VSM的网页主题相关性算法的研究[J].微计算机信息,2009,25(12):287-288. 被引量：6
3金春霞,周海岩.基于机器学习的Web文本分类技术及算法[J].长春工业大学学报,2009,30(3):347-351. 被引量：3
4郑勋灿,林仲达,邓琨.基于Rough集的web文本分类研究[J].微计算机信息,2009,25(27):180-181.
5龙军,彭毅.基于LSI/SVD的文本分类方法研究[J].微计算机信息,2009,25(30):10-12. 被引量：1
6刘海峰,姚泽清,刘守生,苏展.基于聚类降维的改进KNN文本分类[J].微计算机信息,2010,26(3):18-20. 被引量：2
7郑伟,吕建新,马艳丽.一种基于扩展互信息算法的特征选择方法[J].微计算机信息,2010,26(24):223-224. 被引量：2
8曾洪波,杨天奇,邱韬奋.一种基于模糊理论的KNN文本分类算法[J].微计算机应用,2011,32(2):21-25. 被引量：1
9赵英刚,龚垒.基于行为识别和SVM的短信过滤方法研究[J].微计算机信息,2012,28(1):176-177. 被引量：4
10刘海峰,陈琦,张以皓.一种基于互信息的改进文本特征选择[J].计算机工程与应用,2012,48(25):1-4. 被引量：15

同被引文献46

1陈立伟,李春燕.一种基于多尺度语义分析的图像识别方法[J].计算机应用研究,2009,26(2):799-800. 被引量：1
2Jeffrey Dean, Sanjay Ghemanwat, MapReduce: Simplified Data Processing on Large Clusters.
3Kenneth Heafield Hadoop Design and K-Means Clustering Google Inc January 15 2008.
4Bradley, Fayyad, Refining Initial Points for K-Means Cluster- ing 1998.5.
5Dummler, Rauber, Runger, Mapping Algorithms for Muhipro- cessor Tasks on Multi-core Clusters.
6TOM Wbite. Hadoop: The Definitive Guide. US: O'Reilly. 2005.
7Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters. Communications of the ACM, 2005,51(1): 107-113.
8Dhruba B. The Hadoop Distributed File System: Architecture and Design.2007.
9Dean J, Ghemawat S. Distributed programming with Mapreduce. In: Oram A, Wilson G, eds. Beautiful Code. Sebastopol: O'Reilly Media, Inc., 2007: 371-384.
10李应安.基于MapReduce的聚类算法的并行化研究.微计算机信息,2010,9.

引证文献5

1邱荣太.基于Canopy的K-means多核算法[J].微计算机信息,2012(9):486-487. 被引量：5
2李寒,唐兴兴.基于参数优化的Hadoop云计算平台[J].计算机系统应用,2013,22(3):21-24. 被引量：2
3李伟伟,张涛,林为民,邓松,时坚,汪晨.基于文本内容的敏感数据识别方法研究与实现[J].计算机工程与设计,2013,34(4):1202-1206. 被引量：19
4顾瑞春,王静宇.一种基于MapReduce的并行聚类模型[J].计算机与现代化,2014(1):90-92. 被引量：1
5亢丽芸,王效岳,白如江.MapReduce原理及其在自然语言处理中的应用研究[J].情报科学,2014,32(5):120-126. 被引量：2

二级引证文献29

1高翔,武斌,俞学浩,吴赞红.一种基于ICAP的实时数据防泄漏方案[J].信息网络安全,2013(11):49-53. 被引量：2
2杨维永,廖鹏,刘金锁,黄益彬.应对新型网络威胁下的数据保护技术研究[J].电力信息与通信技术,2014,12(5):136-139. 被引量：3
3刘姝.基于Hadoop的云存储系统的设计与研究[J].郑州轻工业学院学报（自然科学版）,2014,29(5):60-63. 被引量：6
4李天枫,王劲松,王立学.基于IPFIX的大规模网络异常流量检测机制研究[J].天津理工大学学报,2015,31(3):1-5. 被引量：4
5李金忠,汤鹏杰,夏洁武,谭云兰.迭代式MapReduce研究进展[J].计算机工程与应用,2015,51(12):123-132. 被引量：2
6王磊,孙帆,陈旭东.RESTFUL、SOAP、ICAP在移动网络中的应用[J].邮电设计技术,2015(9):35-38. 被引量：3
7嵇旋,徐雅斌.面向裁判文书的隐私内容检测方法[J].重庆邮电大学学报（自然科学版）,2015,27(5):639-646. 被引量：1
8孔涛,曹丙章,邱荷花.基于MapReduce的视频爬虫系统研究[J].华中科技大学学报（自然科学版）,2015,43(5):129-132. 被引量：7
9陈驰,马红霞,赵延帅.基于分类分级的数据资产安全管控平台设计与实现[J].计算机应用,2016,36(A01):265-268. 被引量：20
10徐建忠,罗准辰,张亮.语义扩展技术在敏感数据识别中的应用研究[J].现代电子技术,2016,39(12):80-82. 被引量：3

1邹涛,孙赛.文档自动分类技术及其实现[J].计算机系统应用,1999,8(4):37-38. 被引量：8
2刘红泉.自动分类技术研究[J].江西图书馆学刊,2005,35(1):72-73. 被引量：2
3于金良,朱志祥,李聪颖.Hadoop MapReduce新旧架构的对比研究综述[J].计算机与数字工程,2017,45(1):83-87. 被引量：8
4邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
5郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程,2007,33(22):83-85. 被引量：7
6金晶,王妍,李昕,陈山枝.MapReduce架构的多控制节点改进[J].北京邮电大学学报,2012,35(4):89-93. 被引量：2
7洪毅虹.基于MapReduce架构的文档相似度计算方法[J].网络与信息,2010,24(9):36-37. 被引量：4
8赖向阳,宫秀军,韩来明.一种MapReduce架构下基于遗传算法的K-Medoids聚类[J].计算机科学,2017,44(3):23-26. 被引量：18
9王旭仁,姚叶鹏,冉春风,何发镁.一种并行LDA主题模型建立方法研究[J].北京理工大学学报,2013,33(6):590-593. 被引量：12
10周文晖,程鹤群,孟影,章清锋.基于MapReduce的图像序列可视外壳绘制方法[J].杭州电子科技大学学报（自然科学版）,2015,35(6):55-59.

微计算机信息

2010年第9期

浏览历史

内容加载中请稍等...

基于MapReduce的并行贝叶斯分类算法的设计与实现被引量：5

参考文献7

二级参考文献3

共引文献11

同被引文献46

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行贝叶斯分类算法的设计与实现 被引量：5

参考文献7

二级参考文献3

共引文献11

同被引文献46

引证文献5

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的并行贝叶斯分类算法的设计与实现被引量：5