基于MapReduce的SVM改进算法及在邮件过滤中的实现被引量：1

The Improved SVM Algorithm Based on MapReduce and Its Implemention on Spam Filtering

导出

摘要针对海量文本邮件的挖掘过滤需要更大的存储空间、以及更强的计算能力,提出一种基于Hadoop云计算平台的垃圾邮件过滤方法。其思想:把相对孤立的数据集合并成易于云平台处理的大文件集合;依据评估函数构建文本向量,将邮件转换为结构化的描述;基于MapReduce分布式编程模型改进SVM算法,利用集群整体的计算能力求解最优平面。实验表明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据的挖掘过滤;并且,分类效率能随着集群规模的扩增而提升较快。 Aiming at that the massive text e - mail mining filter requires more storage space and greater computing power, a method of implementing spare filtering based on Hadoop platform is pro- posed . The data is merged into one big file to be processed ; the feature words of every email is se- lected according to the evaluation function to create the txt vector and convert the e - mail to a struc- tured description. Using the improved SVM based on MapReduce to distribute the load into clusters, and solving the optimal plane using the whole cluster computing power. The experiments show that the improved SVM algorithm can take advantage of the cheap computer cluster to replace expensive high performance machine to implement e - mail mining filter; and the classification emciency is im- proved fast with expansion of the cluster scale.

作者杨鹤标黄文青陈锦富

机构地区江苏大学计算机学院

出处《无线通信技术》 2013年第2期52-56,62,共6页 Wireless Communication Technology

基金国家自然科学基金(61202110)项目

关键词邮件过滤 MAPREDUCE SVM算法 HADOOP 文本分类 e - mail filtering MapReduce SVM algorithm Hadoop text classification

分类号 N391.1 [自然科学总论]

引文网络
相关文献

参考文献16

1中国互联网协会反垃圾邮件中心.[EB/OL].[2012-3-15].http://www.12321.org.ca/.
2赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7
3胡健,马范援.基于Morphology处理和主题词抽取的垃圾邮件过滤方法[J].上海交通大学学报,2005,39(12):1963-1966. 被引量：4
4赵治国,谭敏生,丁琳.垃圾邮件行为识别技术的研究与实现[J].计算机应用研究,2007,24(11):228-231. 被引量：9
5TI-IIAGO S, GUZELIA, WALMIR M C. A review of ma- chine learning approaches to spare filtering [ J ]. Expert Systems with Applicatiolls, 2009,36 ( 7 ) : 10206 - 10222.
6邹汉斌,雷红艳,邓卫红.支持向量机在反垃圾邮件过滤中的应用[J].计算机工程与设计,2007,28(9):2015-2017. 被引量：7
7马小龙.一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J].计算机应用研究,2012,29(3):1091-1094. 被引量：11
8ShOUQING L, Deyu Q, Bo L. Study on the spare -fihe- ring system based on feature selection mechanism and im- proved SVM classification [ C ]. // 2006 International Conference on Computational Intelligence and Security, 2007:2:1143 - 1146.
9VIKAS P, ROBERT F. An evaluation of Naive Bayesian anti- spain filtering techniques [C ]. // Proceedings of the 2007 IEEEWorkshop on Information Assurance. 2007 : 333 - 340.
10DEAN,JEFFREYI, SANJAY G. MapReduce: A flexible data processing tool [ J ]. Communications of the ACM, 2010, 53(1) :72-77.

二级参考文献60

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2胡佳妮,徐蔚然,郭军,邓伟洪.中文文本分类中的特征选择算法研究[J].光通信研究,2005(3):44-46. 被引量：48
3赵晓力.反垃圾邮件法的立法原则[J].信息网络安全,2005(12):18-20. 被引量：5
4张宏烈.支持向量机在字符识别中的应用研究[J].微计算机信息,2006(04Z):245-247. 被引量：11
5CARUANA G, LI MAOZHEN, QI HAO. SpamCloud: a MapReduce based anti-spam architecture [ C]// FSKD'10: Proceedings of 7th International Conference on Fuzzy Systems and Knowledge Discovery. Yantai, China: [s. n. ], 2010, 6:3003-3006.
6BEGRICHE Y, LABIOD H. A prior distribution for anti-spam statistical Bayesian model [ C]// N2S'09: International Conference on Network and service Security. Piscataway, NJ: IEEE, 2009:1 -5.
7DEAN J, GHEMAWAT S. MapReduee: simplified data processing on large clusters [ C]// OSDI'04: Proceedings of the 6th USENIX Symposium on Operating Systems Design and Implementation. [ S. l.] : USENIX, 2004. 137 - 150.
8DEAN J, GHEMAWAT S. MapReduce: a flexible data processing tool [ J]. Communications of the ACM, 2010, 53(1) : 72 - 77.
9RISH I. An empirical study of the naive Bayes classifier [ C]//Proceedings of UCAI Workshop on Empirical Methods in Artificial Intelligence. [S.I.]: IJCA1, 2001:41-46.
10中国教育和科研计算机网紧急响应组(CCERT)【EB/OL].[2011—01—15】.http://www.ccert.edu.cn/spam/sa/datasets.htm.

共引文献44

1龚伟,李柳柏.基于IDSS的中文垃圾邮件过滤模型设计[J].计算机技术与发展,2007,17(3):163-165. 被引量：1
2龚伟,瞿堃,李柳柏.智能决策支持的E-mail过滤模型[J].计算机工程与设计,2008,29(4):852-854.
3魏延良,侯立刚,任立军.垃圾邮件过滤系统的设计[J].辽宁石油化工大学学报,2008,28(1):48-51. 被引量：1
4贾永新,肖爱梅.基于陷阱邮箱的蠕虫邮件行为模式识别方法[J].计算机应用,2009,29(8):2236-2239.
5曾小宁.垃圾邮件过滤系统的探究与实现[J].计算机工程与设计,2009,30(15):3522-3525. 被引量：8
6陈琴,梁家荣.基于遗传算法和发送行为的垃圾邮件检测模型[J].广西大学学报（自然科学版）,2010,35(6):1007-1010. 被引量：6
7李新洁,张新有.垃圾邮件行为识别技术研究[J].计算机技术与发展,2011,21(10):19-22. 被引量：1
8单家凌.反垃圾邮件行为识别模型的研究[J].测控技术,2011,30(9):93-97.
9樊全会.基于CORBA的电子邮件安全研究与设计[J].软件导刊,2012,11(1):71-73. 被引量：1
10林冬茂.数据挖掘技术在垃圾邮件检测中的应用[J].计算机仿真,2012,29(2):120-123. 被引量：6

同被引文献3

1庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：295
2张鹏翔,刘利民,马志强.基于MapReduce的层叠分组并行SVM算法研究[J].计算机应用与软件,2015,32(3):172-176. 被引量：10
3张东礼,汪东升,郑纬民.基于VSM的中文文本分类系统的设计与实现[J].清华大学学报（自然科学版）,2003,43(9):1288-1291. 被引量：16

引证文献1

1张洪胜,丁永红.基于混合样本训练的并行层叠支持向量机研究[J].金陵科技学院学报,2019,35(3):8-11. 被引量：1

二级引证文献1

1蒋凤钗.Spark技术在自然资源数据管理中的应用研究[J].自动化技术与应用,2022,41(6):41-45. 被引量：1

1徐进军,王海成,白中洁.灰色预测模型若干改进方法[J].测绘信息与工程,2011,36(4):1-3. 被引量：14
2赖苏,熊忠阳,江帆,唐蓉君.利用改进的多项式核函数支持向量机进行文本分类[J].重庆大学学报（自然科学版）,2012,35(S1):41-45. 被引量：2
3吴惠荣.灰色预测模型的改进[J].镇江市高等专科学校学报,1998(1):49-51. 被引量：1
4王卓,王虎.灰色动态模型建模判据及模型改进[J].优选与管理科学,1989,5(3):4-10.
5王辉,张成锁,卓呈祥.一种改进的相对熵特征选择方法[J].计算机工程,2011,37(10):167-169. 被引量：1
6王潇杨,陈南飞,张登科,王兴伟.图片型垃圾邮件过滤分析系统设计和实现[J].大连理工大学学报,2011,51(S1):69-72. 被引量：3
7杨浩.我的邮箱不是垃圾箱[J].科学大观园,2003(9):44-44.
8陈辉.文本分类技术及其在网络信息服务中的应用[J].中国科技信息,2004(19):32-33.
9孙效功.灰色系统GM（1，1）模型改进的建模方法[J].青岛海洋大学学报（自然科学版）,1995,25(1):85-90. 被引量：1
10陈云,王浣尘,杨继红,戴晓波.产业集群中的信息共享与合作创新研究[J].系统工程理论与实践,2004,24(8):54-57. 被引量：37

无线通信技术

2013年第2期

浏览历史

内容加载中请稍等...

基于MapReduce的SVM改进算法及在邮件过滤中的实现被引量：1

参考文献16

二级参考文献60

共引文献44

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的SVM改进算法及在邮件过滤中的实现 被引量：1

参考文献16

二级参考文献60

共引文献44

同被引文献3

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MapReduce的SVM改进算法及在邮件过滤中的实现被引量：1