基于内容的垃圾邮件过滤技术综述被引量：129

A Survey of Content-based Anti-spam Email Filtering

下载PDF

导出

摘要垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。 The volume of junk emails on the Intemet has grown tremendously in the past few years and is causing serious problems. Content-based filtering is one of the mainstream technologies used so far. This paper aims to provide an overview on the state of art in this research field, including benchmark corpora, evaluation methods and filtering approaches. Many filtering approaches, including Ripper, Decision Trees, Rough Sets, Rocchio, Boosting, Bayes, kNN, SVM and Winnow, are discussed and compared in this paper. The experimental results show that some approaches, such as Boosting, Flexible Bayes, SVM, Winnow, can achieve very good results on research corpora. However, much more work should be done for practical use.

作者王斌潘文锋

机构地区中国科学院计算技术研究所

出处《中文信息学报》 CSCD 北大核心 2005年第5期1-10,共10页 Journal of Chinese Information Processing

基金国家973项目资助(2004CB318109)

关键词计算机应用中文信息处理综述垃圾邮件反垃圾邮件信息过滤文本分类 computer application Chinese information processing overview junk email anti-spare information filtering text classification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献32

1A. Kolcz and J. Alspector, SVM-based Filtering of E-mail Spam with Content-specific Misclassification Costs[A].In: Proc. ICDM-2001 Workshop on Text Mining (TextDM 2001)[C]. Nov. 2001.
2D. Mertz, Six appQroaches to eliminating unwanted e-mail[EB].from http:∥www-900 ibm. com/developerWorks /cn/linux/other/l-spamf/index_eng.shtml, September, 1999.
3G. Sakkis, I. Androutsopoulos, G. Paliouras, V. Karkaletsis, C. D. Spyropoulos, andP. Stamatopoulos,A Memory-Based Approach to Anti-Spam Filtering for Mailing Lists, Information Retrieval[J]. Vol. 6, No. 1,pp. 49- 73,Kluwer Academic Publishers, 2003.
4H. Katirai, Filtering Junk E-Mail: A Performance Comparison between Genetic Programming & Naive Bayes[D].available online at: http:∥members. rogers. com/hoomank/katirai99filtering. pdf, Sep. 1999.
5H. Drucker, D. Wu, and V. N. Vapnik, Support Vector Machines for Spam Categorization[J]. IEEEE Transactions on Neural Networks, Vol. 20, No. 5, pp. 1048-1054, Sep. 1999.
6I. Androutsopoulos, J. Koutsias, K.V. Chandrinos and C.D. Spyropoulos, An Experimental Comparison of Naive Bayesian and Keyword-Based Anti-Spam Filtering with Encrypted Personal E-mail Messages[A]. In: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR 2000)[C], Athens, Greece, pp. 160-167, 2000.
7Ⅰ. Androutsopoulos, G. Paliouras, V. Karkaletsis, G. Sakkis, C.D. Spyropoulos and P. Stamatopoulos, Learning to Filter Spam E-Mail: A Comparison of a Naive Bayesian and a Memory-Based Approach[A]. In: Proc. 4th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2000)[C]. pp. 1 - 13,Sep. 2000.
8Ⅰ. Androutsopoulos, J. Koutsias, K.V. Chandrinos, G. Paliouras and C.D. Spyropoulos, An Evaluation of Naive Bayesian Anti-Spam Filtering[A] .In: Proc. of the Workshop on Machine Learning in the New Information Age, 11th European Conference on Machine Learning (ECML 2000) [C]. pp. 9 - 17, May 2000.
9Ⅰ. Androutsopoulos, G. Paliouras and E. Michelakis, Learning to Filter Unsolicited Commercial E-Mail[EB]. Technical report 2004/2, NCSR "Demokritos", 2004.
10J.M.G. Hidalgo, Evaluating Cost-Sensitive Unsolicited Bulk Email Categorization[A]. In: Proceedings of ACM Symposium on Applied Computing (SAC 2002)[C]. pp. 615-620, Mar. 2002.

二级参考文献31

1谢印芬,马玉亮.反垃圾邮件技术浅析[J].临沂师范学院学报,2004,26(3):113-116. 被引量：3
2卢海燕,郭群.反垃圾邮件技术综述[J].数据通信,2005(3):42-44. 被引量：4
3吴军,王作英,禹锋,王侠.汉语语料的自动分类[J].中文信息学报,1995,9(4):25-32. 被引量：24
4王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
5周俐霞,何安元.基于流量均衡的垃圾邮件过滤网关集群系统模型[J].盐城工学院学报（自然科学版）,2006,19(1):23-27. 被引量：2
6张昕,马力,王娟.浅析反垃圾邮件技术[J].网络安全技术与应用,2006(5):60-61. 被引量：3
7谢磊涛,侯松鹂.垃圾邮件防范技术与措施[J].电脑知识与技术,2006(6):79-80. 被引量：4
8卜东波.聚类/分类理论研究及其在文本挖掘中的应用.中科院计算所博士学位论文[M].-,2000..
9[1]Postel J B. RFC821 simple mail transfer protocol. USA: IETF, 1982.4～18
10[2]Freed N, Borenstein N. RFC2045 multipurpose Internet mail extensions (MIME) part one: format of Internet message bodies. USA:IETF, 1996.6～27

共引文献148

1肖明,殷锋,张楠.垃圾邮件过滤技术及发展[J].西南民族大学学报（自然科学版）,2007,33(1):207-212. 被引量：8
2詹旭,王岳秀,谢千河.邮件病毒及过滤系统研究[J].成都信息工程学院学报,2009,24(1):25-28.
3徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
4雷小锋,夏征义,谢昆青.SROC:一种面向结构鲁棒性的迭代聚类方法[J].计算机研究与发展,2007,44(z3):263-267.
5谢印芬,马玉亮.反垃圾邮件技术浅析[J].临沂师范学院学报,2004,26(3):113-116. 被引量：3
6丁黎庆 ,李生红 ,林祥 ,李建华 ,王开亚 .实时高效邮件过滤系统设计[J].装甲兵工程学院学报,2004,18(4):38-40.
7丁鹏,杨永田,罗志云,郑可馨.一种独立于邮件服务器的垃圾邮件过滤系统的设计[J].计算机应用,2005,25(2):396-398. 被引量：1
8周家庆.电子邮件的自动截取与分析系统的设计与实现[J].浙江师范大学学报（自然科学版）,2003,26(1):35-38. 被引量：1
9卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
10刘建毅,张鹏飞,王枞,郭燕慧,李赟.高性能电子邮件过滤系统的设计与实现[J].计算机应用研究,2005,22(4):224-225. 被引量：9

同被引文献862

1龚伟.基于Bayes的一种改良垃圾邮件过滤模型[J].微计算机信息,2007,23(3):104-106. 被引量：2
2李国明,汤文亮.反垃圾邮件技术及其最新展望[J].电脑知识与技术（过刊）,2007(16). 被引量：1
3邹磊,卢炎生,崔得暄,胡蓉.一种基于最小损失的垃圾邮件屏蔽算法[J].华中科技大学学报（自然科学版）,2005,33(z1):352-355. 被引量：2
4李星,田莹,段海新.中文垃圾邮件过滤系统的实现和评估[J].大连理工大学学报,2005,45(z1):189-195. 被引量：5
5郭亚周,高德远,高翔.模糊聚类分析在入侵检测系统中的应用研究[J].沈阳理工大学学报,2005,24(4):26-28. 被引量：26
6徐洪伟,方勇,音春.垃圾邮件过滤技术分析[J].通信技术,2003,36(10):126-128. 被引量：14
7程杰仁,殷建平,刘运,钟经伟.蜜罐及蜜网技术研究进展[J].计算机研究与发展,2008,45(z1):375-378. 被引量：36
8祝庆荣,董守斌,陈彬.基于SMO和指纹技术在线邮件过滤方法与优化[J].郑州大学学报（理学版）,2009,41(1):90-93. 被引量：1
9陈光英,孙东红.实现基于SpamAssassin的中文垃圾邮件过滤网关[J].中国教育网络,2005(11):46-47. 被引量：5
10谢印芬,马玉亮.反垃圾邮件技术浅析[J].临沂师范学院学报,2004,26(3):113-116. 被引量：3

引证文献129

1张登科,易秀双,王兴伟.一种基于相似度测量的新垃圾邮件发现机制[J].中国海洋大学学报（自然科学版）,2008,38(S1):147-150. 被引量：1
2刘洋,曹津宁,刘昊,秦玉平.基于贝叶斯方法的垃圾邮件处理模型研究[J].长春工程学院学报（自然科学版）,2007,8(3):75-76.
3张平.追求[J].就业与保障,2005(11):1-1.
4王金宝.基于增量学习和阈值优化的自适应信息过滤研究[J].计算机应用,2006,26(5):1099-1101.
5庄锁法,陈兴梅.客户端防范垃圾邮件策略的探讨[J].电脑知识与技术,2006(8):172-172.
6张洪军,段会川.基于支持向量机的电子邮件分类模型设计[J].信息技术与信息化,2006(5):89-90. 被引量：1
7徐卫.一种垃圾邮件过滤网关的设计[J].电脑知识与技术,2006(12):64-65.
8黄鹏鹤.垃圾邮件内容过滤测试平台的设计与实现[J].仪器仪表用户,2007,14(1):93-94.
9陈超,陈盛雄.一种基于SMO算法的垃圾邮件过滤系统设计[J].福建电脑,2007,23(3):131-132. 被引量：1
10张俊丽,张帆.改进KNN算法在垃圾邮件过滤中的应用[J].现代图书情报技术,2007(4):75-78. 被引量：14

二级引证文献311

1马国洋.论刑事诉讼中人工智能证据的审查[J].中国刑事法杂志,2021(5):158-176. 被引量：53
2王家琪,张莉.面向文本特征选择的去冗余相对判别准则[J].山西大学学报（自然科学版）,2021,44(4):688-694. 被引量：2
3张跃旭.一种垃圾邮件过滤系统的研究与实现[J].辽东学院学报（自然科学版）,2009,16(2):149-151.
4谢印芬,马玉亮.反垃圾邮件技术浅析[J].临沂师范学院学报,2004,26(3):113-116. 被引量：3
5卢海燕,郭群.反垃圾邮件技术综述[J].数据通信,2005(3):42-44. 被引量：4
6王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
7周俐霞,何安元.基于流量均衡的垃圾邮件过滤网关集群系统模型[J].盐城工学院学报（自然科学版）,2006,19(1):23-27. 被引量：2
8张昕,马力,王娟.浅析反垃圾邮件技术[J].网络安全技术与应用,2006(5):60-61. 被引量：3
9谢磊涛,侯松鹂.垃圾邮件防范技术与措施[J].电脑知识与技术,2006(6):79-80. 被引量：4
10祁巍,李一军,李英来,谢伟全.智能化企业电子邮件分类管理模型研究[J].中国软科学,2007(8):131-137.

1姚学礼.基于内容过滤垃圾邮件综述[J].科技风,2009(11).
2浦海晨,万晓冬.一种基于文本分类技术的邮件过滤系统设计[J].福建电脑,2005,21(11):97-98.
3浦海晨,万晓冬.一种基于文本分类技术的邮件过滤系统设计[J].科技广场,2005(6):21-24.
4赵玉明,滕少华,张巍,伍乃骐.异常入侵检测中数据挖掘技术RIPPER的应用[J].广东工业大学学报,2005,22(3):48-52. 被引量：2
5Hokkien.Ahead DVD Ripper注册算法分析与注册机编写[J].黑客防线,2008(4):124-127.
6汤金波,孙力.基于规则的垃圾邮件过滤算法比较研究[J].网络安全技术与应用,2016(6):57-58. 被引量：4
7赵斌,戴英侠.基于Unix系统调用的数据挖掘算法[J].计算机工程,2004,30(3):22-23. 被引量：2
8East.Streambox Ripper—RM转MP3的利器[J].计算机应用文摘,2002(5):104-104.
9陈杰,陈熙霖,高文.基于遗传算法重采样的人脸样本扩张[J].软件学报,2005,16(11):1894-1901. 被引量：8
10王兰富.“拽”出DVD光盘中的音乐[J].玩电脑,2004(6):212-213.

中文信息学报

2005年第5期

浏览历史

内容加载中请稍等...

基于内容的垃圾邮件过滤技术综述被引量：129

参考文献32

二级参考文献31

共引文献148

同被引文献862

引证文献129

二级引证文献311

相关作者

相关机构

相关主题

浏览历史

基于内容的垃圾邮件过滤技术综述 被引量：129

参考文献32

二级参考文献31

共引文献148

同被引文献862

引证文献129

二级引证文献311

相关作者

相关机构

相关主题

浏览历史

基于内容的垃圾邮件过滤技术综述被引量：129