基于SVM的新浪微博营销类水帖识别研究被引量：5

Research on Sina Microblogging Marketing Spam Review Detection Based on Support Vector Machine

下载PDF

导出

摘要研究一种发现水帖的分类算法.该方法利用SimHash方法将发帖重复当成类似网页去重的问题处理,发帖内容的重复度和其他特征,如发帖的密集型、帐号名称的相似性,所使用的客户端等特征将用于水帖与正常发帖的分类.该文利用新浪微博API下载多个汽车营销账号下的交互数据作为实验数据,并使用SVM作为分类器.实验结果表明,该方法能够较好地发现那些伪装性非常好的水军所发布的水帖. Using tremendous robot accounts to follow product twitters, and review the posts about mar- keting contents is a typical spam issue in Sina microblogging. This method could change the existing public opinions about the involved products and form fake hot topics. Based on similar behaviors from a set of existing spam accounts, we attempt to identify these fake posts. Our method will use SVM to classify them according to text, time, clients and multiplicity among them. The test sets consists of several marketing twitters about automotive products using Sina Weibo APIs. The test results show that our method can find those well disguised reviews by spammers.

作者叶施仁孙宁

机构地区常州大学信息科学与工程学院

出处《湘潭大学自然科学学报》 CAS 北大核心 2015年第4期70-74,共5页 Natural Science Journal of Xiangtan University

基金国家自然科学基金项目(61272367)

关键词评论行为评论特征支持向量机水帖识别 comments behavior comments features support vector machine mieroblog spammers＇ review identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1莫倩,杨珂.网络水军识别研究[J].软件学报,2014,25(7):1505-1526. 被引量：57
2OTT M,CHOI Y,CARDIE C, et al. Finding deceptive opinion spam by any stretch of the imagination[C]// Proe of 49'h Annual Meeting of the Association for Computational Linguistics: Human Language Technolo- gies, Vol. 1. Stroudsburg: ACL, 2011:309-319.
3孙升芸,田萱,何军.基于评论行为的商品垃圾评论的识别研究[J].计算机工程与设计,2012,33(11):4314-4319. 被引量：9
4董博,郑庆华,宋凯磊,田锋,马瑞.基于多SimHash指纹的近似文本检测[J].小型微型计算机系统,2011,32(11):2152-2157. 被引量：21
5赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：559
6LU Y,ZHANG L,XIAO Y,et al. Simuhaneously detecting fake reviews and review spammers using factor graph model[C]//DAVIS H C, HALPIN H, PENTLAND A. Proe of the 5th Annual ACM Web Science Conf.
7邓冰娜,王煜,刘宇.一种应用于博客的垃圾评论识别方法[J].郑州大学学报（理学版）,2011,43(1):65-69. 被引量：7
8罗文俊,孙志蔚.基于simhash的密文同义词检索方法[J].武汉大学学报（理学版）,2014,60(5):459-465. 被引量：6
9谷文成,柴宝仁,韩俊松.基于支持向量机的垃圾信息过滤方法[J].北京理工大学学报,2013,33(10):1062-1066. 被引量：7

二级参考文献69

1朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：328
2Jindal N, Liu B. Opinion spare and analysis[C]//Web Services Dislributed Management: WSDM. Beijing, 2008, 2: 219-229.
3Jindal N, Liu B. Analyzing and detecting review spam[C]//International Conference on Data Mining, Seventh IEEE International Conference on Data Mining. Omaha, 2007, 6: 547-552.
4Jindal N, Liu B. Review spare detection[C]// WWW.2007. Alberta, 2007, 5: 1189-1190.
5Bhattarai A, Rus V, Dasgupta D. Characterizing comment spam in the blogosphere through content analysis[C]//IEEE Xplore. Shanghai, 2009.
6杨宇航,郑德权,于浩,等.基于内容分析的作弊评论自动识别[c]//第四届全国网络与信息安全技术研讨会.青岛,2007:288-294.
7Andrei Z Broder, Steven C Glassman, Mark S Manass~, et al. Syntactic clustering of the Web[ J]. Computer Networks and ISDN Systems, 1997, 29(8-13) :1157-1166.
8Huang Lian-en, Wang Lei, Li Xiao-ming. Achieving both high precision and high recall in near-duplicate detection[A]. In: Pro- ceeding of the 17th ACM Conference on Information and Knowl- edge Management~ C], ACM, 2008: 63-72.
9Moses S Chafikar. Similarity estimation techniques from rounding algorithms[ A] . In: Proceedings of 34th Annual ACM Symposium on Theory of Computing[ C ], ACM, 2002: 380-388.
10Alcksandcr Kolcz, Abdur Chowdhury, Joshua Alspcctor. Improvedrobustness of signature-based near-replica detection via lexicon ran- domization[A]. In: Proceedings of the 10th ACM SIGKDD Inl~r- national Conference on Knowledge Discovery and Data Mining [C], ACM, 2004: 605-610.

共引文献654

1李丹珉,谢耘耕.政治传播视角下社交机器人的研究现状及发展趋势——基于SCI和SSCI文献的计量分析[J].新媒体与社会,2023(2):140-156.
2包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：9
3罗云松,黄慕宇,贾韬.重采样在微博机器人识别中的应用研究[J].中文信息学报,2021,35(12):133-148. 被引量：5
4王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
5王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：30
6刘栋,张彩环.情境特征及其在情感分类模型中的应用[J].计算机应用研究,2020,37(1):144-147.
7徐晖,王中卿,李寿山,张民.结合情感信息的个性化对话生成[J].计算机科学,2022,49(S02):99-104. 被引量：3
8张良波,任际范,周晶晶,吴欣宇.电商直播中弹幕互动特征对销售效率的影响[J].管理科学,2023,36(4):17-29. 被引量：12
9安颖,葛格.基于平行语料库的英汉电商评价对比研究[J].汉字文化,2022(23):113-115.
10蔡馥谣.抖音短视频中辽宁城市形象的呈现与传播策略研究[J].都市文化研究,2024(1):230-242. 被引量：3

同被引文献43

1韩忠明,许峰敏,段大高.面向微博的概率图水军识别模型[J].计算机研究与发展,2013,50(S2):180-186. 被引量：11
2柴晋颖,王飞绒.虚拟社区研究现状及展望[J].情报杂志,2007,26(5):101-103. 被引量：48
3吴杉.引入用户权威性的分类协同过滤推荐算法的研究[J].焦作师范高等专科学校学报,2008,24(1):78-79. 被引量：3
4李小虎,杜海峰,庄健,王孙安.基于小世界原理的模型降阶优化研究[J].西安交通大学学报,2009,43(1):108-113. 被引量：6
5刘鸿宇,赵妍妍,秦兵,刘挺.评价对象抽取及其倾向性分析[J].中文信息学报,2010,24(1):84-88. 被引量：101
6赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：559
7朱尹华,周尚波,王兴星,谢磊,周庆.基于DirectShow视频帧实时捕捉的设计与实现[J].计算机应用与软件,2011,28(1):35-38. 被引量：8
8刘磊,陈兴蜀,尹学渊,段意,吕昭.基于特征加权朴素贝叶斯分类算法的网络用户识别[J].计算机应用,2011,31(12):3268-3270. 被引量：8
9李慧,胡云,李存华.一种新颖的协同推荐算法研究[J].微电子学与计算机,2012,29(3):69-72. 被引量：5
10王琳,冯时,徐伟丽,杨卓,王大玲,张一飞.一种面向微博客文本流的噪音判别与内容相似性双重检测的过滤方法[J].计算机应用与软件,2012,29(8):25-29. 被引量：15

引证文献5

1张艳梅,黄莹莹,甘世杰,丁熠,马志龙.基于贝叶斯模型的微博网络水军识别算法研究[J].通信学报,2017,38(1):44-53. 被引量：42
2张斌,刘昊,张涛.篮球视频中基于AdaBoost分类器的运动员检测方法[J].湘潭大学自然科学学报,2016,38(4):85-89. 被引量：4
3赵晓乐,栾杰,冯旭鹏,刘利军,黄青松.基于堆叠降噪自编码机的广告博文识别方法[J].小型微型计算机系统,2018,39(9):1921-1926.
4于笑明,李文杰.基于微博的个性化社区推荐算法[J].天津理工大学学报,2018,34(5):34-39. 被引量：1
5张瑶瑶,朱小栋.基于岭回归极限学习机的微博垃圾用户分类[J].计算机与数字工程,2021,49(11):2326-2330. 被引量：2

二级引证文献49

1罗云松,黄慕宇,贾韬.重采样在微博机器人识别中的应用研究[J].中文信息学报,2021,35(12):133-148. 被引量：5
2李少臣,李晓军,姚俊萍,肖栩豪,马可欣.虚假信息及其检测模型类别研究综述[J].火箭军工程大学学报,2020(3):96-102.
3邱秀连,田小虎,廖闻剑.基于正负反馈的SEIR微博舆情传播模型[J].计算机与现代化,2018(2):44-48. 被引量：7
4李大鹏,余宗健,肖朝文,邱江涛.基于群体行为的社交媒体中水军分析[J].计算机工程与应用,2018,54(5):144-149. 被引量：1
5仲丽君,杨文忠,袁婷婷,向进勇.社交网络异常用户识别技术综述[J].计算机工程与应用,2018,54(16):13-23. 被引量：7
6刘姝雯,徐扬,王冰璐,高铭,邓佳琪.基于用户表示学习的微博水军识别研究[J].情报杂志,2018,37(7):95-100. 被引量：7
7韩栋,王春华,肖敏.结合旋转森林和Ada Boost分类器的多标签文本分类方法[J].计算机应用研究,2018,35(12):3655-3658. 被引量：10
8王杰,夏飞.网球比赛中运动员检测及阴影去除算法研究[J].电子测量与仪器学报,2018,32(6):155-160. 被引量：2
9王淑琪,王未央.基于支持向量机的微博水军账号识别[J].现代计算机,2018,24(6):27-31. 被引量：3
10王磊,任航,王之怡.基于隐空间代价敏感学习的微博水军识别方法[J].计算机工程,2018,44(9):159-163. 被引量：3

1董锐.分部HASH方法在DBASE—Ⅲ中的应用[J].云南软件产业,1990(1):40-45.
2宋贤霞.基于相关反馈的图像检索技术研究[J].福建电脑,2011,27(6):63-64.
3潘珩.汽车营销决策支持系统数据仓库的设计与实现[J].石河子大学学报（自然科学版）,2005,23(5):658-660. 被引量：5
4姚层林.基于.NET架构的汽车营销管理系统的实现[J].数字技术与应用,2010,28(11):24-25. 被引量：1
5＂嗜游恶魔＂来袭疯狂席卷感染万款APP[J].电脑爱好者,2013(21):65-65.
6叶施仁,叶仁明,朱明峰.基于网络关系的微博水军集团发现方法[J].计算机工程与应用,2017,53(6):96-100. 被引量：7
7张清华,幸禹可.一种基于Hash的快速值约简方法[J].广西师范大学学报（自然科学版）,2011,29(4):39-44. 被引量：2
8林志伟.基于网络信息隐性挖掘技术的恐怖人员定位[J].科技通报,2014,30(9):143-146. 被引量：2
9桂舟.网络视频，汽车营销的突围之路[J].现代广告,2009(9):96-97.
10张亚玲,官亚娟.一种使用伪随机分块和SVD的图像Hash方法[J].计算机工程与应用,2012,48(4):186-189.

湘潭大学自然科学学报

2015年第4期

浏览历史

内容加载中请稍等...

基于SVM的新浪微博营销类水帖识别研究被引量：5

参考文献9

二级参考文献69

共引文献654

同被引文献43

引证文献5

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于SVM的新浪微博营销类水帖识别研究 被引量：5

参考文献9

二级参考文献69

共引文献654

同被引文献43

引证文献5

二级引证文献49

相关作者

相关机构

相关主题

浏览历史

基于SVM的新浪微博营销类水帖识别研究被引量：5