含关键字的新浪微博获取与舆情分析被引量：4

The analysis method and obtainment of public sentiment based on Sina Weibo with the specified keyword

下载PDF

导出

摘要目的自动从新浪微博中抓取含指定关键词的相关微博,通过对抓取的微博进行分析,得到相关舆情热点。方法首先通过多线程爬虫,自动爬取含有指定关键字的微博,将其保存于数据库中,再采用基于字符串匹配的逆向最大匹配法对微博进行分词,计算各分词项的TF-IDF权重作为文本聚类的输入数据,最后用k-means算法进行聚类分析,得出舆情热点。结果与结论这种方法能自动从新浪微博中抓取含指定关键词的相关微博,通过聚类分析,每一族的微博内容具有较高的一致性和共同的主题,由此可迅速找出热点舆情,对及时了解和引导舆情具有积极的意义。 Objective-To obtain public hotspots by automatically capturing and analyzing micro blogs which contains specified keywords from Sina Weibo. Methods-First, save in the database the crawling micro-blogs which contains specified keywords through the automatic multithreaded crawl ers. Then, segment the words in the micro-blogs with Reverse Maximum String Matching Method to calculate TF-IDF weight of each term as text clustering input data. Finally, obtain the hotspot of pub lic sentiment by analyzing the cluster with k-means algorithm. Results and Conclusion-This method can automatically capture the micro-blogs containing relevant keywords from Sina Weibo. After clus ter analysis, the contents of each cluster of micro-blogs have highly consistent and common themes, which can quickly find hot public opinions. The method has positive significance for the understanding and timely guiding public opinions.

作者江林升张春霞

机构地区南京森林警察学院

出处《宝鸡文理学院学报（自然科学版）》 CAS 2014年第1期51-54,共4页 Journal of Baoji University of Arts and Sciences(Natural Science Edition)

基金南京森林警察学院科研项目(RWZD201352) 江苏省高等教育教改研究课题(2013JSJG199)

关键词微博爬虫聚类舆情 Weibo crawler clustering public opinion

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Ricardo Baeza-Yates, Berthier Ribeiro-Neto.现代信息检索[M].2版.黄萱菁,张奇,邱锡鹏译.北京:机械工业出版社,2012:52-55.
2纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
3汤丽娟,章成志.基于微博挖掘技术的企业产品信息监测研究[J].图书情报工作,2012,56(16):37-41. 被引量：4
4王兰成.网络舆情情报语义集成分析法的理论与实践探析[J].情报理论与实践,2013,36(2):48-50. 被引量：6
5郑魁,疏学明,袁宏永.网络舆情热点信息自动发现方法[J].计算机工程,2010,36(3):4-6. 被引量：44
6金鑫,谢斌,朱建明.基于复杂网络分析的微博网络舆情传播[J].吉林大学学报（工学版）,2012,42(S1):271-275. 被引量：20
7周生,胡晓峰,罗批.一种基于多关键字的新闻视频自动检索方法[J].计算机科学,2010,37(1):181-183. 被引量：4
8李劲,张华,吴浩雄,向军.基于特定领域的中文微博热点话题挖掘系统BTopicMiner[J].计算机应用,2012,32(8):2346-2349. 被引量：26
9张磊,王斌,靖红芳,吴丽辉.中文网页搜索日志中的特殊命名实体挖掘[J].哈尔滨工业大学学报,2011,43(5):119-122. 被引量：5
10何拥军,龚发根.基于用户辅助估计的相关网页搜索聚类[J].计算机技术与发展,2011,21(7):112-115. 被引量：1

二级参考文献87

1何拥军,骆嘉伟,孙星明.应用链接分析的web搜索结果聚类[J].计算机工程与应用,2005,41(2):179-183. 被引量：4
2汤晓兵,贾智平.基于特征事务元素的用户事务聚类方法研究[J].微电子学与计算机,2005,22(2):85-87. 被引量：4
3唐波,刘雨,孙茂印.基于数据库的视频检索实现[J].电视技术,2005,29(2):20-24. 被引量：6
4潘玉奇,周劲,杨秀丽,袁宁.基于模糊聚类分析的数据检索的应用[J].微电子学与计算机,2005,22(6):167-169. 被引量：11
5张军华,王晓勇.电视新闻叙事的视角转换与主题建构——以央视《新闻联播》播出的一则新闻为例[J].广西师范大学学报（哲学社会科学版）,2005,41(3):59-61. 被引量：9
6肖平,黄薇,冯刚.基于内容的新闻视频检索技术研究[J].计算机与数字工程,2006,34(10):83-86. 被引量：2
7司光亚,胡晓峰,吴琳.“沉浸式”战略决策训练模拟系统研究与实现[J].系统仿真学报,2006,18(12):3581-3583. 被引量：16
8董献洲,胡晓峰,吴琳,司光亚,陈芳莉.虚拟新闻的表达与生成及其系统设计与实现[J].系统仿真学报,2006,18(12):3634-3636. 被引量：8
9何拥军,龚发根.最大流算法发现Web社团的改进[J].计算机工程与应用,2007,43(13):170-173. 被引量：1
10熊文新,宋柔.信息检索用户查询语句的停用词过滤[J].计算机工程,2007,33(6):195-197. 被引量：16

共引文献147

1刘润奇,贺兴时,南夷非,王博.网络多媒体数据中舆情关联主题的挖掘方法[J].深圳大学学报（理工版）,2020,37(1):72-78. 被引量：6
2王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
3王素格,李伟.面向中日关系论坛的情感分类问题研究[J].计算机工程与应用,2007,43(32):174-177. 被引量：4
4吕大江,石志寒,雷英杰,张国锁.基于自适应直觉模糊推理的数据挖掘方法[J].计算机应用,2010,30(4):1089-1092. 被引量：1
5范蔚文.数据挖掘在电信领域中的应用研究[J].科技广场,2010(7):26-28. 被引量：1
6杨富勇.神经网络模型在股票投资中的应用[J].计算技术与自动化,2010,29(3):108-112. 被引量：4
7徐善针.基于Apriori算法的前序课成绩对后续课成绩的影响[J].科技信息,2010(29). 被引量：2
8李小荣.数据挖掘在企业历史数据中的应用[J].中国管理信息化,2011,14(2):51-52. 被引量：3
9赵芳.高职院校教师教学质量评价系统的分析与设计[J].太原大学学报,2010,11(4):83-86. 被引量：5
10方付建,肖林,王国华.网络舆情热点事件“系列化呈现”问题研究[J].情报杂志,2011,30(2):1-5. 被引量：36

同被引文献57

1高弋坤.新浪微博用户数再创新高[J].通信世界,2011(46):11-11. 被引量：3
2傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
3王灿辉,张敏,马少平,黄宇.基于相邻词的中文关键词自动抽取[J].广西师范大学学报（自然科学版）,2007,25(2):161-164. 被引量：10
4中国互联网络信息中心(CNNIC).第29次中国互联网络发展状况调查统计报告[R].北京:中国互联网络信息中心,2012.
5赵鹏,蔡庆生,王清毅,耿焕同.一种基于复杂网络特征的中文文档关键词抽取算法[J].模式识别与人工智能,2007,20(6):827-831. 被引量：44
6郭建永,蔡勇,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008,29(6):1426-1428. 被引量：15
7阚洳沂,唐雁.基于节点删除指标的关键字提取策略[J].西南师范大学学报（自然科学版）,2008,33(2):119-122. 被引量：2
8方俊,郭雷,王晓东.基于语义的关键词提取算法[J].计算机科学,2008,35(6):148-151. 被引量：39
9杨洁,季铎,蔡东风,林晓庆,白宇.基于联合权重的多文档关键词抽取技术[J].中文信息学报,2008,22(6):75-79. 被引量：16
10刘开瑛,薛翠芳,郑家恒,周晓强.中文文本中抽取特征信息的区域与技术[J].中文信息学报,1998,12(2):1-7. 被引量：45

引证文献4

1黄蓝会.基于在线社会网络采集数据的研究[J].宝鸡文理学院学报（自然科学版）,2014,34(3):57-59. 被引量：1
2徐童童.微博主题发现方法综述[J].内蒙古科技与经济,2015(19):81-83.
3仇丽青,陈卓艳,丁长青,刘海燕.基于改进LDA主题模型的社会网络话题发现算法iMLDA[J].情报科学,2016,34(9):115-118. 被引量：6
4丁祎姗,杜彦辉,朱衍丞,聂世民.基于知识图谱的国内关键词抽取技术研究[J].软件导刊,2020,19(2):273-277. 被引量：6

二级引证文献13

1王志文,陈珂,陈晓升,郑远飞,陈坚旋.基于MVC设计模式的微博数据采集框架[J].广东石油化工学院学报,2017,27(1):31-36. 被引量：1
2万红新,彭云.语义约束和时间关联LDA的社交媒体主题词链提取[J].小型微型计算机系统,2018,39(4):742-747. 被引量：3
3刘电霆,吴丽娜.社会网络中基于信任的LDA主题模型领域专家推荐[J].广西师范大学学报（自然科学版）,2018,36(4):51-58. 被引量：1
4刘玉文,王凯,刘月华.基于影响力遗传的意见领袖在线识别[J].情报理论与实践,2019,42(7):126-131. 被引量：7
5张淯舒.基于知识图谱的搜索引擎技术研究[J].信息技术与信息化,2020(9):29-31. 被引量：1
6陈婕卿,张锋,曾可,姜会珍.基于CiteSpace的医学自然语言处理研究热点分析[J].中国数字医学,2021,16(5):101-106. 被引量：5
7王旎,孙晓红,吴锴,谢锋,陶光灿.基于贝叶斯网络的食品安全舆情监控探针研究[J].计算机系统应用,2022,31(1):29-36. 被引量：3
8张志强,王伟钧,张修军,施达.一种新闻类WORD格式文件数据抽取算法研究[J].成都大学学报（自然科学版）,2022,41(2):151-156.
9管雨涵,刘勘.突发公共卫生事件中的应急政策知识图谱[J].软件导刊,2023,22(9):113-123. 被引量：4
10史卓,王萌,曾树珍,玉珂.基于知识图谱的文学叙事可视化研究[J].中国科技论文,2023,18(11):1230-1235. 被引量：2

1李红斌,张海义.尾字词最大匹配法与逆向最大匹配法的复杂性比较[J].电脑学习,1992(5):1-3.
2吴鹏飞,刘俊晓,马凤娟.如何巧用VC实现中文快速分词[J].电脑编程技巧与维护,2006(10):89-91.
3李玲.基于双词典机制的中文分词系统设计[J].机械工程与自动化,2013(1):17-19. 被引量：4
4黄魏,高兵,刘异,杨克巍.基于词条组合的中文文本分词方法[J].科学技术与工程,2010,10(1):85-89. 被引量：6
5石正喜,张捍东,赵黎明,陈玉燕.一种改进的MM中文分词算法[J].计算机与网络,2009,35(2):48-50.
6丛荣华,袁伟.基于结构化信息检索系统的数据搜集技术的研究[J].吉林工程技术师范学院学报,2006,22(12):12-14.
7李春雨,王勇.基于词典和语素的交集型歧义消除模型[J].微型机与应用,2013,32(4):12-14. 被引量：1

宝鸡文理学院学报（自然科学版）

2014年第1期

浏览历史

内容加载中请稍等...

含关键字的新浪微博获取与舆情分析被引量：4

参考文献11

二级参考文献87

共引文献147

同被引文献57

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

含关键字的新浪微博获取与舆情分析 被引量：4

参考文献11

二级参考文献87

共引文献147

同被引文献57

引证文献4

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

含关键字的新浪微博获取与舆情分析被引量：4