基于主题树的微博突发话题检测被引量：6

Microblog bursty topic detection based on topic tree

下载PDF

导出

摘要针对传统话题检测方法不能很好处理微博中用语不规范、随意性强、指代不明确以及存在大量网络用语的问题,提出了一种基于潜在狄利克雷分配(LDA)模型的主题树检测方法。首先,运用自然语言处理(NLP)中增大信息熵的方法将相关微博整理成一棵主题树,配合狄利克雷先验α与经验值β随主题数目动态变化的设计思想,结合该模型独特的双重概率统计模式,实现了对文本中每个词"贡献度"的统计,提前处理掉干扰信息,排除垃圾数据对话题检测的影响;然后,利用该"贡献度"作为空间向量模型(VSM)改进后的参数值计算文档间相似度来提取突发话题,达到提高突发话题检测精准度的目的。提出的基于LDA模型的主题树检测方法从F值比对与人工检测两个角度进行了相关实验,实验数据显示该算法不仅可以检测到突发话题,而且获得的结果与知网模型和TF-IDF算法相比分别高出3%、7%,且更符合人的判断逻辑。 A kind of topic tree detection method based on Latent Dirichlet Allocation （LDA） model was put forward, in order to solve the problems of nonstandard terms, randomness, uncertainty of reference and large number of network terms in microblog texts, which can not be solved in traditional detection method. Relevant microblogs were reorganized into a topic tree by increasing information entropy in Natural Language Processing （NLP）, combining with the design idea that Dirichelet prior experience value α and experience value β vary with the topic number, then the contribution statistics of every word in the text was achieved using the specific dual probability statistical method of this model. Thus, the interference information would be disposed in advance and the influence of garbage data on topic detection was excluded. Using this contribution as the parameter value of the improved Vector Space Model （VSM）, bursty topics were extracted through calculating the similarity between texts, in order to improve the detection precision of bursty topics. Experiments of the proposed detection method were made from two aspects： comparison of the value of F and the manual detection. The experimental data show that, this algorithm not only can detect the bursty topics, but also can improve the precision about 3% and 7% respectively compared with the HowNet model and the TF-IDF （Term Frequency-Inverse Document Frequency） algorithm, and it is more in accordance with human＇s logic judgments than the traditional ones.

作者邱云飞郭弥纶邵良杉

机构地区辽宁工程技术大学软件学院辽宁工程技术大学系统工程研究所

出处《计算机应用》 CSCD 北大核心 2014年第8期2332-2335,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(70971059) 辽宁省创新团队项目(2009T045) 辽宁省高等学校杰出青年学者成长计划项目(LJQ2012027)

关键词潜在狄利克雷分配主题树语义相似度空间向量模型话题检测 Latent Dirichlet Allocation （LDA） topic tree semantic similarity Vector Space Model （VSM） topicdetection

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1马彬,洪宇,陆剑江,姚建民,朱巧明.基于线索树双层聚类的微博话题检测[J].中文信息学报,2012,26(6):121-128. 被引量：16
2周刚,邹鸿程,熊小兵,黄永忠.MB-SinglePass:基于组合相似度的微博话题检测[J].计算机科学,2012,39(10):198-202. 被引量：24
3洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
4杨潇,马军,杨同峰,杜言琦,邵海敏.主题模型LDA的多文档自动文摘[J].智能系统学报,2010,5(2):169-176. 被引量：23
5徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：248
6刘群,李素建.基于《知网》的词汇语义相似度计算[EB/OL].http://www.keenage.com/papers.
7孙昌年,郑诚,夏青松.基于LDA的中文文本相似度计算[J].计算机技术与发展,2013,23(1):217-220. 被引量：24
8冉婕,孙瑜.语义检索中的词语相似度计算研究[J].计算机技术与发展,2011,21(4):94-97. 被引量：8
9林丽,薛方,任仲晟.一种改进的基于《知网》的词语相似度计算方法[J].计算机应用,2009,29(1):217-220. 被引量：26
10王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：24

二级参考文献218

1董振东.语义关系的表达和知识系统的建造[J].语言文字应用,1998(3):79-85. 被引量：60
2贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
3秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
4金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
5骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
6章志凌,虞立群,陈奕秋,罗海飞,邵晓敏.基于Corpus库的词语相似度计算方法[J].计算机应用,2006,26(3):638-640. 被引量：17
7荀恩东,颜伟.基于语义网计算英语词语相似度[J].情报学报,2006,25(1):43-48. 被引量：41
8于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
9宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
10赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20

共引文献608

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
3刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
4姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
5袁晓峰.《知网》义原相似度计算的研究[J].辽宁大学学报（自然科学版）,2011,38(4):358-361. 被引量：5
6张瑾,刘亚清,于纯妍.汉语词义排歧的另一种方法[J].小型微型计算机系统,2006,27(4):724-726. 被引量：1
7刘军,凌云.基于关键词的概念搜索引擎[J].微型电脑应用,2007,23(8):1-2. 被引量：1
8熊德兰,程菊明,田胜利.基于HowNet的句子褒贬倾向性研究[J].计算机工程与应用,2008,44(22):143-145. 被引量：31
9侯丽敏,宋纳红,魏庆.基于远程教学领域的FAQ问答系统研究[J].郑州轻工业学院学报（自然科学版）,2008,23(3):69-72.
10刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：31

同被引文献57

1贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：13
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：99
3郭平,康艳荣,史晓晨.基于最大Code码的极大完全子图算法[J].计算机科学,2006,33(2):188-190. 被引量：6
4耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
5洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
6ZHANG C, FAN X, CHEN X. Hot topic detection on Chinese short text [ C]//CESM 2011: Proceedings of the International Conference on Advanced Research on Computer Education, Simulation and Modeling, Communications in Computer and Information Science Volume 176. Berlin: Springer-Verlag, 2011:207-212.
7McCALLUM A, CORRADA-EMMANUEL A, WANG X. The au- thor-recipient-topic model for topic and role discovery in social net- works, with application to Enron and academic email [ C]// Pro- ceedings of the 2005 Workshop on Link Analysis, Counterterrorism and Security. Newport Beach: BibSonomy, 2005:33-44.
8PON R K, CARDENAS A F, BUTTLER D, et al. Tracking multi- ple topics for finding interesting articles [ C]// KDD '07: Proceed- ings of the 13th ACM SIGKDD Intemational Conference on Knowl- edge Discovery and Data Mining. New York: ACM, 2007:560 - 569.
9JIN X, SPANGLER S, MA R, et al. Topic initiator detection on the world wide Web [ C]//WWW '10: Proceedings of the 19th Interna- tional Conference on World Wide Web. New York: ACM, 2010: 481 - 490.
10GARCIA-ALVARADO C, ORDONEZ C. ONTOCUBO: cube-based ontology construction and exploration [ C]//SIGMOD '14: Proceed- ings of the 2014 ACM SIGMOD International Conference on Manage- ment of Data. New York: ACM, 2014:1083 - 1086.

引证文献6

1陈千,桂志国,郭鑫,向阳.基于特征本体的文本流主题演化[J].计算机应用,2015,35(2):456-460. 被引量：3
2严宇.基于隐马尔科夫链的微博信息热点抽取算法研究与设计[J].信息系统工程,2015,28(10):129-129.
3兰天,郭躬德.基于词共现关系和粗糙集的微博话题检测方法[J].计算机系统应用,2016,25(6):17-24. 被引量：1
4彭敏,官宸宇,朱佳晖,谢倩倩,黄佳佳,黄济民,杨绍雄,高望,应称.面向社交媒体文本的话题检测与追踪技术研究综述[J].武汉大学学报（理学版）,2016,62(3):197-217. 被引量：14
5冯旭鹏,马震,谢波,刘利军,黄青松.基于聚类集成的微博话题发现方法[J].计算机工程与应用,2017,53(8):81-86.
6陈文实,刘心惠,鲁明羽.基于编码解码器与深度主题特征抽取的多标签文本分类[J].南京师大学报（自然科学版）,2019,42(4):61-68. 被引量：7

二级引证文献25

1宋岩,李帅,张鲁光.企业社会责任信息质量与业绩操纵——基于沪深A股上市公司年报的文本分析[J].产业经济评论（山东）,2020(2):124-141. 被引量：4
2屈庆涛,刘其成,牟春晓.基于N-Gram语言模型的并行自适应新闻话题追踪算法[J].山东大学学报（工学版）,2018,48(6):37-43. 被引量：11
3陈龙稳.基于改进的Single-Pass算法微博话题发现[J].现代计算机（中旬刊）,2016(10):22-25. 被引量：2
4赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：8
5祁凯,杨志,张子墨,刘岩芳.政府参与下网民舆论引导机制的演化博弈分析[J].情报科学,2017,35(3):47-52. 被引量：24
6徐建国,李孟军,姜江,游翰霖.数据驱动的技术创新网络模体分析[J].系统工程与电子技术,2017,39(5):1072-1077. 被引量：6
7高永兵,杨利莹,胡文江,马占飞.基于HDP模型的领域微博主题演化研究[J].计算机工程,2018,44(2):1-8. 被引量：2
8杨腾飞,解吉波,李振宇,李国庆.微博中蕴含台风灾害损失信息识别和分类方法[J].地球信息科学学报,2018,20(7):906-917. 被引量：29
9田亮,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于LDA的英汉维文本聚类系统的设计与实现[J].现代电子技术,2019,42(3):122-126. 被引量：2
10李振宇.社交媒体的情感挖掘在服务减灾中的应用[J].北京测绘,2019,33(6):652-656. 被引量：4

1温鹏,章洋.高性能发布/订阅系统接口服务的设计与应用[J].软件,2013,34(11):31-35. 被引量：3
2杨希,刘晓升,杨璐,严建峰.基于共享内存的并行LDA算法[J].计算机应用与软件,2016,33(3):252-254.
3李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：14
4尹丽丽,张丽萍,王春晖,涂颖,刘东升.基于潜在狄利克雷分配模型预测克隆代码不一致变化的可能性[J].计算机应用,2014,34(6):1788-1791. 被引量：3
5郑诚,李鸿.基于主题模型的K-均值文本聚类[J].计算机与现代化,2013(8):78-80. 被引量：4
6胡雪娇,李慧,马国栋.基于主题树的BBS论坛用户互动行为分析[J].计算机科学,2013,40(06A):129-132.
7刘崇欣,宋萍萍.网络信息资源的组织模式[J].中国信息导报,2004(3):29-31. 被引量：5
8高阳,严建峰,刘晓升.朴素并行LDA[J].计算机科学,2015,42(6):243-246. 被引量：9
9何甜,解建军.基于LDA主题模型的评价对象抽取[J].电脑与信息技术,2017,25(2):11-13. 被引量：1
10杨文君,魏占国,王玉平.入侵检测系统中高效的模式匹配算法[J].小型微型计算机系统,2009,30(11):2189-2194. 被引量：3

计算机应用

2014年第8期

浏览历史

内容加载中请稍等...

基于主题树的微博突发话题检测被引量：6

参考文献13

二级参考文献218

共引文献608

同被引文献57

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于主题树的微博突发话题检测 被引量：6

参考文献13

二级参考文献218

共引文献608

同被引文献57

引证文献6

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于主题树的微博突发话题检测被引量：6