基于隐主题分析的中文微博话题发现被引量：19

Discovering topic from Chinese microblog based on hidden topics analysis

下载PDF

导出

摘要针对高维、稀疏的中文微博数据,提出一种多步骤的新闻话题发现方法。首先结合微博的传播特点,选取出不同时间窗口中具有较高新闻价值的微博文本;再利用隐主题模型挖掘微博内容中隐含的主题信息,并在此基础上进行文本聚类;最后使用频繁项集挖掘技术获取话题关键词集合。该算法能够较好地实现对中文微博数据的降维与话题发现。真实的微博数据集实验结果验证了该方法的有效性。 For high dimensional and sparse Chinese microblog data, this paper proposed a multi-step method for discovering topic. Firstly, it combined with the spread characteristics of microblog, it got the microblog content which had a high news va- lue. Then, it used the hidden topics analysis technique to model the text data and got the result of the text clustering by using the hidden topic information. Finally, the keywords which were best represented the topic content would be obtained from the clustered results through frequent itemsets mining. The experimental results verify the validity of the method on Chinese mi- croblog dataset＇ s dimensionality reduction and topic identification.

作者史剑虹陈兴蜀王文贤

机构地区四川大学计算机学院网络与可信计算研究所

出处《计算机应用研究》 CSCD 北大核心 2014年第3期700-704,共5页 Application Research of Computers

基金国家科技支撑计划课题资助项目(2012BAH18B05) 四川大学青年教师科研启动基金资助项目(2013SCU11017)

关键词中文微博话题发现隐主题模型文本聚类频繁项集挖掘 Chinese microblog topic discovering hidden topic analysis text clustering frequent itemsets mining

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1ALLAN J, CARBONELL J, DODDINGTON G. Topic detection and tracking pilot study : final report [ C ]//Proc of DARPA BroadcastNews Transcription and Understanding Workshop. San Francisco: Morgan Kaufmann Publisher Inc, 1998 : 194-218.
2DANUSHKA B, YUTAKA M, MITSURU I. Measuring semantic sim- ilarity between words using Web search engines [ C ]//Proc of the 16th International Conference on World Wide Web. New York : ACM Press, 2007:757-766.
3LIU Zi-tao, YU Wen-chao, CHEN Wei,et al. Short text feature se- lection for microblog mining [ C] //Proc of the 4th International Con- ference on Computational Intelligence and Software Engineering. 2010:1-4.
4郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：85
5赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31
6路荣,项亮,刘明荣,杨青.基于隐主题分析和文本聚类的微博客中新闻话题的发现[J].模式识别与人工智能,2012,25(3):382-387. 被引量：68
7ZHAO W X, JIANG Jing, WENG Jian-shu, et al. Comparing Twitter and traditional media using topic models [ C] //Proc of the 33rd Eu- ropean Conference on Information Retrieval. Berlin: Springer-Verlag, 2011:338-349.
8张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：171
9BLEI D, NG A, JORDAN M. Latent Dirichlet allocation[ J]. Jour- na~ of Machine Learning Research ,2003,3(3/1 ) :993-1022.
10GRIFFITH T L, STEYVERS M. Finding scientific topics [ J ]. PNAS, 2004,101 ( 1 ) :5228-5235.

二级参考文献60

1耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
2骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
3Kang J H, Lerman K, Plangprasopchok A. Analyzing Microblogs with affinity propagation [C] //Proc of the 1st KDD Workshop on Social Media Analytic. New York: ACM, 2010:67-70.
4Ramage D, Dumais S, Liebling D. Characterizing microblogs with topic models [C] //Proc of Int AAAI Conf on Weblogs and Social Media. Menlo Park, CA: AAAI, 2010:130-137.
5Xu R, Wunsch D. Survey of clustering algorithms [J]. IEEE Trans on Neural Networks, 2005, 16(3): 645-678.
6Deerwester S, Dumais S, Landauer T, et al. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6): 391-407.
7Landauer T K, Foltz P W, Laham D. Introduction to Latent Semantic Analysis [J]. Discourse Processes, 1998, 25 (2) 259-284.
8Griffiths T, Steyvers M. Probabilistic topic models [G] // Latent Semantic Analysis: A Road to Meaning. Hillsdale, NJ: Laurence Erlbaum, 2006.
9Hofmann T. Probabilistic latent semantic indexing [C] // Proc of the 22nd Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval. New York: ACM, 1999:50-57.
10Salton G, McGill M. Introduction to Modern Information Retrieval [M]. New York: McGraw-Hill, 1983.

共引文献309

1许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：5
2梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：18
3王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
4刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
5姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
6张平.运动与心脏的重塑[J].中国运动医学杂志,2000,19(1):76-80. 被引量：13
7孙晓莹,李大展,王水.国内微博研究的发展与机遇[J].情报杂志,2012,31(7):25-33. 被引量：12
8汪洋,帅建梅,陈志刚.基于海量信息过滤的微博热词抽取方法[J].计算机系统应用,2012,21(11):131-136. 被引量：4
9莫同,褚伟杰,李伟平,吴中海.采用超图的微博群落感知方法[J].西安交通大学学报,2012,46(11):120-126. 被引量：8
10赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：31

同被引文献226

1姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
2傅向华,马兆丰,何明,冯博琴.一种个性化的主题提取和层次发现算法[J].西安交通大学学报,2005,39(2):119-122. 被引量：5
3郭平,康艳荣,史晓晨.基于最大Code码的极大完全子图算法[J].计算机科学,2006,33(2):188-190. 被引量：6
4耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
5夏云庆,黄锦辉,张普.中文网络聊天语言的奇异性与动态性研究[J].中文信息学报,2007,21(3):83-91. 被引量：8
6赵旭剑.中文新闻话题动态演化及其关键技术研究[D].合肥:中国科学技术大学,2012.
7洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153
8中国互联网络信息中心.中国互联网络发展状况统计报告[R].2014,(1).
9Adamopoulos P.What makes a great MOOC? An interdisciplinary analysis of student retention in online courses[C]//Proc of the 34th International Conference on Information Systems.2013:1-21.
10Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.

引证文献19

1石博,何楚,卓桐,徐新.慕课教学中基于局部社区发现的主题交互模型[J].计算机应用研究,2015,32(6):1724-1727. 被引量：8
2吴小兰,章成志.基于DTM-LPA的突发事件话题演化方法研究——以H7N9微博为例[J].图书与情报,2015(3):9-16. 被引量：12
3徐童童.微博主题发现方法综述[J].内蒙古科技与经济,2015(19):81-83.
4李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6):743-748. 被引量：5
5裴超,肖诗斌,江敏.基于改进的LDA主题模型的微博用户聚类研究[J].情报理论与实践,2016,39(3):135-139. 被引量：13
6刘红兵,李文坤,张仰森.基于LDA模型和多层聚类的微博话题检测[J].计算机技术与发展,2016,26(6):25-30. 被引量：15
7兰天,郭躬德.基于词共现关系和粗糙集的微博话题检测方法[J].计算机系统应用,2016,25(6):17-24. 被引量：1
8杨子,栾翠菊.基于数据挖掘的微博突发事件检测的算法研究[J].现代计算机（中旬刊）,2016(6):28-32. 被引量：1
9罗建桥,刘甲甲,李柏林,熊鹰.基于局部特征和语义信息的扣件图像检测[J].计算机应用研究,2016,33(8):2514-2518. 被引量：10
10张素智,魏萍萍,徐家兴.面向聚类的堆叠降噪自动编码器的特征提取研究[J].现代计算机,2016,22(22):3-8. 被引量：2

二级引证文献156

1周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
2宋岩,李帅,张鲁光.企业社会责任信息质量与业绩操纵——基于沪深A股上市公司年报的文本分析[J].产业经济评论（山东）,2020(2):124-141. 被引量：4
3王勇,王超,程凯.基于地理标签的LBSN链接预测模型[J].计算机系统应用,2018,27(12):227-233.
4王煜,魏理,姜顺军.医患问答社区热点主题分析研究[J].医学信息学杂志,2018,39(11):2-8. 被引量：3
5曹传东,赵华新.MOOC课程讨论区的社会性交互个案研究[J].中国远程教育,2016(3):39-44. 被引量：29
6黄泳航,汤庸,李春英,汤志康,刘继伟.基于社区划分的学术论文推荐模型[J].计算机应用,2016,36(5):1279-1283. 被引量：11
7白宇杰,李春杰,伦淑娴.基于MOOC的网络互动平台框架构建[J].渤海大学学报（自然科学版）,2016,37(1):92-96. 被引量：3
8邹青芸,高峰,安培浚.灾害信息学研究及其在中日美的发展[J].图书与情报,2016(4):46-52. 被引量：2
9李新炜.分层异构网络信息交互效率优化仿真研究[J].计算机仿真,2017,34(1):276-279. 被引量：3
10郑文娟.基于云计算的MOOC交互式实验平台研究[J].现代电子技术,2017,40(11):29-32. 被引量：2

1曹毅,贺卫红.基于内容过滤的电子商务推荐系统研究[J].计算机技术与发展,2009,19(6):182-185. 被引量：17
2欧阳.数据挖掘技术在移动通信中的应用[J].广西师范学院学报（自然科学版）,2005,22(4):40-44. 被引量：1
3汤小文,蔡庆生.数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37. 被引量：25
4用户愿意为哪些数字内容付费[J].声屏世界,2012(10):66-67.
5徐攀,苏光伟.基于小波系数相关性的图像隐写分析[J].计算机工程与应用,2012,48(28):178-182.
6施乾坤,梁正友.基于LDA模型挖掘招聘信息的技术主题[J].计算机与现代化,2013(9):46-49. 被引量：2
7杨继红.非同寻常的八月[J].新闻大学,2009(4):65-69. 被引量：2
8数字/声音[J].广告主,2008(2):12-12.
9孙春玲.如何改善图片的视觉效果[J].中国记者,2006(8):70-71. 被引量：1
10雷雨,潘晓中,杨晓元,钮可.图像隐写分析中小波系数相关性的研究与应用[J].计算机应用研究,2010,27(9):3536-3538.

计算机应用研究

2014年第3期

浏览历史

内容加载中请稍等...

基于隐主题分析的中文微博话题发现被引量：19

参考文献14

二级参考文献60

共引文献309

同被引文献226

引证文献19

二级引证文献156

相关作者

相关机构

相关主题

浏览历史

基于隐主题分析的中文微博话题发现 被引量：19

参考文献14

二级参考文献60

共引文献309

同被引文献226

引证文献19

二级引证文献156

相关作者

相关机构

相关主题

浏览历史

基于隐主题分析的中文微博话题发现被引量：19