融合词向量与关键词提取的微博话题发现被引量：2

Microblog Topic Discovery Based on Word Vector and Keyword Extraction

下载PDF

导出

摘要传统的微博话题发现方法主要利用词频进行词的特征提取,然后使用单一聚类(Single-pass)方法、主题模型Latent Dirichlet Allocation(LDA)进行文本聚类,往往忽略文本之间词与词潜在的语义相似关系。在微博这种短文本表现不佳。针对这一问题进行研究,提出一种基于词向量与关键词提取微博话题检测方法。首先通过连续词袋模型(CBOW)来提取微博文本的词向量特征,对每个文档的词向量求平均并归一化得到文档向量。然后通过聚类算法得到聚类结果,并将聚类的结果与通过图排序算法(TextRank)提取的文本关键词进行共现分析和筛选得到微博话题。在真实数据集上进行实验,该方案能有效提取微博话题,在准确率和轮廓系数(CH)上优于传统方法。 The traditional methods of microblog topic discovery mainly use term Frequency–inverse document frequency(TF-IDF)to extract the fea⁃tures of the words,and use the Single-pass method and the topic model Latent Dirichlet Allocation(LDA)for text clustering,which are of⁃ten ignoring the potential semantic similarity between words in the text.They are not performing well in the short text.Aiming at this prob⁃lem,this paper proposes a method of microblog topic detection based on word vectors and keyword extraction.Firstly,the word vector fea⁃ture of the microblog text is extracted by the continuous bag of words(CBOW)model of Word2Vec,and the word vectors of each document are averaged and normalized to obtain the document vectors.Then the clustering algorithms are used to gain the clustering result,the clus⁃tering result is co-occurring with the text keywords extracted by the TextRank graph sorting algorithm.Experiment conducted on real datas⁃et,this program can effectively extract microblog topics,which is superior to the traditional methods in accuracy and Silhouette Coefficient(CH)index.

作者王立平赵晖 WANG Li-ping;ZHAO Hui(Department of College of Information Science and Engineering,Xinjiang University,Urumqi 830046)

机构地区新疆大学信息科学与工程学院

出处《现代计算机》 2020年第23期3-9,共7页 Modern Computer

基金国家自然科学基金(No.61561047)。

关键词话题发现词向量聚类图排序算法关键词 Topic Discovery Word Vectors Cluster Graph Sorting Keywords

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1张云伟,宋安军.基于K-Means改进算法在微博话题发现中的应用研究[J].计算机系统应用,2016,25(10):308-311. 被引量：4
2左笑晨,窦志成,黄真,卢淑祺,文继荣.微博热门话题关联商品品类挖掘[J].计算机研究与发展,2019,56(9):1927-1938. 被引量：3
3黄贤英,陈红阳,刘英涛.短文本相似度研究及其在微博话题检测中的应用[J].计算机工程与设计,2015,36(11):3128-3133. 被引量：11
4叶成绪,杨萍,刘少鹏.基于主题词的微博热点话题发现[J].计算机应用与软件,2016,33(2):46-50. 被引量：11
5洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6):71-87. 被引量：153

二级参考文献95

1贾自艳,何清,张海俊,李嘉佑,史忠植.一种基于动态进化模型的事件探测和追踪算法[J].计算机研究与发展,2004,41(7):1273-1280. 被引量：59
2金珠,林鸿飞,赵晶.基于HowNet的话题跟踪及倾向性分类研究[J].情报学报,2005,24(5):555-561. 被引量：21
3骆卫华,于满泉,许洪波,王斌,程学旗.基于多策略优化的分治多层聚类算法的话题发现研究[J].中文信息学报,2006,20(1):29-36. 被引量：38
4于满泉,骆卫华,许洪波,白硕.话题识别与跟踪中的层次化话题识别技术研究[J].计算机研究与发展,2006,43(3):489-495. 被引量：49
5宋丹,王卫东,陈英.基于改进向量空间模型的话题识别与跟踪[J].计算机技术与发展,2006,16(9):62-64. 被引量：23
6赵华,赵铁军,张姝,王浩畅.基于内容分析的话题检测研究[J].哈尔滨工业大学学报,2006,38(10):1740-1743. 被引量：20
7赵华,赵铁军,于浩,张姝.面向动态演化的话题检测研究[J].高技术通讯,2006,16(12):1230-1235. 被引量：17
8李治国,蔡东风,周俏丽,杨者青.在篇章中利用互信息识别命名实体的研究[J].沈阳航空工业学院学报,2007,24(1):35-37. 被引量：2
9骆卫华刘群程学旗孙茂松陈群秀.话题检测与跟踪技术的发展与研究[A].孙茂松,陈群秀.全国计算语言学联合学术会议(JSCL-2003)论文集[C].北京:清华大学出版社,2003.560-566.
10Tim Leek, Hubert Jin, Sreenivasa Sista, Richard Schwartz. The BBN Crosslingual Topic Detection and Tracking System[A]. In: Working Notes of the Third Topic Detection and Tracking Workshop[C]. 2000.

共引文献174

1骆梅柳.基于大数据的校园舆情热点话题跟踪研究[J].智能计算机与应用,2020(8):287-289. 被引量：1
2姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12
3刘星星,何婷婷,龚海军,陈龙.网络热点事件发现系统的设计[J].中文信息学报,2008,22(6):80-85. 被引量：31
4鲁明羽,姚晓娜,魏善岭.基于模糊聚类的网络论坛热点话题挖掘[J].大连海事大学学报,2008,34(4):52-54. 被引量：19
5任晓东,张永奎,薛晓飞.基于K-Modes聚类的自适应话题追踪技术[J].计算机工程,2009,35(9):222-224. 被引量：13
6张晓艳,王挺.话题发现与追踪技术研究[J].计算机科学与探索,2009,3(4):347-357. 被引量：21
7饶洋辉,叶良,常红旭,程洁.新话题监测研究进展[J].图书馆杂志,2009,28(7):60-63.
8程葳,龙志祎.面向互联网新闻的在线话题检测算法[J].计算机工程,2009,35(18):28-30. 被引量：8
9焦健,瞿有利.知网的话题更新与跟踪算法研究[J].北京交通大学学报,2009,33(5):132-136. 被引量：9
10龙志祎,程葳,沈俊辉.TDT中新发现话题的分类研究与实现[J].武汉理工大学学报（信息与管理工程版）,2009,31(5):762-765. 被引量：2

同被引文献12

1苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：394
2张小明,李舟军,巢文涵.基于增量型聚类的自动话题检测研究[J].软件学报,2012,23(6):1578-1587. 被引量：23
3黄卫东,陈凌云,吴美蓉.网络舆情话题情感演化研究[J].情报杂志,2014,33(1):102-107. 被引量：37
4周卫星,陈思,张帆,何凤娇,李珅.Jenkins应用的设计与实现——移动通信业务自动化测试平台[J].通讯世界,2020,27(1):58-59. 被引量：2
5张帆,潘亚雄,胡勇.基于改进Single-Pass的新闻话题检测与追踪技术研究[J].信息安全研究,2020,6(5):396-403. 被引量：4
6孙福权,张静静,刘冰玉,姜玉山,多允慧.基于万有引力改进的TextRank关键词提取算法[J].计算机应用与软件,2020,37(7):216-220. 被引量：7
7周宁,石雯茜,朱昭昭.基于粗糙数据推理的TextRank关键词提取算法[J].中文信息学报,2020,34(9):44-52. 被引量：18
8陶海峰,宋礼秀.用户体验视角下数字阅读平台交互性研究——以樊登读书App为例[J].新媒体研究,2020,6(17):1-3. 被引量：5
9赵凯琳,靳小龙,王元卓.小样本学习研究综述[J].软件学报,2021,32(2):349-369. 被引量：218
10余传明,郭亚静,朱星宇,安璐.基于最大边界相关度的抽取式文本摘要模型研究[J].情报科学,2021,39(2):34-43. 被引量：9

引证文献2

1叶天宽,黎伟健,彭涛,胡莉琼,陈钦顺,朱凯亮.基于评改一体化提升互联网5G产品NPS的方法研究[J].科技传播,2021,13(3):159-162.
2李崭,杜晓童,黄浩,任秋霖.基于MS-Cluster与Prompt-Learning话题检测与追踪技术[J].计算机科学与应用,2023,13(10):1918-1927.

1赵相宜.吴趼人《恨海》“情论”研究[J].文学教育,2020,0(16):34-37.
2唐晓波,高和璇.基于关键词词向量特征扩展的健康问句分类研究[J].数据分析与知识发现,2020,4(7):66-75. 被引量：14
3艾金勇.融合多特征的TextRank藏文文本关键词抽取方法研究[J].情报探索,2020(7):1-6. 被引量：4
4李小丽.体悟作者的情感流动——从“教学内容选择”层面谈叙事散文《老王》的教学[J].教学月刊（中学版）（语文教学）,2020(7):36-39. 被引量：1
5孙会,陈娜辉.“十七年”(1949—1965)时期的广告审美解读——以《人民日报》广告为例[J].石家庄铁道大学学报（社会科学版）,2020,14(2):100-104.

现代计算机

2020年第23期

浏览历史

内容加载中请稍等...

融合词向量与关键词提取的微博话题发现被引量：2

参考文献5

二级参考文献95

共引文献174

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合词向量与关键词提取的微博话题发现 被引量：2

参考文献5

二级参考文献95

共引文献174

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

融合词向量与关键词提取的微博话题发现被引量：2