面向用户生成内容的短文本聚类算法研究被引量：6

Research on Short Text Clustering Algorithm for User Generated Content

导出

摘要针对用户生成内容中短文本特征语义描述能力弱和K-means算法对初始聚类中心选值的敏感性问题,通过维基百科概念、链接结构和类别体系信息对短文本进行特征扩展以补充其语义信息。进而以文本间语义关系为基础构建文本集加权复杂网络,利用节点综合特性来选取初始聚类中心,并结合K-means算法对网络节点进行社团划分以达到短文本聚类的目的。实验结果表明,该方法能够有效提高短文本聚类效果。 To solve the problem of weak semantic description ability of short text feature in user generated content, and the traditional K - means algorithm for document clustering is sensitive to the initial clustering center, this paper proposes that the semantic features information of short text can be supplied by feature extension based on the concept, link struc- ture and category system of Wikipedia. Then the weighted complex network of short text set is built by the semantic rela- tion of texts, and text clustering is achieved by node partitioning community based on K - means algorithm whose initial clustering center is chosen according to the synthetic characteristics of network nodes. Results of experiment show that the algorithm proposed by this paper can improve the effect of short text clustering.

作者赵辉刘怀亮

机构地区西安电子科技大学经济与管理学院

出处《现代图书情报技术》 CSSCI 北大核心 2013年第9期88-92,共5页 New Technology of Library and Information Service

关键词短文本聚类特征扩展复杂网络 K—means算法用户生成内容 Short text clustering Feature extension Complex network K - means algorithm User generated content

分类号 G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献15

1赵宇翔,范哲,朱庆华.用户生成内容(UGC)概念解析及研究进展[J].中国图书馆学报,2012,38(5):68-81. 被引量：326
2MacQueen J B. Some Methods for Classification and Analysis of Multi- variate Observations [ C ]. In : Proceedings of the 5th Berkeley ,/mposi- um on Mathematical Statistics and Probability. 1967:281 -297.
3行小帅,潘进,焦李成.基于免疫规划的K-means聚类算法[J].计算机学报,2003,26(5):605-610. 被引量：81
4宁亚辉,樊兴华,吴渝.基于领域词语本体的短文本分类[J].计算机科学,2009,36(3):142-145. 被引量：41
5王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
6范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
7白秋产,金春霞.概念属性扩展的短文本聚类算法[J].长春师范学院学报（自然科学版）,2011,30(5):29-33. 被引量：4
8Pan Y, Chen A H, Jiang L L. Improved K -means Clustering Method Based on Complex Network for Roiling Bearing Fault Diagnosis [ J ]. Applied Mechanics and Materials, 2013, 273:250-254.
9赵鹏,耿焕同,蔡庆生,王清毅.一种基于加权复杂网络特征的K-means聚类算法[J].计算机技术与发展,2007,17(9):35-37. 被引量：16
10董俊,任家东,卢海涛.一种基于复杂网络属性值的K-means聚类算法[J].燕山大学学报,2012,36(4):343-347. 被引量：4

二级参考文献101

1毛波,尤雯雯.虚拟社区成员分类模型[J].清华大学学报（自然科学版）,2006,46(z1):1069-1073. 被引量：82
2王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
3王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
4耿焕同,蔡庆生,赵鹏,于琨.一种基于词共现图的文档自动摘要研究[J].情报学报,2005,24(6):651-656. 被引量：15
5樊兴华,孙茂松.一种高性能的两类中文文本分类方法[J].计算机学报,2006,29(1):124-131. 被引量：70
6刘磊,曹存根,王海涛,陈威.一种基于“是一个”模式的下位概念获取方法[J].计算机科学,2006,33(9):146-151. 被引量：18
7李峰,李芳.中文词语语义相似度计算——基于《知网》2000[J].中文信息学报,2007,21(3):99-105. 被引量：105
8吴贤纶.辨析“因特网将颠覆电视说”(下)[J].有线电视技术,2007,14(5):5-13. 被引量：2
9SebastianiI F. Machine Learning in Automated Text Categorization Consiglio Nazionale delle Rieerche[J]. Italy. ACM Computing Surveys,2002,34(1) : 1-47
10Zelikovitz S,Transductive M F. Learning for Short-Text Classification Problem using Latent Semantic Indexing International [J]. Journal of Pattern Recognition and Artificial Intelligence, 2005,19(2) : 143-163

共引文献523

1杨珊,蒋晓丽.自我决定理论视角下UGC生产动机的模式与演进探究[J].现代传播（中国传媒大学学报）,2020,42(2):35-40. 被引量：16
2李涵霄,杜杏叶.近20年计算机与信息科学领域研究进展——IPM期刊主题分析[J].知识管理论坛,2022(1):24-36. 被引量：1
3郑慧,黄雪志.UGC主导逻辑下的华侨档案文献编纂研究[J].山西档案,2022(1):40-46. 被引量：3
4朱庆华,赵宇翔,谈晓洁,张薇薇.用户生成内容研究进展[J].情报学进展,2014(1):238-274.
5魏洁,杨正玲.患者、医生和系统产生内容对患者择医行为的影响[J].管理科学,2022,35(4):44-56. 被引量：28
6秦亮,张文广,周绍磊,史贤俊.基于Parzen窗估计的核k-means聚类方法[J].计算机工程,2011,37(S1):217-219. 被引量：1
7伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7
8钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：23
9钟将,吴中福,吴开贵,杨强.基于Tabu搜索的聚类算法研究[J].计算机科学,2005,32(1):172-174.
10吕强,俞金寿.基于混合遗传算法的K-Means最优聚类算法[J].华东理工大学学报（自然科学版）,2005,31(2):219-222. 被引量：8

同被引文献109

1邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
2罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8
3喻国明.微内容的聚合与开发——未来媒体内容生产的技术关键[J].青年记者,2006(21):40-41. 被引量：39
4孙爽,章勇.一种基于语义相似度的文本聚类算法[J].南京航空航天大学学报,2006,38(6):712-716. 被引量：18
5裘江南,姚永祥.基于XTM的政务门户知识关联导航系统模型研究[J].情报学报,2007,26(2):260-265. 被引量：12
6王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
7Abdul-Mageed M M. Online news sites and journalism 2. 0 : Reader comments on A1 Jazeera Arabic [ J ]. tripleC : Communication, Capitalism & Critique. Open Access Journal for a Global Sustainable Information Society, 2008, 6 ( 2 ) : 59-76.
8Liu Q, Zhou M, Zhao X. Understanding News 2.0: A framework for explaining the number of comments from readers on online news [ J ] . Information & Management, 2015, 52(7) : 764-776.
9Walther J B, DeAndrea D, Kim J, et al. The influence of online comments on perceptions of antimarijuana public service announcements on YouTube [ J ]. Human Communication Research, 2010, 36 (4) : 469-492.
10Houston J B, Hansen G J, Nisbett G S. Influence of user comments on perceptions of media bias and third-person effect in online newsEJ~. Electronic News, 2011, 5(2) : 79 -92.

引证文献6

1洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
2夏火松,李保国,杨培.基于改进K-means聚类的在线新闻评论主题抽取[J].情报学报,2016,35(1):55-65. 被引量：18
3毕强,刘健,鲍玉来.基于语义相似度的文本聚类研究[J].现代图书情报技术,2016(12):9-16. 被引量：8
4陈果,肖璐,孙建军.面向网络社区的分面式导航体系构建——以丁香园心血管论坛为例[J].情报理论与实践,2017,40(10):112-116. 被引量：16
5陈果,朱茜凌,肖璐.面向网络社区的知识聚合:发展、研究基础与展望[J].情报杂志,2017,36(12):193-197. 被引量：10
6沈美英.基于免疫网络学习机制的中文网络短文本聚类算法[J].自动化与仪器仪表,2018,0(10):185-186.

二级引证文献59

1毕达宇,张苗苗,曹安冉.基于情感依恋的用户高质量在线评论信息生成模式[J].情报科学,2020,0(2):47-51. 被引量：8
2许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
3郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
4金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
5许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32. 被引量：3
6赵冬晓,王效岳,白如江,刘自强.面向情报研究的文本语义挖掘方法述评[J].现代图书情报技术,2016(10):13-24. 被引量：8
7吴春燕,黄巧梅,刘海清,张捷.文本主要信息的自动获取和主体挖掘[J].信息技术与信息化,2017(3):41-43. 被引量：1
8张紫玄,王雪颖,王昊.题名与关键词在文献内容揭示中的对比研究——基于农产品品牌评价领域[J].情报科学,2017,35(10):88-93. 被引量：13
9闫晶,毕强,李洁.数字图书馆资源聚合质量评价指标构建[J].图书情报工作,2017,61(24):5-12. 被引量：19
10陈果,朱茜凌,肖璐.面向网络社区的知识聚合:发展、研究基础与展望[J].情报杂志,2017,36(12):193-197. 被引量：10

1吴夙慧,成颖,郑彦宁,潘云涛.K-means算法研究综述[J].现代图书情报技术,2011(5):28-35. 被引量：178
2朱荣康.捕捉新闻亮点挖掘新闻内涵——从一年中有3条消息被人民日报加编者按刊登谈起[J].新闻通讯,2000(3):46-47.
3谈路明.浅谈敏感性问题采访的技巧[J].采写编,2007(6):40-40.
4苟元琴.聚类分析在图书馆馆藏书目中的挖掘与应用[J].内蒙古科技与经济,2009(13):140-141. 被引量：3
5龚凯乐,成颖,孙建军.基于参与者共现分析的博文聚类研究[J].现代图书情报技术,2016(10):50-58. 被引量：2
6赵辉,刘怀亮.面向社区问答的中文短文本分类算法研究[J].现代情报,2013,33(10):70-74. 被引量：4
7孙英男.播音主持新风格以及工作方法分析[J].中国电子商务,2014(14):280-280.
8李湘东,刘康,高凡.维基百科在多种类型数字文本资源自动分类中的应用[J].情报科学,2017,35(2):75-79. 被引量：2
9卢曼丽.基于K-means算法的读者特征分析与管理策略[J].中国管理信息化,2014,17(20):89-91.
10李立煊.基于聚类定量分析的微博舆情监测与预警[J].传媒,2017(7):92-95. 被引量：2

现代图书情报技术

2013年第9期

浏览历史

内容加载中请稍等...

面向用户生成内容的短文本聚类算法研究被引量：6

参考文献15

二级参考文献101

共引文献523

同被引文献109

引证文献6

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

面向用户生成内容的短文本聚类算法研究 被引量：6

参考文献15

二级参考文献101

共引文献523

同被引文献109

引证文献6

二级引证文献59

相关作者

相关机构

相关主题

浏览历史

面向用户生成内容的短文本聚类算法研究被引量：6