一种基于频繁词集表示的新文本聚类方法被引量：15

A New Documents Clustering Method Based on Frequent Itemsets

下载PDF

导出

摘要传统的文本聚类方法大部分采用基于词的文本表示模型,这种模型只考虑单个词的重要度而忽略了词与词之间的语义关系.同时,传统文本表示模型存在高维的问题.为解决以上问题,提出一种基于频繁词集的文本聚类方法(frequent itemsets based document clustering method,FIC).该方法从文档集中运用FP-Growth算法挖掘出频繁词集,运用频繁词集来表示每个文本从而大大降低了文本维度,根据文本间相似度建立文本网络,运用社区划分的算法对网络进行划分,从而达到文本聚类的目的.FIC算法不仅能降低文本表示的维度,还可以构建文本集中文本间的关联关系,使文本与文本间不再是独立的两两关系.实验中运用2个英文语料库Reuters-21578,20NewsGroup和1个中文语料库——搜狗新闻数据集来测试算法精度.实验表明:较传统的利用文本空间向量模型的聚类方法,该方法能够有效地降低文本表示的维度,并且,相比于常见的基于频繁词集的聚类方法能获得更好的聚类效果. Traditional document clustering methods use vector space model （VSM） of words torepresent documents. This VSM representation only measures the importance of a single words, while ignores the semantic relationship between words, and has high dimensionality. In this study, wepropose a new document clustering method： FIC （frequent itemsets based document clustering method）. In the method, we use frequent itemsets （where a frequent itemset is a set of frequently co-occurred words） mined by FP-Growth algorithm in documents to represent each document. We thenconstruct the document-document relationship network based on the similarity between pairs ofdocuments at this new representation. At last, we divide the network into communities using a given community detection method to complete document clustering. Thereby, FIC can not only overcome the high dimensionality of VSM , but also fully make use of topological relationship among documents. The experimental results on two English corpora （Reters-21578 and 20Newsgroup） and one Chinese corpus （Sougou-News） demonstrate that the proposed method FIC is superior tofrequent itemsets based methods and other classical state-o-the-art document clustering methods, and the top K words for characterizing each topic of documents identified by FIC are more meaningful than the classical topic model LDA （latent Dirichlet allocation）.

作者张雪松贾彩燕 Zhang Xuesong;Jia Caiyan(Beijing Key Lab of Traffic Data Analysis and Mining （Beijing Jiaotong University） , Beijing 100044;School of Computer and Information Technology , Beijing Jiaotong University, Beijing 10004)

机构地区交通数据分析与数据挖掘北京市重点实验室(北京交通大学) 北京交通大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2018年第1期102-112,共11页 Journal of Computer Research and Development

基金国家自然科学基金面上项目(61473030) 数字出版国家重点实验室专项课题~~

关键词文本聚类频繁词集复杂网络社区划分文本表示模型 document clustering frequent itemsets complex network community division text representation model

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献3

1陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
2彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
3修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1

二级参考文献35

1李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：98
2彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：45
3Shi Zhong,Joydeep Ghosh. Generative model-based document clustering: a comparative study[J] 2005,Knowledge and Information Systems(3):374～384
4Yang X, Ghoting A, Ruan Y, et al. A framework for summarizing and analyzing Twilter feeds [C] //Proc of the 18th ACM SIGKDD lnt Conf on Knowledge Discovery and Data Mining (KDD'12). New York: ACM, 2012:370-378.
5Zhang X, Zhu S, Liang W. Detecting spare and promoting campaigns in the Twitter social network [C] //Proc of the 12th IEEE Int Conf on Data Mining (ICDM'12). Los Alamitos, CA: IEEEComputer Society, 2012:1194-1199.
6Peng Min, Huang Jiaiia, Fu Hui, et al. High quality microblog extraction based on multiple features fusion and time frequency lransformation [G] //LNCS 8181 : Proc of the 14th Int Conf of Web Information Systems Engineering (WlSE'13). Berlin: Springer, 2013:188- 201.
7Lin D. An information theoretic definition of similarity [C]// Proc of the 15th Int Conf on Machine I.earning (ICMI.'98). San Francisco, CA: Morgan Kaufmann, 1998, 296-304.
8Schiitze H, Silverstein C. Projections for efficient document clustering [C] //Proc of the 20th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR'97). New York: ACM, 1997: 74-81.
9Ramage D, Heymann P, Manning C D, et al. Clustering the tagged Web [C] //Proc of the 2nd ACM Int Conf on Web Search and Data Mining (WSDM'09). New York: ACM, 2009:54-63.
10Freeman R, Yin H. Self-organising maps for hierarchical tree view document clustering using contextual information [G]//LNCS 2412: Proc of the IEEE Int Joint Conf on Neural Networks. Berlin: Springer, 2002:123-128.

共引文献155

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
5李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
8鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
9王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
10刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5

同被引文献104

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：201
3阿班.毛力提汗.中国共产党反贫困理论与实践[J].毛泽东邓小平理论研究,2006(11):19-24. 被引量：12
4黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
5徐月宾,刘凤芹,张秀兰.中国农村反贫困政策的反思——从社会救助向社会保护转变[J].中国社会科学,2007(3):40-53. 被引量：245
6林万龙,钟玲,陆汉文.合作型反贫困理论与仪陇的实践[J].农业经济问题,2008,29(11):59-65. 被引量：45
7彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
8黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：230
9唐俊,梁亮,梁栋,朱明.基于拟Laplace谱的形状表示与聚类[J].华东理工大学学报（自然科学版）,2011,37(6):749-753. 被引量：1
10翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：35

引证文献15

1李云龙,余正涛,高盛祥,郭军军,彭仁杰.基于案件要素指导及深度聚类的新闻与案件相关性分析[J].中文信息学报,2021,35(11):60-69. 被引量：1
2赵颖,王华伟.基于聚类分析算法的铁路通信设备厂商信息智能分类[J].铁路计算机应用,2018,27(7):75-79. 被引量：1
3张丐卓.文本挖掘及其在信息内容安全中的应用[J].华北科技学院学报,2018,15(2):115-121. 被引量：2
4王秀慧,赵治军.改进的基于词集距离的FTC聚类算法[J].计算机工程与设计,2019,40(11):3175-3179. 被引量：1
5王昉,王晓博.新中国70年反贫困思想的演进路径与逻辑架构--基于政策文件的文本对比研究[J].经济学家,2020,0(2):44-53. 被引量：14
6李海磊,杨文忠,李东昊,温杰彬,钱芸芸.基于特征融合的K-means微博话题发现模型[J].电子技术应用,2020,46(4):24-28. 被引量：7
7郑建灵,张艳玲,田俊雄,黄子豪,梁茵.校园舆情热点问题提取与分析[J].软件导刊,2020,19(4):61-66. 被引量：1
8贾瑞玉,陈胜发.结合新概念分解和频繁词集的短文本聚类[J].小型微型计算机系统,2020,41(6):1321-1326. 被引量：4
9侯朋朋,张珩,武延军,于佳耕,邰阳,苗玉霞.基于多标签的内核配置图及其应用[J].计算机研究与发展,2021,58(3):651-667. 被引量：3
10刘鹏,宁鹏飞.基于VSM的海量医学资源特定信息优化聚类模型[J].计算机仿真,2021,38(6):383-386.

二级引证文献43

1翟绍果,张星.从脆弱性治理到韧性治理:中国贫困治理的议题转换、范式转变与政策转型[J].山东社会科学,2021(1):74-81. 被引量：56
2付小红,赵华美.2020年中国政治经济学研究综述[J].政治经济学研究,2021(1):161-173.
3姜安印,陈卫强.贫困时代转换的经验证据、特征研判及路径选择[J].经济学家,2021(3):63-70. 被引量：12
4郑继承.中国特色反贫困理论释析与新时代减贫战略展望[J].经济问题探索,2021(1):40-51. 被引量：16
5徐俊峰,葛扬.马克思反贫困思想及其对我国实现共同富裕的启示[J].海派经济学,2022,20(4):63-76. 被引量：2
6山火.数字用户线技术发展的辩证[J].电子产品世界,2000,7(4):8-8.
7陶婧,陈文,吕云波,刘青欢.促进规章制度管理信息化对策分析[J].秘书之友,2019,0(11):15-16.
8曹树金,岳文玉.突发公共卫生事件微博舆情主题挖掘与演化分析[J].信息资源管理学报,2020,10(6):28-37. 被引量：76
9傅承涛,谢佳璇,牛永洁.新闻类短文本聚类新方法的研究[J].延安大学学报（自然科学版）,2020,39(4):67-71. 被引量：3
10顾永春,顾兴全,武娇,洪彩凤,金世举.面向不平衡网络评论数据挖掘的服务质量评价[J].小型微型计算机系统,2021,42(2):354-361. 被引量：12

1崔学成,陆南.Android权限异常检测技术的研究[J].信息技术,2017,41(12):134-137. 被引量：2
2牛奉高,王世昌,张亚宇.三元共现潜在语义向量空间模型[J].情报科学,2018,36(1):147-151. 被引量：2
3程华秋子.蛰伏14年，搜狗变身纽交所中国AI第一股[J].新财富,2017,0(12):10-16.
4郭坚,石航,杨静.用户相似度感知的移动社交网络内容分享机制[J].华中科技大学学报（自然科学版）,2017,45(12):46-52. 被引量：1
5梁栋屹,陶宏曜,刘兴旺.基于深度表示模型的旅游路线推荐算法研究[J].软件导刊,2017,16(12):158-161. 被引量：1
6张莹莹.切的身份转变之旅:从空间叙事角度分析《亡命天涯》[J].淮南师范学院学报,2017,19(5):67-69.
7Yang Chunxiang.Strategies For the Translation of Official Document——Taking the Outline of China Tumen River Regional Cooperation Development Plan as an Example[J].校园英语,2017(40):207-208.
8《光谱学与光谱分析》期刊社决定采用ScholarOne Manuscripts在线投稿审稿系统[J].光谱学与光谱分析,2017,37(12):3870-3870.
9蒋强荣,宋烈金.基于图核算法的文本分类[J].计算机与现代化,2017(11):13-16. 被引量：3
10赵晴.石家庄市雾霾时空变化与工业污染源相关性研究[J].产业与科技论坛,2017,16(23):39-40. 被引量：1

计算机研究与发展

2018年第1期

浏览历史

内容加载中请稍等...

一种基于频繁词集表示的新文本聚类方法被引量：15

参考文献3

二级参考文献35

共引文献155

同被引文献104

引证文献15

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于频繁词集表示的新文本聚类方法 被引量：15

参考文献3

二级参考文献35

共引文献155

同被引文献104

引证文献15

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

一种基于频繁词集表示的新文本聚类方法被引量：15