重复串特征提取算法及其在文本聚类中的应用被引量：6

Algorithm of Repeats-based Term Extraction and Its Application in Text Clustering

下载PDF

导出

摘要针对Web文档的高维问题及网络新语言给现有分词系统带来的挑战,该文提出一种基于重复串的特征提取方法,可以从文本中提取有意义的特征,且对于中文无需分词。实验表明,该方法可以降低特征空间维度,同时能有效改善传统以词为特征的聚类算法的性能。 This paper proposes a novel term extraction method based on repeats, which can extract meaningful terms from text. For Chinese, it need not word segmentation. Experimental results show that the proposed approach can remarkably reduce the dimensionality and effectively improve the performance of traditional clustering algorithms.

作者胡吉祥许洪波刘悦程学旗

机构地区中国科学院计算技术研究所

出处《计算机工程》 CAS CSCD 北大核心 2007年第2期65-67,共3页 Computer Engineering

基金国家"973"计划基金资助项目(2004CB318109)

关键词文本聚类特征提取重复串 Text clustering Term extraction Repeats

分类号 TP312 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1Zamir O E.Clustering Web Documents:A Phrase-based Method for Grouping Search Engine Results[D].University of Washington,1999.
2Furnkranz J.A Study Using N-gram Features for Text Categorization[R].Technical Report:TR-98-30,http://www.ai.univie.ac.at/ cgi-bin/tr-online?number+98-30,1998.
3Chien L F.PAT-tree-based Adaptive Key Phrase Extraction for Intelligent Chinese Information Retrieval[J].Information Process and Management,1999,35(4):501-521.
4Yamamoto M,Church K W.Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus[J].Computational Linguistics,2001,27(1):1-30.
5Steinbach M,Karypis G,Kumar V.A Comparison of Document Clustering Techniques[C].Proc.of KDD Workshop on Text Mining'00,2000.

同被引文献36

1周琴,夏友福.高校突发事件网络舆情的应对策略探析——基于2018—2021年141个高校舆情事件的分析[J].传媒论坛,2022,5(16):82-84. 被引量：9
2王镝,王国仁,吴青泉,陈白尘,赵毅,毛克明.DNA序列中基于后继数组索引的LPR查找算法[J].计算机研究与发展,2006,43(z3):195-199. 被引量：4
3林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法[J].计算机工程,2004,30(12):126-127. 被引量：6
4闫龙,王文杰.基于贝叶斯方法的一种垃圾邮件过滤的实现[J].微电子学与计算机,2006,23(2):86-88. 被引量：10
5崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
6王晓黎,王文杰.基于向量空间模型的文本检索系统[J].微电子学与计算机,2006,23(6):188-190. 被引量：18
7高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
8王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
9电子商务网站建设实例[M].北京:清华大学出版社,2003.4(第一版).
10Mark Sinka,David Corne.A large benchmark dataset for web document clustering[J].In Soft Computing Systems:Design,Management and Applications,Frontiers in Artificial Intelligence and Applications,2002(87):881-890.

引证文献6

1黄旭,朱艳琴,罗喜召.面向不良文本信息的中文网页分类方法[J].微电子学与计算机,2008,25(6):215-217. 被引量：1
2杨锦宣.重复数据统计算法及在商务网站中的应用[J].科技信息,2011(20).
3木妮娜.玉素甫,古丽娜.玉素甫,张海军.基于QSA数组计算序列中所有NE重复模式的算法[J].计算机科学,2014,41(3):249-252. 被引量：3
4木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1
5SONG Huilin,PENG Diyun,HUANG Xin,FENG Jun.Research on Weibo Hotspot Finding Based on Self-Adaptive Incremental Clustering[J].Journal of Shanghai Jiaotong university(Science),2019,24(3):364-371. 被引量：1
6王诗宜.基于微博热度的大学生思政教育精准化发现方法[J].电脑知识与技术,2022,18(32):64-67.

二级引证文献6

1刘杰,骆力明,吴宇航,马轶芳,蔡红梅.一种中文领域网页过滤方法[J].北京理工大学学报,2014,34(5):533-536. 被引量：2
2木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1
3木妮娜.玉素甫,古丽娜.玉素甫.有效的Common Motif识别算法[J].电脑知识与技术（过刊）,2016,22(4X):164-168.
4王菲.程序设计语言数组串行运算方法研究[J].信息与电脑,2021,33(8):53-55.
5柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：3
6王海起,徐建波,孔浩然,李留珂,王琼,王志海.微博“路面塌陷”事件的时空分布特征研究[J].地理空间信息,2022,20(10):20-25.

1阿亮.网络新语言“雾里看花”[J].科学时代,2004(11S):68-69.
2高启轩,刘翠,余有明,周树杰,林小竹.网络新语言XML的发展与应用剖析[J].计算机应用,2001,21(z1):57-59.
3马均平.网络新语——“围脖”[J].中国工会财会,2010(1):52-53.
4钟京馗.巧用Mofile，做个离线资源发布者[J].玩电脑,2005(8):98-99.
5潘珅.探析网络新语言“火星文”[J].青年记者,2008(22):89-89. 被引量：3
6杨安翔,吴丹.浅论网络新语“亲切体”的修辞作用[J].文教资料,2013(15):30-32.
7马岭.网络新语[J].现代计算机（中旬刊）,2009(5):120-120.
8互联网实名制来啦……[J].计算机与网络,2005,31(14):1-1.

计算机工程

2007年第2期

浏览历史

内容加载中请稍等...

重复串特征提取算法及其在文本聚类中的应用被引量：6

参考文献5

同被引文献36

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

重复串特征提取算法及其在文本聚类中的应用 被引量：6

参考文献5

同被引文献36

引证文献6

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

重复串特征提取算法及其在文本聚类中的应用被引量：6