面向维吾尔语文本的改进后缀树聚类被引量：2

Improved suffix tree clustering for Uyghur text

下载PDF

导出

摘要针对后缀树聚类选取基类时,基类短语出现信息不规范、重复和冗余的问题,提出了一种改进后缀树聚类算法。该算法首先以短语互信息算法改进基类的选取,选出遵守维吾尔语语法规则的基类短语;然后,利用短语归并算法对选取的重复基类短语进行归并;最后,在前两步的工作基础上,利用短语去冗余算法处理冗余的基类短语。实验证明,与传统后缀树聚类(STC)相比,改进后缀树聚算法的全面率、准确率都得到了提高。这表明,改进算法有效地改善了聚类效果。 In order to solve the problems of non-standard,repetition and redundancy of information in the process of selecting the base class phrases,an improved Suffix Tree Clustering（STC） method was proposed.Firstly,phrase mutual information algorithm was put forward to choose the base class phrases abiding by Uyghur grammar.Secondly,in order to reduce the repeated base class phrase,the phrase reduction algorithm based on Uyghur grammar was proposed.Thirdly,on the basis of the first two steps,the phrase redundancy algorithm based on Uyghur grammar was constructed to remove redundant phrase.The experimental results show that this method improves the recall and the precision compared with STC.This indicates that the improved algorithm can enhance clustering performance effectively.

作者翟献民田生伟禹龙冯冠军

机构地区新疆大学信息科学与工程学院新疆大学软件学院新疆大学网络中心新疆大学人文学院

出处《计算机应用》 CSCD 北大核心 2012年第4期1078-1081,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60963017) 国家社会科学基金资助项目(10BTQ045 11XTQ007) 新疆大学博士基金资助项目(BS100120)

关键词维吾尔语后缀树互信息归并冗余 Uyghur Suffix Tree（ST） Mutual Information（MI） reduction redundancy

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1ZAMIR O,ETZIONI O,MADANI O,et al.Fast and intuitive clus-tering of Web documents[C]//Proceedings of the 3rd InternationalConference on Knowledge Discovery and Data Mining.New York:AAAI Press,1997:287-290.
2HONG YI,SAM K.Learning assignment order of instances for theconstrained K-means clustering algorithm[J].IEEE Transactions onSystems Man and Cybernetics Part B-Cybernetics,2009,39(2):568-574.
3HALL L O,GOLDGOF D B.On convergence properties of the sin-glepass and online fuzzy c-means algorithm[C]//2010 IEEE Inter-national Conference on Fuzzy Systems,Washington,DC:IEEE,2010:1-3.
4AIOLLI F,SAN-MARTINO G,HAGENBUCHNER M,et al.Learning nonsparse kernels by self organizing maps for structured da-ta[J].IEEE Transactions on Neural Networks,2009,20(12):1938-1949.
5ZAMIR O,ETZIONI O.Web document clustering:A feasibilitydemonstration[C]//SIGIR'98:Proceedings of the 21st Interna-tional ACM SIGIR Conference on Research and Development in In-formation Retrieval.New York:ACM Press,1998:46-54.
6CHEN CHUNXI,BERTIL S.Parallel construction of large suffixtrees on a PC cluster[C]//Euro-Par 2005 Parallel Processing:11th International Euro-Par Conference.Berlin:Springer,2005:1227-1236.
7WANG JUNZE,MO YIJUN,HUANG BENXIONG,et al.Websearch results clustering based on a novel suffix tree structure[C]//Autonomic and Trusted Computing:5th International Conference.Berlin:Springer,2008:540-554.
8KOPIDAKI S,PAPADAKOS P,TZITZIKAS Y.STC+and NM-STC:two novel online results clustering methods for Web searching[C]//WISE 2009:10th International Conference.Berlin:Spring-er,2009:523-537.
9杜红斌,夏克文,刘南平,吴涛.一种改进的基于广义后缀树的文本聚类算法[J].信息与控制,2009,38(3):331-336. 被引量：7
10HAN WEN,GUO-SHUN HUANG,ZHAO LI.Clustering Websearch results using semantic information[C]//Proceedings of theEighth International Conference on Machine Learning and Cybernet-ics.Liverpool:World Academic Press,2009:1504-1509.

二级参考文献20

1张敏,马少平,宋睿华.DF还是IDF?主特征模型在Web信息检索中的使用[J].软件学报,2005,16(5):1012-1020. 被引量：13
2Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval[M].Boston,USA:Addison-Wesley Longman Publishing Company Inc.,1999.
3Eissen S M,Stein B,Potthast M.The suffix tree document model revisited[A].Proceedings of the 5th International Conference on Knowledge Management[C].Berlin,Germany:Springer-Verlag,2005.596～603.
4Zamir O,Etzioni O.Web document clustering:A feasibility demonstration[A].SIGIR Forum (ACM Special Ineterest Group on Information Retrieval)[C].New York,USA:ACM,1998.46～54.
5Ukkonen E.On-line construction of suffix trees[J].Algorithmica,1995,14(3):249～260.
6Gusfield D.Algorithms on Strings,Trees and Sequences:Computer Science and Computational Biology[M].Cambridge,UK:Cambridge University Press,1997.
7Karatzoglou A,Feinerer I.Text clustering with string kernels in R[A].Studies in Classification,Data Analysis,and Knowledge Organization[C].Berlin,Germany:Springer-Verlag,2007.91～98.
8Joaehims T.Learning to Classify Text Using Support Vector Machines:Methods,Theory and Algorithms[M].Norwell,MA,USA:Kluwer Academic Publishers,2002.
9Wang J H,Li R X.A new cluster merging algorithm of suffix tree ehistering[A].Proceedings of the 4th IFIP International Conference on Intelligent Information Processing[C].New York,USA:Springer,2007.197～203.
10FLORESCU D,LEVY A,MENDELZON A.Database techniques for the world-wide Web:Survey[J].SIGMOD Record,1998,27(3):59-74.

共引文献28

1李大字,钱丽,靳其兵,谭天伟.改进的全局K′-means算法及其在数据分类中的应用[J].信息与控制,2011,40(1):100-104. 被引量：6
2童波.Research on Extraction Method for Taxonomic Relation among Conceptions of Tea-science Field Ontology[J].Agricultural Science & Technology,2010,11(11):180-182.
3吴夙慧,成颖,郑彦宁,潘云涛.基于N元语法的英文学术文献聚类标签抽取算法[J].现代图书情报技术,2011(7):68-75. 被引量：5
4吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
5郑燕,鲁燃,赵爱华.基于反馈报道的话题模型动态修正方法[J].计算机应用,2012,32(5):1343-1346. 被引量：3
6王振宇,吴泽衡,唐远华.基于多向量和二次聚类的话题检测[J].计算机工程与设计,2012,33(8):3214-3218. 被引量：3
7廖浩伟,杨燕,贾真,尹红风.一种改进的基于树路径匹配的网页结构相似度算法[J].吉林大学学报（理学版）,2012,50(6):1199-1203. 被引量：8
8李忠俊.基于话题检测与聚类的内部舆情监测系统[J].计算机科学,2012,39(12):237-240. 被引量：8
9蒋程,张建武.利用广义后缀树的最大相似度优先聚类方法[J].中国科技信息,2013(3):89-91.
10贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4

同被引文献16

1王镝,王国仁,吴青泉,陈白尘,赵毅,毛克明.DNA序列中基于后继数组索引的LPR查找算法[J].计算机研究与发展,2006,43(z3):195-199. 被引量：4
2林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法[J].计算机工程,2004,30(12):126-127. 被引量：6
3马跃渊,徐勇勇.Gibbs抽样算法及软件设计的初步研究[J].计算机应用与软件,2005,22(2):124-126. 被引量：10
4崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
5胡吉祥,许洪波,刘悦,程学旗.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程,2007,33(2):65-67. 被引量：6
6高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
7高克宁,马安香,张斌,魏宏儒.基于重复模式的信息语义表示方法的研究[J].小型微型计算机系统,2009,30(1):26-30. 被引量：1
8刘小珠,彭智勇.全文索引技术时空效率分析[J].软件学报,2009,20(7):1768-1784. 被引量：17
9韩普,王泽.基于重复模式的论坛信息抽取研究[J].南京师范大学学报（工程技术版）,2010,10(3):74-77. 被引量：4
10张梦笑,王素格,王智强.基于LDA特征选择的文本聚类[J].电脑开发与应用,2012,25(1):1-5. 被引量：3

引证文献2

1木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1
2田亮,吐尔根.依布拉音,艾山.吾买尔,卡哈尔江.阿比的热西提.基于LDA的英汉维文本聚类系统的设计与实现[J].现代电子技术,2019,42(3):122-126. 被引量：2

二级引证文献3

1王玉兰.基于读者阅读偏好的数字资源智能聚类系统设计研究[J].现代电子技术,2021,44(8):154-158.
2柏志安,廖健,曾剑平.基于DOM树与模板的自适应网络信息抽取方法[J].计算机应用与软件,2022,39(8):15-20. 被引量：4
3薛俊杰.智慧教育英语线上课程资源聚类系统设计[J].信息技术,2024,48(2):138-142.

1冯冰洁,杨天奇.后缀树聚类算法在元搜索引擎中的应用[J].微计算机信息,2010,26(3):204-206. 被引量：5
2邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1
3邓峰,陈家琪.STC算法的网络服务分类技术研究[J].信息技术,2013,37(9):13-17.
4刘务华,罗铁坚,王文杰.文本聚类算法的质量评价[J].中国科学院研究生院学报,2006,23(5):640-646. 被引量：7
5杜红斌,夏克文,刘南平,吴涛.一种改进的基于广义后缀树的文本聚类算法[J].信息与控制,2009,38(3):331-336. 被引量：7
6刘务华,罗铁坚,王文杰.文本聚类技术的有效性验证[J].计算机工程,2007,33(1):209-211. 被引量：5
7刘亚明,马力,舒惠.基于后缀树的文本聚类算法[J].西安邮电学院学报,2012,17(1):62-66. 被引量：4
8刘文婷,滕奇志.后缀树聚类在专用搜索引擎中的应用研究与改进[J].成都信息工程学院学报,2010,25(3):269-274. 被引量：2
9付艳,杨冬青,唐世渭,伍伟,王腾蛟,高军.基于实体识别的在线主题检测方法[J].北京大学学报（自然科学版）,2009,45(2):227-232. 被引量：4
10阳小兰,钱程,赵海廷.一种基于Nutch的网页聚类系统的设计与实现[J].计算机工程与应用,2011,47(5):118-122. 被引量：3

计算机应用

2012年第4期

浏览历史

内容加载中请稍等...

面向维吾尔语文本的改进后缀树聚类被引量：2

参考文献14

二级参考文献20

共引文献28

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向维吾尔语文本的改进后缀树聚类 被引量：2

参考文献14

二级参考文献20

共引文献28

同被引文献16

引证文献2

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

面向维吾尔语文本的改进后缀树聚类被引量：2