A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量：4

A Chinese Web Page Clustering Algorithm Based on the Suffix Tree

下载PDF

导出

摘要 In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining. In this paper, an improved algorithm, named STC-I, is proposed for Chinese Web page clustering based on Chinese language characteristics, which adopts a new unit choice principle and a novel suffix tree construction policy. The experimental results show that the new algorithm keeps advantages of STC, and is better than STC in precision and speed when they are used to cluster Chinese Web page. Key words clustering - suffix tree - Web mining CLC number TP 311 Foundation item: Supported by the National Information Industry Development Foundation of ChinaBiography: YANG Jian-wu (1973-), male, Ph. D, research direction: information retrieval and text mining.

作者 YANGJian-wu

机构地区 NationalKeyLaboratoryforTextProcessing

出处《Wuhan University Journal of Natural Sciences》 EI CAS 2004年第5期817-822,共6页 武汉大学学报（自然科学英文版）

基金 theNationalInformationIndustryDevelopmentFoundationofChina

关键词 CLUSTERING suffix tree Web mining clustering suffix tree Web mining

分类号 TP393.0 [自动化与计算机技术—计算机应用技术] TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

同被引文献25

1王咏,申瑞民.采用构造后缀树方法的在线挖掘浏览模式[J].计算机工程,2004,30(19):126-128. 被引量：3
2刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
3郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
4傅鹏,张德运,陈海诠,董皓.基于后缀树词序列核挖掘Web文档[J].微电子学与计算机,2005,22(12):4-7. 被引量：2
5刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
6史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
7邹小筑,缪红梅.信息检索技术在网络数据库中的应用研究[J].图书情报工作,2007,51(2):104-106. 被引量：2
8赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：24
9刘菁菁,林鸿飞,赵晶.基于PageRank和锚文本的网页排序研究[J].计算机工程与应用,2007,43(10):170-173. 被引量：6
10Wang Junze, Mo Yijun, Huang Benxiong, et al. Web Search Results Clustering Based on a Novel Suffix Tree Structure [ M ] . Springer Berlin Press, 2008.

引证文献4

1吴江宁,王治江.一种基于后缀树的Web搜索结果聚类方法[J].情报学报,2010,29(1):78-83. 被引量：5
2高镔.聚类在网络信息检索中的辅助作用[J].信息技术,2010,34(4):145-147. 被引量：1
3蒋程,张建武.利用广义后缀树的最大相似度优先聚类方法[J].中国科技信息,2013(3):89-91.
4邹志华,田生伟,禹龙,冯冠军.改进的维吾尔语Web文本后缀树聚类[J].中文信息学报,2013,27(2):118-126. 被引量：1

二级引证文献7

1庞观松,蒋盛益,张黎莎,区雄发,赖旭明.Web搜索结果多层聚类方法研究[J].情报学报,2011,30(5):464-470. 被引量：1
2庞观松,张黎莎,蒋盛益.个性化跨语言学术搜索技术研究[J].情报学报,2011,30(8):870-874. 被引量：4
3龚立,黄波,刘忠.大规模作战仿真数据存储模型研究[J].计算机与数字工程,2012,40(2):52-55. 被引量：8
4李洁,陈围,谭立地.基于聚类技术的学科信息检索服务[J].江西科学,2012,30(3):396-399.
5骆绍烨.一种基于用户兴趣的STC改进算法[J].江南大学学报（自然科学版）,2015,14(1):85-89.
6王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
7董亚则,李万龙,李航,郑山红.改进的基于后缀树的Web搜索结果聚类算法[J].吉林大学学报（信息科学版）,2016,34(4):543-549.

1贝加莱隆重推出三款I/O体验包[J].现代制造,2008(15):16-16.
2时迎超,王会珍,肖桐,胡明涵.面向人名消歧任务的人名识别系统[J].中文信息学报,2011,25(3):17-22. 被引量：4
3殷波,蒋华,刘新平.关于重复词句提取的两种算法分析——基于Suffix Tree和重复序列两种算法的实验结果比较[J].内蒙古科技与经济,2009(1):73-77.
4包小源,宋再生,唐世渭,杨冬青,王腾蛟.SuffIndex——一种基于后缀树的XML索引结构[J].计算机研究与发展,2004,41(10):1793-1801. 被引量：7
5江宝林,张川,申展,葛家翔,胡运发.基于互关联后继树的Web日志挖掘技术[J].计算机应用与软件,2004,21(5):9-11. 被引量：2
6OPEN MIND为客户提供更全面的信息平台[J].现代制造,2009(36):19-19.
7董天石,王悦,陈玉泉.ENERGY CALCULUSIN CHINESE LANGUAGE SEGMENTATION[J].Journal of Shanghai Jiaotong university(Science),2000,5(2):70-73.
8Oversky.井水不犯河水，多系统也可互不干扰[J].电脑爱好者,2008,0(10):36-37.
9秦岭,阚树林.基于多Agent粒子群改进算法的车间调度[J].价值工程,2013,32(23):58-60.
10Jianming ZHU,Xiaodong HU.IMPROVED ALGORITHM FOR MINIMUM DATA AGGREGATION TIME PROBLEM IN WIRELESS SENSOR NETWORKS[J].Journal of Systems Science & Complexity,2008,21(4):626-636. 被引量：2

Wuhan University Journal of Natural Sciences

2004年第5期

浏览历史

内容加载中请稍等...

A Chinese Web Page Clustering Algorithm Based on the Suffix Tree 被引量：4

同被引文献25

引证文献4

二级引证文献7

相关作者

相关机构

相关主题

浏览历史