基于主题的Web文档聚类研究被引量：31

Study on Topic-Based Web Clustering

下载PDF

导出

摘要网络资源的不断膨胀和新旧信息的迅速更迭 ,使传统的手工分检的方法难以适应对海量电子数据的管理需要。Web文档聚类可以快速地将文档进行自动归类 ,并能够发现新的信息资源。针对Web文档数据的复杂性 ,本文提出了通过二次特征提取和聚类的方法 ,将Web文档按照主题进行自动聚类。在主题特征被有效提取的同时 ,实现了较高质量的Web文档聚类。 With the ceaseless resource inflation and rapid change of information on Web, it has become difficult to manage vast e-data through traditional manual method. Web clustering can automatically classify documents and help us to discover new information. Considering the complexity of Web documents, we offer a method of feature re-select and document re-cluster and perform a good Web clustering.

作者孙学刚陈群秀马亮

机构地区智能技术与系统国家重点实验室清华大学计算机科学与技术系

出处《中文信息学报》 CSCD 北大核心 2003年第3期21-26,共6页 Journal of Chinese Information Processing

基金国家 8 63资助项目 ( 2 0 0 1AA1140 4 0 )

关键词计算机应用中文信息处理 WEB文档聚类 OPTICS算法特征提取 K近邻准则二次特征提取和聚类的方法 computer application Chinese information processing Web clustering OPTICS algorithm feature selection K-NN method of feature re-selection and re-cluster

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1韩客松,王永成,陈桂林.无词典高频字串快速提取和统计算法研究[J].中文信息学报,2001,15(2):23-30. 被引量：36
2M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96),1996.
3M. Ankerst, M. Breunig, H. -P. Kriegel, and J. Sander. OPTICS: Ordering points to identify the clustering structure. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD' 99),1999.
4Yang, Y., Pedersen, J.O. A Comparative Study on Feature Selection in Text Categorization. Proc. of the 14th International Conference on Machine Learning ICML97.
5Eui-Hong Han, George Karypis and Vipin Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification. Pacific-Asia Conference on Knowledge Diseovery and Data Minings, 2001.

二级参考文献5

1孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：88
2黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24
3张小衡,王玲玲.中文机构名称的识别与分析[J].中文信息学报,1997,11(4):21-32. 被引量：85
4刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14
5刘挺,吴岩,王开铸.串频统计和词形匹配相结合的汉语自动分词系统[J].中文信息学报,1998,12(1):17-25. 被引量：65

共引文献35

1黎铭,薛晓冰,周志华.基于多示例学习的中文Web目录页面推荐[J].软件学报,2004,15(9):1328-1335. 被引量：17
2吕学强,张乐,黄志丹,胡俊峰.基于散列技术的快速子串归并算法[J].复旦学报（自然科学版）,2004,43(5):948-951. 被引量：4
3陈炯,张永奎.一种基于词聚类的中文文本主题抽取方法[J].计算机应用,2005,25(4):754-756. 被引量：17
4邱立新.试析《鲁府禁方》中童便的应用[J].中国科技信息,2005(12):168-169.
5孙霞,郑庆华,王朝静,张素娟.一种基于生语料的领域词典生成方法[J].小型微型计算机系统,2005,26(6):1088-1092. 被引量：11
6李新安,石冰.基于决策树方法的特定主题Web搜索策略[J].计算机应用,2006,26(1):223-226. 被引量：3
7姜韶华,党延忠.基于长度递减与串频统计的文本切分算法[J].情报学报,2006,25(1):74-79. 被引量：14
8翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
9党延忠.基础研究学科发展的宏观知识挖掘[J].管理工程学报,2006,20(2):102-107. 被引量：3
10姜韶华,党延忠.无词典中英文混合术语抽取及算法研究[J].情报学报,2006,25(3):301-305. 被引量：2

同被引文献315

1刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005,45(S1):1783-1786. 被引量：11
2王滨华,石志刚.基于散列关键词的大规模网页去重算法[J].高性能计算技术,2004,0(5):35-38. 被引量：1
3YANGJian-wu.A Chinese Web Page Clustering Algorithm Based on the Suffix Tree[J].Wuhan University Journal of Natural Sciences,2004,9(5):817-822. 被引量：4
4张振跃,查宏远.Principal Manifolds and Nonlinear Dimensionality Reduction via Tangent Space Alignment[J].Journal of Shanghai University(English Edition),2004,8(4):406-424. 被引量：79
5刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
6邓晓刚,田学民.一种基于KPCA的非线性故障诊断方法[J].山东大学学报（工学版）,2005,35(3):103-106. 被引量：27
7陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
8郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
9刘春艳,宋辉,郝立柱.信息综合管理系统控制平台的构建[J].现代图书情报技术,2005(9):17-23. 被引量：4
10陈儒,张宇,刘挺.面向中文特定信息变异的过滤技术研究[J].高技术通讯,2005,15(9):7-12. 被引量：7

引证文献31

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364. 被引量：1
2李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
3王楠.基于聚类的全文检索系统后处理[J].情报杂志,2005,24(1):112-114. 被引量：4
4陈磊,王云华,陈世鸿.基于概念的教育资源元素材聚类方法研究[J].武汉大学学报（理学版）,2005,51(3):347-350. 被引量：7
5魏常丽,刘玉玲.搜索引擎结果去重Agent系统[J].内蒙古科技与经济,2006(02S):82-85.
6刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
7马张华,陈文广,金海燕,朱剑俊,崔会娟,刘贞君.基于控制词集的中文信息动态自动聚类研究[J].大学图书馆学报,2006,24(6):54-60. 被引量：4
8黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
9张选平,祝兴昌,马琮.一种基于边界识别的聚类算法[J].西安交通大学学报,2007,41(12):1387-1390. 被引量：6
10吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21

二级引证文献275

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李强,吴裕雄,古国照,陈锡林,陈晔.智能辅助诊疗平台设计与探索[J].医学信息学杂志,2019,40(11):32-35. 被引量：3
3李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
4徐朝军.基础教育资源目录系统的设计与实现[J].电化教育研究,2009,30(3):71-75. 被引量：3
5何忠育,王勇,王瑛,陈新,廖朝辉.基于分布式计算的网络舆情分析系统的设计[J].警察技术,2010(3):19-22. 被引量：6
6庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
7王斌,潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报,2005,19(5):1-10. 被引量：129
8邹娟,周经野,邓成,高南莎.特征词提取中同义处理的新方法[J].中文信息学报,2005,19(6):44-49. 被引量：10
9马丽萍.聚类检索述评[J].图书情报工作,2006,50(7):122-124. 被引量：4
10蔡代纯,谭新良.文本自动分类技术及其对图书馆学的影响[J].现代情报,2006,26(9):13-14. 被引量：4

1范宇,符红光,文奕.基于LDA模型的专利信息聚类技术[J].计算机应用,2013,33(A01):87-89. 被引量：22
2吕学伟,黄松,王晔.基于OPTICS算法的变异体约简技术[J].解放军理工大学学报（自然科学版）,2016,17(2):101-104. 被引量：1
3曾依灵,许洪波,白硕.改进的OPTICS算法及其在文本聚类中的应用[J].中文信息学报,2008,22(1):51-55. 被引量：29
4陈东晓,陈庆奎.基于密度优化的KNN算法的研究[J].上海理工大学学报,2010,32(5):507-510. 被引量：1
5段明秀,唐超琳.一种基于密度的聚类算法实现[J].吉首大学学报（自然科学版）,2013,34(1):26-27. 被引量：5
6冯玲,刘克剑,唐福喜,孟庆瑞.一种基于网格查询的改进DBSCAN算法[J].西华大学学报（自然科学版）,2016,35(5):25-29. 被引量：8
7赵飞军,贺兴时,王娟.一种改进的基于密度聚类的支持向量机[J].佳木斯大学学报（自然科学版）,2010,28(4):587-589. 被引量：1
8李琮,袁方,刘宇,李欣雨.基于LDA模型和T-OPTICS算法的中文新闻话题检测[J].河北大学学报（自然科学版）,2016,36(1):106-112. 被引量：3
9安建瑞,张龙波,王雷,金超,怀浩,王晓丹.一种基于网格与加权信息熵的OPTICS改进算法[J].计算机工程,2017,34(2):206-209. 被引量：11
10王品,黄焱.改进的OPTICS算法在调制识别中的应用[J].计算机工程与应用,2011,47(16):141-143. 被引量：1

中文信息学报

2003年第3期

浏览历史

内容加载中请稍等...

基于主题的Web文档聚类研究被引量：31

参考文献5

二级参考文献5

共引文献35

同被引文献315

引证文献31

二级引证文献275

相关作者

相关机构

相关主题

浏览历史

基于主题的Web文档聚类研究 被引量：31

参考文献5

二级参考文献5

共引文献35

同被引文献315

引证文献31

二级引证文献275

相关作者

相关机构

相关主题

浏览历史

基于主题的Web文档聚类研究被引量：31