多层次web文本分类被引量：12

Multi-hierarchial Classification of Web Text

下载PDF

导出

摘要传统的文本分类大多基于向量空间,分类体系为甲面体系,忽视了类别间的层次关系.根据LSA理论提出了一种多层次web文本分类方法.建立类模型时,根据类别的层次关系树由下到上逐层为具有相同父节点的类别建立一个类模型;分类时,由上到下,根据相应的类模型存LS空间上分类.这种分类方法解决了LSA模型中高维矩阵难以进行奇异值分解的问题.同时体现了web文本中词条的语义关系,注重了词条在网页中的表现形式.实验表明,多层次web文本分类方法比基于平面分类体系的分类方法在查全率和准确率方面要好. The traditional text classifications are mostly based on the vectorial space, and the structure of classification is flat structure. These methods ignore the structural relationships among the categories. This text put forward a kind of multi-hierarchy web text classification according to LSA theory. This method set up a classifier for nodes that have the same father node from leaves to root according to classification tree. And it classifies a new web text according to the corresponding classifier in LS space from root to leaves. This method solved a flaw of LSA model. This flaw is that it is difficult to execute singular value decomposition for a large sparse matrix. This method not only reflects the semantic relationships of the terms in web text but also pays attention to the expressive form of terms in the webpage. Experiments show such multi-hierarchy web text classification method is more accurate than some methods which based on fiat structure.

作者凌云刘军王勋

机构地区浙江工商大学计算机与信息工程学院

出处《情报学报》 CSSCI 北大核心 2005年第6期684-689,共6页 Journal of the China Society for Scientific and Technical Information

基金浙江省自然科学基金

关键词文本分类网页净化 LSA LS空间 text classification, pape cleaning, LSA, LS space.

分类号 G254.11 [文化科学—图书馆学] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1Dumais ST, et al. Using latent semantic analysis to improve information retrieval. CHT$8 Proceedings, 1988,281-285.
2S. Dumains, H. Chen. Hierarchical Classification of Web Content. Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval,2000, 256 - 263.
3S.D. Alessio, K. Murray, R. Schiaffino, A. Kershenbaum. The Effect of Using Hierarchical Classifiers in Text Categorization.Proceeding of RIAO-OO, 6th International Conference "Recherche d'Information Assistee par Ordinateur", 2000,302-313.
4Chen, J., Zhou, B., Shi, J., Zhang, H.-J., Qiu, F. Function-Based Object Model Towards Website Adaptation. Procrrdings of the 10th World Wide Web conference,2001,587-596.
5Kovaceivic, M., Diligenti, M., Gori, M., Milutinovic, V..Recognition of Common Areas in a Web Page Using Visual Information: a possible application in a page classification.Proceedings of 2002 IEEE International Conference on Data Mining( ICDM'02), 2002,250.
6Yu, S. , Cai, D. , Wen, J.-R., Ma, W.-Y.. Improving Pseudo-Relevance Feedback in Web Information retrieval Using Web Page Segmentation. Proceedings of twelfth World Wide Web Conference( WWW 2003 ), 2003,11 - 18.
7Lan Yi, Bing Liu, Xiaoli Li. Eliminating Noisy Information in Web Pages for Data Ming. Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, 2003,296 - 305.
8Burges CJC. A tutorial on support vector machines for pattern recognition. Knowledge Discovery and Data Mining, 1998,2(2):955 - 974.
9Lewis D D et al. Training algorithms for linear text classifiers. In Proceedings of the Nineteenth International ACM SIGIR Conference on Research and Development in Information Retrieval, 1996, 298 - 306.
10Aixin Sun, Ee-Peng Lim, Wee-Keong Ng, Jaideep Srivastava.Blocking Reduction Strategies in Hierarchical Text Classification. IEEE Transactions on Knowledge and Data Engineering,2004,10(16).

同被引文献211

1何昕,谢志鹏.基于简单树匹配算法的Web页面结构相似性度量[J].计算机研究与发展,2007,44(z3):1-6. 被引量：15
2贝雨馨,崔荣一.文本分类中特征项权重的计算方法[J].延边大学学报（自然科学版）,2004,30(3):202-204. 被引量：9
3王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
4赵心,蔡智,洪流,蔡庆生.一种基于关联规则的中文概念集生成算法[J].计算机科学,2004,31(7):175-177. 被引量：5
5袁时金,李荣陆,周水庚,胡运发.层次化中文文档分类[J].通信学报,2004,25(11):55-63. 被引量：6
6李楠,孙济庆.支持语义检索的知识检索模型[J].情报学报,2005,24(6):708-712. 被引量：12
7高波,赵政.文本层次分类系统的研究[J].计算机工程与应用,2006,42(11):176-178. 被引量：5
8肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究[J].计算机应用,2006,26(5):1125-1126. 被引量：12
9潘有能.XML文档自动聚类研究[J].情报学报,2006,25(2):215-220. 被引量：16
10刘军,凌云,王勋.基于Ontology的面向主题的网络信息采集算法[J].图书情报工作,2006,50(5):78-82. 被引量：6

引证文献12

1刘军.基于支持向量机的网页主题信息提取算法[J].电脑知识与技术（过刊）,2007(2):451-452.
2周炎涛,唐剑波,吴正国.基于向量空间模型的多主题Web文本分类方法[J].计算机应用研究,2008,25(1):142-144. 被引量：14
3王序臻.Web文本层次分类方法研究[J].温州职业技术学院学报,2008,8(3):44-47.
4吴春颖,王士同,杨林波.一种结合层次结构和KNN的Web文本分类方法[J].小型微型计算机系统,2009,30(8):1555-1560. 被引量：2
5易明,肖景,操玉杰.基于Web文本关联规则挖掘的个性化信息推荐研究[J].情报科学,2009,27(12):1876-1879. 被引量：2
6蔡皎洁,张玉峰.Web环境下基于用户兴趣本体学习的文本过滤研究[J].情报杂志,2010,29(7):153-156. 被引量：3
7陈东晓,陈庆奎.基于密度优化的KNN算法的研究[J].上海理工大学学报,2010,32(5):507-510. 被引量：1
8张玉峰,蔡皎洁.基于Web挖掘技术的用户兴趣本体学习研究[J].情报学报,2011,30(4):380-386. 被引量：10
9李学静,杨家权,庞歆.基于用户兴趣模型的高校新闻网信息推送模式研究[J].科技情报开发与经济,2011,21(21):123-125.
10何力,贾焰,韩伟红,谭霜,陈志坤.大规模层次分类问题研究及其进展[J].计算机学报,2012,35(10):2101-2115. 被引量：14

二级引证文献51

1陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：27
2赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
3胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
4刘翔,施干卫,丁祖荣.论文相似度的计算研究——基于VSM模型[J].情报杂志,2010,29(2):142-144. 被引量：7
5罗俊.一种基于图的层次多标记文本分类方法[J].计算机应用研究,2010,27(3):909-912. 被引量：1
6陈洪平,方巍,黄黎,崔志明.基于主题概念实现对购物网站的自动主题分类[J].计算机应用与软件,2010,27(9):9-10.
7宋华.本体向量文献检索模型研究[J].情报探索,2010(11):3-5. 被引量：1
8崔彩霞.基于字特征的短信分类方法研究[J].太原师范学院学报（自然科学版）,2011,10(1):103-105. 被引量：2
9蔡华利,刘鲁,王理.突发事件Web新闻多层次自动分类方法[J].北京工业大学学报,2011,37(6):947-954. 被引量：6
10黄炜.企业级信息检索引擎的设计与实现[J].计算机与现代化,2011(6):203-206.

1白芳妮,李磊,魏生民.装配序列生成中装配信息的表示方法研究[J].中国机械工程,2002,13(14):1209-1211. 被引量：6
2黄修武,郭跃飞,杨静宇.基于代数方法的图像特征抽取和识别[J].南京理工大学学报,1998,22(1):1-5. 被引量：13
3薛燕波.WEB文本分类技术在企业竞争情报分析中的应用[J].情报科学,2004,22(3):378-380. 被引量：8
4董怀武,肖金生,汤一泉.数据高维矩阵结构在几何造型中的应用[J].武汉造船,2000(5):34-38. 被引量：1
5马少华.辨识评论语句间的层次关系[J].新闻与写作,2011(12):58-59. 被引量：1
6赵明华,游志胜,吕学斌,余静,穆万军.采用改进的LSA模型进行人脸识别[J].计算机应用研究,2005,22(10):173-174. 被引量：1
7刘君,黄燕琪,熊邦书.融合核主成分分析和最小距离鉴别投影的人脸识别算法[J].计算机工程,2016,42(4):221-225. 被引量：8
8欧建林,林茜,史晓东.潜在语义分析在连续语音识别中的应用[J].计算机工程与应用,2009,45(32):111-113.
9刘忠宝,赵文娟.基于互信息的不平衡Web文本分类方法研究[J].情报科学,2015,33(10):23-26. 被引量：1
10高淑琴.Web文本分类技术研究现状述评[J].图书情报知识,2008,25(3):81-86. 被引量：7

情报学报

2005年第6期

浏览历史

内容加载中请稍等...

多层次web文本分类被引量：12

参考文献11

同被引文献211

引证文献12

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

多层次web文本分类 被引量：12

参考文献11

同被引文献211

引证文献12

二级引证文献51

相关作者

相关机构

相关主题

浏览历史

多层次web文本分类被引量：12