中文短文本分类方法研究被引量：5

Research on Chinese Short Text Classification Method

下载PDF

导出

摘要区别于传统的基于词的中文短文本自动分类方法,以训练数据作为背景语料,利用关联规则挖掘算法挖掘训练集文本中的共现关系,创建特征共现集作为扩展词表。用特征共现集分别对训练文本和测试文本进行特征扩展建立短文本分类模型。实验表明,改进后的两种方法使短文本分类系统具有较高的精度。 Different from the conventional automatic classification method of Chinese short texts that based on word, makes the training data as background corpus and uses association rules mining algo- rithm mining ＂the co-occurrence relationship of training set text, creates the co-occurrence set of feature as extension vocabulary, and uses it making feature extension of training text and test text respectively, establishes a short text classification model. Experimental result shows that the two improved methods make short text classfication system with higher accuracy.

作者王细薇沈云琴

机构地区河南城建学院信息中心

出处《现代计算机》 2010年第7期28-31,共4页 Modern Computer

关键词短文本分类共现关系特征扩展 Short Text Classification Co-Occurrence Relationship Feature Extension

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

12008年第二次手机短信息状况调查报告[EB/OL].http://www.12321.cn/viewnews.php?id=10753.
2Healy,M Delany,S,Zamolotskikh,A.An Assessment of Case Base Reasoning for Short Text Message Classification[C].In:Norman Creaney (ed.) Proceedings of the 16th Irish Conference on Artificial Intelligence & Cognitive Science (AICS'05),257-266,2005.
3Zelikovitz,S,Marquez,F.Transductive Learning for Short-Text Classification Problems using Latent Semantic Indexing[J].International Journal of Pattern Recognition and Artificial Intelligence,Vol.19(2),143-163,2005.
4Zelikovitz,S.Transductive LSI for Short Text Classification Problems[C].In:Proceedings of the 17th International Flairs Conference,556-561,2004.
5Han Jia-wei,Pei Jian,Yin Yi-wen.Minning Frequent Patterns Without Candidate Generation[C].In:Chen Wei-dong,Jeffrey F M,Philip A B.Proceedings of the 2000 ACM Sigmod Internal Conference on Management of Data.Dallas,Texas:ACM Press,2000.1-12.
6王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
7中文停用词表[EB/OL].http://download.csdn.net/source.

二级参考文献12

1Agrawal R, Srikant R. Fast algorithm for mining association rules in large databases [C]. In: Research Report RJ9839.IBM Almaden Research Center. San Jose. Ca, June 1994: 1-32.
2Liu Bing. Integrating classification and association rule mining[J]. KDD-98, 1998.
3Li Wen-rain, Han Jia-wei,Pei Jian. CMAR: Accurate and efficient classification based on multiple class-association rules[C]. ICDM2001:369-376.
4Osmar R Zaiane, Maria-Luiza Antonie. Classifying text document by association terms with text categories [C]. The Thirteenth Australssian Database Conference (ADC2002), Melbourne, Australia : 215-222.
5黄萱菁,吴立德,石崎洋之,徐国伟.独立于语种的文本分类方法[J].中文信息学报,2000,14(6):1-7. 被引量：53
6朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
7李辉,史忠植,许卓群.运用文本领域的常识改善基于支撑向量机的文本分类器性能[J].中文信息学报,2002,16(2):7-13. 被引量：16
8解冲锋,李星.基于序列的文本自动分类算法[J].软件学报,2002,13(4):783-789. 被引量：35
9刘少辉,董明楷,张海俊,李蓉,史忠植.一种基于向量空间模型的多层次文本分类方法[J].中文信息学报,2002,16(3):8-14. 被引量：75
10刘斌,黄铁军,程军,高文.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002,16(6):18-24. 被引量：48

共引文献12

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2钱铁云,王元珍,冯小年.利用prefix-hash-tree实现从中文文本到事务数据的转换[J].计算机科学,2005,32(5):167-169.
3张玉芳,杨柯,熊忠阳.基于关联规则的中文文本分类算法的改进[J].郑州大学学报（理学版）,2007,39(2):114-117. 被引量：6
4武园园,宋余庆,朱玉全.基于关联规则的医学图像分类算法[J].计算机工程与设计,2008,29(12):3234-3236. 被引量：1
5郭玉琴,袁方,刘海博.Text categorization based on fuzzy classification rules tree[J].Journal of Southeast University(English Edition),2008,24(3):339-342. 被引量：2
6兰均,施化吉,李星毅,徐敏.基于特征词复合权重的关联网页分类[J].计算机科学,2011,38(3):187-190. 被引量：12
7范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
8王东,熊世桓,向程冠,靳宁.基于频繁2-项集的贝叶斯分类器[J].兰州理工大学学报,2013,39(4):99-104. 被引量：2
9于然,刘春阳,靳小龙,王元卓,程学旗.基于多视角特征融合的中文垃圾微博过滤[J].山东大学学报（理学版）,2013,48(11):53-58. 被引量：7
10肖宝,李璞,曲艺,胡文君.基于语义相关度和频繁项集挖掘的文本分类[J].钦州学院学报,2017,32(5):27-33.

同被引文献52

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
3郑海清,林琛,牛军钰.一种基于紧密度的半监督文本分类方法[J].中文信息学报,2007,21(3):54-60. 被引量：11
4Metaler D, I)umais S C, Meek C. Similarity Measures for Short Segments of Text[ C ]. In : Proceedings of the 29th European Con- ference on Information Retrieval. Berlin : Springer - Verlag, 2007.
5Sahami M, Heilman T D. A Web -based Kernel Function for Measuring the Similarity of Short Text Snippets [ C ]. In : Proceed- ings of the 15th International World Wide Web Conference Committee (1W3C2) , Edinburgh, Scotland. New York: ACM Press, 2006: 377 - 386.
6Hynek J, Jezek K, Rohlik O. Short Document Categorization - Itemsets Method[ C ]. In : Proceedings of the 4th European Confer- ence on Principles and Practice of Knowledge Discovery in Databas- es, Workshop Machine Learning and Textual luformation Access, Lyon, France. 2000 : 14 - 19.
7Zelikovitz S, Transductive M F. Learning for Short - Text Classifi- cation Problem Using Latent Semantic Indexing Intematiotaal [ J ]. Journal of Pattern Recognition and Artificial Intelligence, 2005, 19 (2) :143 - 163.
8Wang P, Domeniconi C. Building Semantic Kernels for Text Classi- fication Using Wikipedia [ C ]. In: Proceedings of the 14th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Las Vegas, Nevada,USA. ACM :New York ,2008:713 - 721.
9Wikipedia[ EB/OL]. [2011 - 12 - 08 ]. http://zh, wikipedia. org.
10I ; Saltort G, McGillM J. Introduction to Modern Information Retrieval [M]. New York, NY, USA:McGraw Hill, 1983.

引证文献5

1范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
2王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
3张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
4赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
5刘海静.基于ESA的文本分类算法研究[J].洛阳师范学院学报,2016,35(2):68-71.

二级引证文献53

1胡云青,邱清盈,余秀,武建伟.基于改进三体训练法的半监督专利文本分类方法[J].浙江大学学报（工学版）,2020,54(2):331-339. 被引量：10
2张倩,刘怀亮.一种基于半监督学习的短文本分类方法[J].现代图书情报技术,2013(2):30-35. 被引量：6
3赵辉,刘怀亮.一种基于维基百科的中文短文本分类算法[J].图书情报工作,2013,57(11):120-124. 被引量：16
4马雯雯,邓一贵.新的短文本特征权重计算方法[J].计算机应用,2013,33(8):2280-2282. 被引量：8
5赵辉,刘怀亮.面向用户生成内容的短文本聚类算法研究[J].现代图书情报技术,2013(9):88-92. 被引量：6
6赵辉,刘怀亮.面向社区问答的中文短文本分类算法研究[J].现代情报,2013,33(10):70-74. 被引量：4
7范云杰,刘怀亮,左晓飞,赵辉.社区问答中基于维基百科的问题分类方法[J].情报科学,2014,32(10):56-60. 被引量：3
8李华康,孙国梓,胥备,徐向阳,夏春蓉.一种基于知识网络血缘关系的网页分类方法[J].江苏科技大学学报（自然科学版）,2014,28(4):380-386.
9李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
10曹逸峰,陈晓伟.基于知识分层提取模型的服务台知识库建设[J].计算机系统应用,2015,24(2):261-265. 被引量：3

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2王细薇,张凯.一种改进的基于共现关系的短文本特征扩展算法研究[J].河南城建学院学报,2012,21(4):48-50. 被引量：4
3樊兴华,王鹏.基于两步策略的中文短文本分类研究[J].大连海事大学学报,2008,34(3):121-124. 被引量：7
4郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].电脑知识与技术,2014(5):3182-3185. 被引量：3
5李慧宗,胡学钢.基于MapReduce的社会化标签共现关系抽取方法[J].小型微型计算机系统,2013,34(11):2456-2460. 被引量：1
6马宇峰,阮彤.基于LDA及标签传播的实体集合扩展[J].山东大学学报（理学版）,2015,50(3):20-27. 被引量：1
7古平,朱庆生,何希平,李云峰.基于关联特征扩展的特征选择算法[J].计算机工程,2007,33(16):150-152.
8杨启悦,余正涛,洪旭东,高盛祥,汤智文.基于维基百科的汉越词语相似度计算[J].南京理工大学学报,2016,40(4):461-466. 被引量：1
9刘海旭,郑岩.基于语义的标签关联算法[J].软件,2012,33(12):136-138. 被引量：1
10王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38

现代计算机

2010年第7期

浏览历史

内容加载中请稍等...

中文短文本分类方法研究被引量：5

参考文献7

二级参考文献12

共引文献12

同被引文献52

引证文献5

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中文短文本分类方法研究 被引量：5

参考文献7

二级参考文献12

共引文献12

同被引文献52

引证文献5

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

中文短文本分类方法研究被引量：5