结合语言模型的自动文本分类的应用研究

Application Study of Automatic Text Classification Combined with Language Model

下载PDF

导出

摘要研究统计语言模型中bigram模型在自动文本分类中的应用,针对传统的向量空间模型在计算文本相似度时假设特征项相互独立的缺点,提出一种利用词对及词序信息来改善文本分类结果的方法。实验结果表明该方法是可行且有效的。 Tiffs paper studies the application of bigram model from statistical language model in the automatic text classification. Referring to the shortcoming of the hypothesis that the terms are independent from each other in VSM （Vector Space Model）, it puts forward a method to improve the result of text classification with mutual words＇ information and sequence. The experiment shows that the method is feasible and efficient.

作者赵敏涯

机构地区苏州市职业大学计算机工程系

出处《计算机与现代化》 2010年第3期141-143,共3页 Computer and Modernization

关键词统计语言模型文本分类平滑 bigram statistical language model text classification smoothing bigram

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献15

1孙丽华,张积东,李静梅.一种改进的kNN方法及其在文本分类中的应用[J].应用科技,2002,29(2):25-27. 被引量：36
2Joaehims T. A probabilistic analysis of the Roeehio algorithm with TFIDF for text categorization [ C ]//Proceedings of the Fourteenth International Conference on Machine Learning. 1997 : 143-151.
3Mladenic D. Machine Learning on Non-homogeneous, Distributed Text Data Mining[ D ]. Doctoral Dissertation:University of Ljubljana, 1998.
4Rosenfeld R. A maximum entropy to adaptive statistical language learning[ J ]. Computer Speech and Language, 1996, 10( 3 ) : 187-228.
5徐望,王炳锡.N-gram语言模型中的插值平滑技术研究[J].信息工程大学学报,2002,3(4):13-15. 被引量：13
6Yang Y,Pederson J O. A comparative study on feature selection in text categorization [ C]//Proceedings of the Fourteenth International Conference on Machine Learning. 1997,412-420.
7Woosung Kim, Sanjeev Khudanpur. Smoothing issues in the structured language model [ C]//Proc. 7th European Conf on Speech Communication and Technology. 2001:717-720.
8Kneser R, Ney H. hnproved backing-off for m-gram language modeling[ C]//Proc. ICASSP'95. 1995:181-184.
9Stanley F. Chen, Joshua Goodman. An empirical study of smoothing techniques for language modeling[ C ]//Proceedings of tile 34th Annual Meeting on Association for Computational Linguistics. 1998 : 310-318.
10张敬芝,高强,耿桦,潘金贵.统计自然语言处理中的线性插值平滑技术[J].计算机科学,2007,34(6):223-225. 被引量：5

二级参考文献76

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2周新栋,王挺.基于N元语言模型的文本分类方法[J].计算机应用,2005,25(1):11-13. 被引量：11
3王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量：5
4周强.基于语料库和面向统计学的自然语言处理技术[J].计算机科学,1995,22(4):36-40. 被引量：26
5代六玲,黄河燕,陈肇雄.一种文本分类的在线SVM学习算法[J].中文信息学报,2005,19(5):11-15. 被引量：13
6刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14
7刘华.基于文本分类中特征提取的领域词语聚类[J].语言文字应用,2007(1):139-144. 被引量：23
8陈彬,洪家荣,王亚东.最优特征子集选择问题[J].计算机学报,1997,20(2):133-138. 被引量：96
9Vapnik V. The Nature of Statistical Learning Theory. New York: Springer-Verlag, 1995
10Cortes C,Vapnik V. Support Vector Networks. Machine Learning,1995,20

共引文献105

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2李学勇,高国红,孙甲霞.基于互信息和K-means聚类的信息安全风险评估[J].河南师范大学学报（自然科学版）,2011,39(2):152-155.
3常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
4李莹,张晓辉,王华勇,常桂然.一种应用向量聚合技术的KNN中文文本分类方法[J].小型微型计算机系统,2004,25(6):993-996. 被引量：13
5张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量：1
6张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
7王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
8何峰,林亚丽.改进的KNN文本分类算法综述[J].福建电脑,2005,21(1):4-5. 被引量：1
9黄永文,何中市.基于互信息的统计语言模型平滑技术[J].中文信息学报,2005,19(4):46-51. 被引量：8
10黄永文,何中市.基于全局折扣的统计语言模型平滑技术[J].重庆大学学报（自然科学版）,2005,28(8):51-55. 被引量：3

1王笑旻.基于Bigram的特征词抽取及自动分类方法研究[J].计算机工程与应用,2005,41(22):177-179. 被引量：5
2赵敏涯,沈洁,陈志敏,林颖.一种新的自动文本分类的算法[J].扬州大学学报（自然科学版）,2006,9(1):62-65. 被引量：1
32010年7月浏览器市场占有率报告出炉[J].网络与信息,2010,24(9):6-6.
4许建华,张学工,李衍达.支持向量机的新发展[J].控制与决策,2004,19(5):481-484. 被引量：132
5阿力木江.艾沙,库尔班.吾布力,吐尔根.依布拉音.维吾尔文Bigram文本特征提取[J].计算机工程与应用,2015,51(3):216-221. 被引量：3
6孙瑞漪.一种基于Bigram的计算机对联系统的研究和设计[J].大众科技,2009,11(4):50-51.
7崔玉红,胡光锐.结合主题依存特征和Bigram的汉语语言建模方法[J].上海交通大学学报,2002,36(6):897-900.
8李元祥,丁晓青,吴佑寿.一种基于字词结合的汉字识别上下文处理新方法[J].计算机研究与发展,2002,39(7):838-842.
9胡熠,陆汝占,李学宁,段建勇,陈玉泉.基于语言建模的文本情感分类研究[J].计算机研究与发展,2007,44(9):1469-1475. 被引量：23
10高升,吴鹏,尤少伟.基于本体的产品设计知识表示综述[J].情报杂志,2011,30(11):156-161. 被引量：6

计算机与现代化

2010年第3期

浏览历史

内容加载中请稍等...

结合语言模型的自动文本分类的应用研究

参考文献15

二级参考文献76

共引文献105

相关作者

相关机构

相关主题

浏览历史