结合类频率的关联中文文本分类被引量：12

Integrating Class Frequency Into Association Rules Based Chinese Text Categorization

下载PDF

导出

摘要该文提出一种词类频率和关联中文文本分类相结合的算法ARCTC。此算法将文档视作事务 ,关键词视作项 ,并针对文本事务的特性 ,提出利用词的类频率筛选与分类相关性不大的词汇 ,然后将改进的关联规则挖掘算法用于挖掘项和类别间的相关关系。挖掘出的规则用于形成类别特征词的集合 ,可用来和类标号未知文档的词的集合求交集 ,交集元素个数最多者即为所分类别。实验证明 ,该算法在提高训练时间和测试时间的同时具有较好的召回率、准确率和F Measure。 In this paper, a new algorithm that integrates class frequency into association rules based document classification is introduced into Chinese text categorization. This algorithm views each document as a transaction and each term as an item. The class frequency of a term is used to filter the words that are irrelevant to classification, and the mining algorithm of association rules is used to mine the correlation between item and category. Class character words sets are formed basing on the rules, and unlabeled documents are classified by intersecting with these sets. Experiments confirm that this method has a promising recall, precision rate and F-Measure while speeding up both training and test time.

作者钱铁云王元珍冯小年

机构地区华中科技大学计算机学院数据库与多媒体技术研究所中国电力财务有限公司华中分公司

出处《中文信息学报》 CSCD 北大核心 2004年第6期30-36,共7页 Journal of Chinese Information Processing

基金科技部科技电子政务系统关键技术及应用系统的研究资助 (2 0 0 1BA110B0 1)

关键词计算机应用中文信息处理基于关联的分类中文文本分类词类频率类别特征词集合 computer application Chinese information processing association based classification chinese text categorization term class frequency class character term set

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献7

1B. Liu, W. Hsu, and Y. Ma. Integrating Classification and Association Rule Mining [C]. KDD - 98, New York,1998.
2Wenmin Li, Jiawei Han, JianPei. CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules [C] .ICDM2001, Silicon Valley, Ca, Nov 2001:369- 376.
3Maria-Luiza Antonie, Osmar R. Zaiane. Text Document Categorization by Term Association [C]. In: Proc of the IEEE International Conference on Data Mining (ICDM 2002), Maebashi City, Japan: 19 - 26.
4Mohammed J. Zaki, Charu C. Aggarwal. XRules: An Effective Structural Classifier for XML Data [C]. The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD). Washington, DC,USA, 2003.
5Yiming Yang, Jan O. Pederson. A Comparative Study on Feature Selection in Text Categorization [C]. International Conference on Machine Learning, Nashville, TN, July 1997.
6https://securesite.chireader.com/Archive/stopwords.txt.
7http://www. in2in. com/download. htm.

同被引文献70

1苏贵洋,李建华,马颖华,李生红.用于中文色情文本过滤的近邻法构造算法[J].上海交通大学学报,2004,38(z1):76-79. 被引量：6
2王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
3闫禹.应用立方体工具计算频繁维谓词集的方法[J].沈阳师范大学学报（自然科学版）,2004,22(4):271-274. 被引量：4
4陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
5苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型[J].上海交通大学学报,2004,38(12):2030-2034. 被引量：22
6翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
7卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
8陈文亮,朱慕华,朱靖波,姚天顺.基于Bootstrapping的文本分类模型[J].中文信息学报,2005,19(2):86-92. 被引量：6
9赵姝,张燕平,张铃,张媛,陈传明.覆盖聚类算法[J].安徽大学学报（自然科学版）,2005,29(2):28-32. 被引量：13
10叶惠敏,唐三平.用于网上舆论观点抽取的几种方法[J].计算机应用研究,2005,22(5):256-257. 被引量：7

引证文献12

1洪子诚.“一体化”与“主旋律”——序《历史的浮桥——世纪之交“主旋律小说”研究》[J].海南师范学院学报（社会科学版）,2005,18(5):19-20.
2周瑛,刘政怡.覆盖算法在文本分类中的应用[J].情报理论与实践,2006,29(1):115-117. 被引量：7
3廖莎莎,江铭虎.中文文本分类中基于概念屏蔽层的特征提取方法[J].中文信息学报,2006,20(3):22-28. 被引量：12
4刘政怡,龚建成,吴建国.基于交叉覆盖算法的中文文本分类[J].计算机工程,2006,32(19):183-184. 被引量：8
5陈志雄,陈健,闵华清.基于信息增益的中文文本关联分类[J].中文信息学报,2007,21(3):61-68. 被引量：1
6李艳玲.BBS内容安全监管系统框架及其关键技术[J].中国电子科学研究院学报,2007,2(2):144-148. 被引量：1
7闵鹏鹏,郑诚,胡哲.基于商空间粒度的覆盖聚类算法的研究[J].计算机与现代化,2008(11):62-65. 被引量：1
8石正喜,张捍东,赵黎明,陈玉燕.一种改进的MM中文分词算法[J].计算机与网络,2009,35(2):48-50.
9李艳玲.基于内容的不良信息文本实时识别方法研究[J].计算机与信息技术,2007,0(5):30-32.
10李钝,曹元大,万月亮.基于关联规则的安全特色关键词提取研究[J].计算机工程与应用,2006,42(A01):105-107. 被引量：5

二级引证文献36

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2左晓飞,刘怀亮,范云杰,赵辉.基于概念语义场的文本聚类算法研究[J].情报杂志,2012,31(5):180-184. 被引量：2
3刘慧婷,倪志伟,李建洋,刘政怡.基于交叉覆盖算法的时间序列模式匹配[J].计算机应用,2007,27(2):425-427. 被引量：8
4熊回香,夏立新.汉语分词技术综述[J].图书情报工作,2008,52(4):81-84. 被引量：9
5刘海峰,王元元,张学仁,刘守生.文本分类中一种基于正交变换的特征降维方法[J].计算机科学,2008,35(5):125-126. 被引量：3
6孔庆苹,刘宗田,廖涛.基于概念获取的多文档主题划分研究[J].计算机科学,2008,35(5):131-133. 被引量：6
7蒋维,郝文宁,杨晓恝,靳大尉.分布式数据库搜索引擎的索引建立和优化[J].计算机工程,2008,34(18):36-38. 被引量：7
8周学广,张焕国.抗中文主动干扰的柔性中文串匹配算法[J].武汉大学学报（理学版）,2009,55(1):101-104. 被引量：4
9李家兵.中文文本分类特征选择的研究[J].皖西学院学报,2009,25(2):22-25. 被引量：1
10贾瑞玉,李永顺,李景成,冯伦阔.佳点集遗传覆盖算法[J].计算机工程,2009,35(24):196-198. 被引量：4

1王元珍,钱铁云,冯小年.基于关联规则挖掘的中文文本自动分类[J].小型微型计算机系统,2005,26(8):1380-1383. 被引量：13
2王亮.一种模糊加权软子空间聚类[J].科技致富向导,2011(11):65-66.
3张锴赫.基于校园网下的多媒体网络教室的构建[J].辽宁教育行政学院学报,2006,23(5):171-172.
4苏力华,朱章华,白文华,.基于向量空间模型的文本分类特征权重算法研究[J].电脑知识与技术（过刊）,2010,0(33):9327-9329. 被引量：4
5李明江.结合类词频的文本特征选择方法的研究[J].计算机应用研究,2014,31(7):2024-2026. 被引量：6
6谢勤岚.结合类可分性和遗传算法的核ICA特征选择[J].武汉理工大学学报（交通科学与工程版）,2009,33(4):772-775. 被引量：2
7王加龙,朱颢东.结合类别相关性和辨识集的特征选择方法[J].微型机与应用,2009,28(23):65-68.
8唐守忠,齐建东.一种结合关键词与共现词对的向量空间模型[J].计算机工程与科学,2014,36(5):971-976. 被引量：4
9栾晓军.PLC技术在加工控制中应用[J].科技视界,2012(14):186-187. 被引量：1
10金军.试论可编程序控制器（PLC）在电气控制中应用[J].大观周刊,2013(5):110-110. 被引量：4

中文信息学报

2004年第6期

浏览历史

内容加载中请稍等...

结合类频率的关联中文文本分类被引量：12

参考文献7

同被引文献70

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

结合类频率的关联中文文本分类 被引量：12

参考文献7

同被引文献70

引证文献12

二级引证文献36

相关作者

相关机构

相关主题

浏览历史

结合类频率的关联中文文本分类被引量：12