基于Rough集约简算法的中文文本自动分类系统被引量：8

Automatic Classification of Chinese Documents Based on Rough Set and Improved Quick-Reduce Algorithm

下载PDF

导出

摘要现有的文本自动分类离不开文档向量的构造,向量的分量与文档中的特征项相对应。这种向量通常高达几千维甚至数万维,计算量相当大,因此需要对向量进行约简。而传统的基于频率的阈值过滤法往往会导致有效信息的丢失,影响分类的准确度。该文将Rough集理论引入自动分类,并提出了一种新的文档向量约简算法。实验证明该算法不仅能有效缩减文档向量的规模,而且相比传统的阈值法信息损失小、准确率更高。 Much of the previous automatic Text Classification (TC) methods are closely connected with the construction of document vectors. With each term corresponding to a unit in the vector, this method maps the document vectors into a very high dimensional space, possibly of tens of thousands of dimension, which results in a massive amount of calculation. Since the traditional algorithms based on frequency and threshold filtering may often lead to the loss of effective information, this paper presents a new system for TC, which introduces rough set theory that can greatly reduce the document vector dimensions by reduction algorithm. The empirical results prove to be very successful, for it can not only effectively reduce the dimensional space, but also reach higher accuracy while losing less information compared with usual reduction methods.

作者盛晓炜江铭虎

机构地区清华大学中文系计算语言学实验室中国科学院自动化研究所模式识别国家重点实验室

出处《电子与信息学报》 EI CSCD 北大核心 2005年第7期1047-1052,共6页 Journal of Electronics & Information Technology

基金教育部优秀青年教师资助计划教育部归国人员启动基金模式识别国家重点实验室开放基金清华大学基础研究基金资助课题

关键词自动分类 ROUGH集决策表约简算法 Automatic classification, Rough set, Decision table, Reduction algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1Salton G, Wong A, Yang C S. A vector space model for automatic indexing. Communications of the ACM, 1975, 18(11): 613 - 620.
2Sebastiani F. Machine learning in automated text categorization.ACM Computing Surveys, 2002, 34(1):1-47.
3Riloff E, Lehnert W. Information extraction as a basis for high-precision text classification. ACM Trans on Information Systems, 1994, 12(3): 296 - 333.
4Zdzislaw Pawlak. Rough sets. International Journal of Computer and Information Sciences, 1982, 11(5): 341 -356.
5Zdzislaw Pawlak. Rough sets: Theoretical Aspects of Reasoning about Data. Dordrecht: Kluwer Academic Publishers, 1991:15 - 16, 69 - 80.
6Chouchoulas A, Shen Q. A rough set-based approach to text classification. In Proceedings of the 7th International Workshop on Rough Sets, Yamaguchi, Japan, November 1999:118 - 127.
7李滔,王俊普,徐杨.一种基于粗糙集的网页分类方法[J].小型微型计算机系统,2003,24(3):520-522. 被引量：19
8Maudal O. Preprocessing Data for Neural Network based Classifiers: Rough Sets vs. Principal Component Analysis.Project Report, Department of Artificial Intelligence, University of Edinburgh, 1996.
9Wong S K M, Ziarko W. On optimal decision rules in decision tables. Bulletin, Polish Academy of Sciences, 1985, 33(11/12):693-696.
10Skowron A, Rauszer C. The discernibility matrices and functions in information system. In Intelligent Decision Support Handbook of Applications and Advances of the Rough Sets Theory. Dordrecht: Kluwer Academic Publishers, 1992:331 - 362.

二级参考文献9

1王珏,苗夺谦,周育健.关于Rough Set理论与应用的综述[J].模式识别与人工智能,1996,9(4):337-344. 被引量：264
2刘清,黄兆华,姚力文.Rough集理论:现状与前景[J].计算机科学,1997,24(4):1-5. 被引量：34
3王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯.基于Rough Set理论的“数据浓缩”[J].计算机学报,1998,21(5):393-400. 被引量：239
4吴福保,李奇,宋文忠.基于粗集理论知识表达系统的一种归纳学习方法[J].控制与决策,1999,14(3):206-211. 被引量：52
5苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684. 被引量：513
6常犁云,263.net,王国胤,263.net,吴渝,263.net.一种基于Rough Set理论的属性约简及规则提取方法[J].软件学报,1999,10(11):1206-1211. 被引量：285
7刘清,刘少辉,郑非.Rough逻辑及其在数据约简中的应用[J].软件学报,2001,12(3):415-419. 被引量：54
8潘丹,郑启伦.属性约简自寻优算法[J].计算机研究与发展,2001,38(8):904-910. 被引量：30
9王珏,王驹,等.Reduction Algorithms Based on Discernibility Matrix:The Ordered Attributes Method[J].Journal of Computer Science & Technology,2001,16(6):489-504. 被引量：130

共引文献287

1廖毅强.基于严格划分的信息系统属性约简的完备算法[J].湛江师范学院学报,2007,28(6):60-64.
2崔巍,李凡,徐章艳.基于正区域的快速求核算法[J].华中科技大学学报（自然科学版）,2007,35(12):20-23. 被引量：6
3徐余法.粗糙集理论及应用[J].上海电机学院学报,2005,8(2):39-43. 被引量：9
4梁吉业,李超伟,魏巍.基于Rough Sets的特征选择研究进展[J].山西大学学报（自然科学版）,2012,35(2):211-218. 被引量：2
5王希雷,马永军,苏静.基于Rough集的数据挖掘中知识变化的研究[J].华中科技大学学报（自然科学版）,2012,40(S1):320-323.
6鄂旭,周津,侯建,张龙昌,毕嘉娜.一种新的不完备食品信息系统评价属性相对约简算法[J].集成技术,2013,2(3):10-14.
7杨明,倪魏伟,孙志挥.一种新颖的最小属性约简模型[J].东南大学学报（自然科学版）,2004,34(5):604-608. 被引量：1
8杨明,孙志挥.改进的差别矩阵及其求核方法[J].复旦学报（自然科学版）,2004,43(5):865-868. 被引量：71
9武志峰,吉根林.一种基于决策矩阵的属性约简及规则提取算法[J].计算机应用,2005,25(3):639-642. 被引量：21
10何明,冯博琴,马兆丰,傅向华.一种基于Rough集理论的属性约简启发式算法[J].小型微型计算机系统,2005,26(3):356-359. 被引量：13

同被引文献56

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2赵林,胡恬,黄萱菁,吴立德.基于知网的概念特征抽取方法[J].通信学报,2004,25(7):46-54. 被引量：17
3李善平,尹奇韡,胡玉杰,郭鸣,付相君.本体论研究综述[J].计算机研究与发展,2004,41(7):1041-1052. 被引量：279
4韩容洙.现代汉语的程度副词[J].汉语学习,2000(2):12-15. 被引量：40
5金允经,金昌吉.现代汉语转折连词组的同异研究[J].汉语学习,2001(2):34-40. 被引量：18
6卢娇丽,郑家恒.基于粗糙集的文本分类方法研究[J].中文信息学报,2005,19(2):66-70. 被引量：16
7吴健,吴朝晖,李莹,邓水光.基于本体论和词汇语义相似度的Web服务发现[J].计算机学报,2005,28(4):595-602. 被引量：217
8刘云峰,齐欢,Xiang’en Hu,Zhiqiang Cai.潜在语义分析权重计算的改进[J].中文信息学报,2005,19(6):64-69. 被引量：19
9陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
10朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：328

引证文献8

1代劲,胡峰,王国胤.基于不完备信息系统的文本分类研究与应用[J].重庆邮电学院学报（自然科学版）,2006,18(3):397-401.
2张桂芸,刘洋,王元元.基于模糊认知图的文本分类推理算法[J].计算机工程与应用,2007,43(12):155-158. 被引量：4
3张薇娟,张桂芸.基于模糊认知图的文本分类模型研究[J].天津科技,2007,34(4):50-52.
4周鑫,张化详.基于相似粗糙集和模糊认知图的文本分类研究[J].计算机工程与设计,2008,29(21):5537-5539. 被引量：4
5张颖,王文杰,史忠植.基于本体的文本分类方法[J].计算机仿真,2009,26(5):103-106. 被引量：5
6张志飞,苗夺谦.基于粗糙集的文本分类特征选择算法[J].智能系统学报,2009,4(5):453-457. 被引量：8
7王海,冯向前,钱钢.网页在线评论情感倾向的直觉模糊分类[J].计算机工程与应用,2013,49(1):148-151. 被引量：2
8徐鹏.基于直觉模糊推理的网页在线评论情感倾向分类[J].计算机应用与软件,2013,30(6):40-42. 被引量：3

二级引证文献25

1吴彬,罗钧旻.基于模糊认知图的资源描述框架(RDF)研究[J].微电子学与计算机,2009,26(3):42-44. 被引量：12
2彭珍,杨炳儒,刘春梅,唐志刚,杨珺.一种模糊认知图分类器的研究[J].计算机应用研究,2009,26(5):1757-1759. 被引量：6
3齐鹏,张俊,李冠宇.基于本体的垂直搜索引擎分类索引模型设计[J].计算机工程与设计,2010,31(23):4999-5003. 被引量：3
4郑伟,吕建新,张建伟.文本分类中特征预抽取方法研究[J].情报科学,2011,29(1):86-88. 被引量：5
5林珣,李志蜀,周勇.基于粗糙集理论的文本分类算法研究[J].计算机科学,2011,38(11):239-240. 被引量：7
6马楠,杨炳儒,邱正强,易璐璐.基于测度递进的模糊认知图及其应用[J].计算机工程与设计,2012,33(5):1958-1962. 被引量：2
7马楠,杨炳儒,翟云,李广原,张德政.一种模糊认知图分类器构造方法[J].北京科技大学学报,2012,34(5):590-595. 被引量：2
8韦婷婷,聂登国,王驹,蒋运承.基于领域本体的文本分类方法[J].计算机工程,2012,38(15):62-65. 被引量：2
9杨成东,邓廷权.综合属性选择和删除的属性约简方法[J].智能系统学报,2013,8(2):183-186.
10秦春秀,赵捧未,李东,孙蕾.对等网环境下基于树模型的对等节点的知识地图构建研究[J].情报学报,2013,32(7):686-696. 被引量：7

1翟林,刘亚军.支持向量机的中文文本分类研究[J].计算机与数字工程,2005,33(3):21-23. 被引量：14
2朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统[J].计算机工程,2001,27(2):15-17. 被引量：45
3李晓东,费树岷,张涛.基于奇异值特征和支持向量机的人脸识别[J].东南大学学报（自然科学版）,2008,38(6):981-985. 被引量：20
4于瑞萍,张明.中文文本自动分类中特征词选择算法研究[J].硅谷,2009,2(20). 被引量：1
5高浩,须文波,孙俊.一种优化高维函数的量子—粒子群算法[J].计算机应用,2007,27(12):2885-2887. 被引量：5
6王凯,周建国,夏德麟,晏蒲柳,董伟钛.基于支持向量机的中文文本自动分类研究[J].计算机应用研究,2005,22(11):61-63. 被引量：3
7朱颢东,李红婵.求解0-1背包问题的基于双禁忌对象的TS算法[J].微电子学与计算机,2011,28(5):148-151. 被引量：1
8都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究[J].计算机工程,2002,28(11):137-138. 被引量：25
9彭茂.一种求解TSP问题的改进禁忌搜索算法[J].计算技术与自动化,2012,31(1):78-81. 被引量：8
10吐尔洪江.阿布都克力木.基于自适应二进小波变换的人脸检测方法[J].计算机工程与应用,2010,46(18):149-151. 被引量：6

电子与信息学报

2005年第7期

浏览历史

内容加载中请稍等...

基于Rough集约简算法的中文文本自动分类系统被引量：8

参考文献12

二级参考文献9

共引文献287

同被引文献56

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Rough集约简算法的中文文本自动分类系统 被引量：8

参考文献12

二级参考文献9

共引文献287

同被引文献56

引证文献8

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

基于Rough集约简算法的中文文本自动分类系统被引量：8