基于最小类差异的无关信息预处理算法被引量：11

An Irrelevant Information Preprocess Based on the Minimal Class Difference

下载PDF

导出

摘要为了降低无关信息对文本分类精度的影响 ,提出了基于最小类差异的预处理算法 .算法通过分析文本特征在类中的分布情况 ,将特征划分为三种类型 ,按照特征在各类间的分布差异 ,保留对分类有作用的单类特征与多类特征 ,而将类分布差异较小的一般特征进行过滤 .实验结果表明 ,采用新算法进行分类预处理所得到的分类精度明显优于信息增益、互信息量等预处理算法 . An irrelevant feature preprocess based on the minimal class difference is proposed.It computes the class distribution difference of features according to their distribution,then divides the features into three types.The new preprocess keeps the features including single-class features and multi-class features which make for classification,and filters the general features with little use for classification.The experimental results show that better performance can be obtained using the new algorithm than using those algorithms such as information gain,mutual information,and cross entropy.

作者陈治平林亚平彭雅王雷童调生

机构地区湖南大学计算机与通信学院

出处《电子学报》 EI CAS CSCD 北大核心 2003年第11期1750-1753,共4页 Acta Electronica Sinica

基金国家自然科学基金 (No .60 2 72 0 51 ) 湖南省自然科学基金 (No.0 1jjy1 0 0 7)

关键词信息增益互信息量朴素贝叶斯 information gain mutual information naive Bayesian

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1陶卿,姚穗,范劲松,方廷健.一种新的机器学习算法:Support Vector Machines[J].模式识别与人工智能,2000,13(3):285-290. 被引量：30
2陈治平,林亚平,童调生.基于N层向量空间模型的信息检索算法[J].计算机研究与发展,2002,39(10):1233-1237. 被引量：17
3TomMMitchell.机器学习[M].北京：机械工业出版社,2003..
4范焱,郑诚,王清毅,蔡庆生,刘洁.用Naive Bayes方法协调分类Web网页[J].软件学报,2001,12(9):1386-1392. 被引量：53

二级参考文献8

1陶卿.基于约束区域的神经网络模型及其在优化和联想记忆中的应用：中国科学技术大学博士学位论文[M].,1999..
2Cao Jinde，Journal of COmputer and System Sciences，2000年，60卷，1期，179页
3Xia Y，IEEE Trans Neural Networks，1996年，7卷，6期，1544页
4Lang K，Proc the 12th Int Conference on Machine Learning（ICML 95），1995年，331页
5陶卿,方廷健,孙德敏.基于约束区域的连续时间联想记忆神经网络[J].计算机学报,1999,22(12):1253-1258. 被引量：4
6陶卿,方廷健.求解约束Minimax问题的神经网络模型[J].控制理论与应用,2000,17(1):82-84. 被引量：2
7刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
8战学刚,林鸿飞,姚天顺.Infolite中文检索系统[J].小型微型计算机系统,2000,21(9):989-992. 被引量：9

共引文献124

1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
2郭武,戴礼荣,王仁华.采用UBM更新量作为支持向量机特征的说话人确认[J].清华大学学报（自然科学版）,2008,48(S1):704-707. 被引量：4
3陈欢.基于粗糙集理论的值约简及规则提取[J].福州大学学报（自然科学版）,2004,32(4):472-475. 被引量：4
4钟敏娟,林亚平,陈治平.基于超链接和标记文本的信息检索算法[J].小型微型计算机系统,2004,25(7):1344-1347. 被引量：7
5张茂元,卢正鼎.基于特征选取及模糊学习的网页分类方法研究[J].小型微型计算机系统,2004,25(7):1397-1400. 被引量：4
6潘无名,潘云鹤.数据挖掘过程的多维视图[J].计算机应用研究,2004,21(8):211-213. 被引量：4
7刘壁松,李春平.一个可扩展的文本分类系统的设计与实现[J].计算机工程与应用,2004,40(30):102-106. 被引量：2
8杨创新,彭宏,莫卓斌.基于N层向量空间模型的Web主题检索算法[J].广东自动化与信息工程,2004,25(3):7-9.
9钟茂生.WEB页面的模糊聚类[J].华东交通大学学报,2004,21(5):59-62. 被引量：2
10司光宇,李春阳,王永安.RBF神经网络在水中油含量检测中的应用[J].计算机工程与应用,2004,40(32):221-223. 被引量：2

同被引文献79

1陆勇,侯汉清.用于信息检索的同义词自动识别及其进展[J].南京农业大学学报（社会科学版）,2004,4(3):87-93. 被引量：25
2胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
3宋枫溪,刘树海,杨静宇,夏赛飞.最大散度差分类器及其在文本分类中的应用[J].计算机工程,2005,31(5):8-10. 被引量：8
4董慧,余传明.中文本体的自动获取与评估算法分析[J].情报理论与实践,2005,28(4):415-418. 被引量：12
5罗贝,吴洁,曹存根,邵志清.从文本中获取植物知识方法的研究[J].计算机科学,2005,32(10):6-13. 被引量：13
6姚振武.论本体名词[J].语文研究,2005(4):1-7. 被引量：6
7宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：45
8王海涛,曹存根,高颖.基于领域本体的半结构化文本知识自动获取方法的设计和实现[J].计算机学报,2005,28(12):2010-2018. 被引量：31
9徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
10王宇,杨莉.基于凝聚函数的混合属性数据聚类算法[J].大连理工大学学报,2006,46(3):446-448. 被引量：2

引证文献11

1李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
2李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
3陈晓云,李荣陆,胡运发.基于最小词频阈值的文档特征选择[J].模式识别与人工智能,2006,19(4):531-537. 被引量：7
4梁宏胜,徐建民,成岳鹏.一种改进的朴素贝叶斯文本分类方法[J].河北大学学报（自然科学版）,2007,27(3):327-331. 被引量：6
5吴迪,张亚平,殷福亮,李明.基于类别分布差异和VPRS特征选择的文本分类方法[J].电子与信息学报,2007,29(12):2880-2884. 被引量：5
6杨圣洪,贾焰.非成熟领域的本体构建方法[J].计算机工程与应用,2008,44(24):153-155. 被引量：2
7刘海峰,王元元,姚泽清,张述祖.文本分类中一种混合型特征降维方法[J].计算机工程,2009,35(2):194-196. 被引量：11
8陈韡,王雷,蒋子云.基于K-prototypes的混合属性数据聚类算法[J].计算机应用,2010,30(8):2003-2005. 被引量：16
9陈绪,严金戈.混合类型数据的聚类算法综述[J].信息与电脑,2018,30(7):136-138.
10张亚男,陈卫卫,付印金,徐堃.基于Simhash改进的文本去重算法[J].计算机技术与发展,2022,32(8):26-32. 被引量：2

二级引证文献52

1刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法[J].广西师范大学学报（自然科学版）,2007,25(4):208-211. 被引量：9
2向阳,张波,韩婕.Agent驱动的中文本体智能构建研究[J].计算机工程与应用,2009,45(10):133-137. 被引量：5
3姚兴山.基于统计的中文文本分类研究[J].情报理论与实践,2009,32(5):95-98. 被引量：1
4靖红芳,王斌,杨雅辉,徐燕.基于类别分布的特征选择框架[J].计算机研究与发展,2009,46(9):1586-1593. 被引量：18
5刘海峰,赵华,刘守生.一种基于位置的改进中文文本特征选择[J].图书情报工作,2009,53(21):102-105. 被引量：3
6刘海峰,陈琦,刘守生,苏展.一种基于数据偏斜的改进KNN文本分类[J].微电子学与计算机,2010,27(3):51-53. 被引量：3
7孟洋,赵方.基于信息熵理论的动态规划特征选取算法[J].计算机工程与设计,2010,31(17):3879-3881. 被引量：6
8张功杰,赵向军,陈克建.面向本体的语义相似度计算及在检索中的应用[J].计算机工程与应用,2010,46(29):131-133. 被引量：15
9刘海峰,刘守生,张学仁.聚类模式下一种优化的K-means文本特征选择[J].计算机科学,2011,38(1):195-197. 被引量：12
10唐进.BETSY在自动作文评分中的原理与应用[J].当代外语研究,2011(1):44-47. 被引量：2

1蔡热文,张立臣,杨敏.基于面向方面的Petri网在实时系统中的应用[J].计算机光盘软件与应用,2012,15(3):188-189.
2杨欢.文本情感分类预处理研究[J].电子技术与软件工程,2016(10):187-187. 被引量：1
3石国强,牛常勇,范明.使用PCA建立基于规则的组合分类器[J].计算机科学与探索,2010,4(5):455-463.
4吴更石,梁德群,田原.基于分形维数的纹理图像分割[J].计算机学报,1999,22(10):1109-1113. 被引量：15
5宋海涛.基于改进PCNN多值计算机图像分割算法研究[J].激光杂志,2015,36(12):63-66.
6钱晓峰,阎伟.基于形状特征划分的树状区域匹配图像检索[J].南京理工大学学报,2001,25(1):48-52. 被引量：3
7江伟,陈龙,王国胤.用户行为异常检测在安全审计系统中的应用[J].计算机应用,2006,26(7):1637-1639. 被引量：13
8哈斯巴干,马建文,李启青,陈雪,戴芹.容差粗糙集与神经网络结合的遥感数据分类方法[J].中国科学（D辑）,2004,34(10):967-974. 被引量：2
9黄炎,王紫玉,黄方亮.数据挖掘技术在高校学生成绩分析中的应用与研究[J].兰州文理学院学报（自然科学版）,2016,30(3):64-68. 被引量：10
10韩奕,姜建国,仇新梁,马新建,赵双.基于云计算的恶意程序检测平台设计与实现[J].计算机工程,2014,40(4):26-31. 被引量：10

电子学报

2003年第11期

浏览历史

内容加载中请稍等...

基于最小类差异的无关信息预处理算法被引量：11

参考文献4

二级参考文献8

共引文献124

同被引文献79

引证文献11

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于最小类差异的无关信息预处理算法 被引量：11

参考文献4

二级参考文献8

共引文献124

同被引文献79

引证文献11

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于最小类差异的无关信息预处理算法被引量：11