-
题名一种结合改进CHI和RFFS的特征选择算法研究
被引量:1
- 1
-
-
作者
邱宁佳
周稳
王鹏
陶跃
-
机构
长春理工大学计算机科学技术学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2018年第21期133-140,共8页
-
基金
吉林省科技发展计划重点科技攻关项目(No.20150204036GX)
吉林省省级产业创新专项资金项目(No.2017C051)
-
文摘
针对传统CHI算法忽略特征词的词频易导致重要特征词被漏选的问题,结合特征选择时Filter类算法速度快、Wrapper类算法准确率高的特点,提出一种将改进CHI(TDF-CHI)算法与随机森林特征选择(RFFS)相结合的特征选择算法。先利用TDF-CHI算法计算特征词的文档频率及词频与类别的相关程度来进行特征选择,去除冗余特征;再通过RFFS算法度量剩余特征的重要性,进行二次特征选择,优化特征集合,使分类器的性能进一步提升。为了验证改进算法的优越性,利用新闻文本数据,在常用的分类器上进行测试。实验表明,改进算法相比传统CHI算法所选特征词具有更好的分类效果,提高了分类器的准确率和召回率。
-
关键词
特征选择
tdf-chi
随机森林特征选择(RFFS)
文本分类
-
Keywords
feature selection
tdf-chi
Random Forest Feature Selection(RFFS)
text classification
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-