面向软件缺陷个数预测的混合式特征选择方法被引量：2

Hybrid feature selection method for number of software faults prediction

下载PDF

导出

摘要针对软件缺陷数据集中不相关特征和冗余特征会降低软件缺陷个数预测模型的性能的问题,提出了一种面向软件缺陷个数预测的混合式特征选择方法——HFSNFP。首先,利用Relief F算法计算每个特征与缺陷个数之间的相关性,选出相关性最高的m个特征;然后,基于特征之间的关联性利用谱聚类对这m个特征进行聚类;最后,利用基于包裹式特征选择思想从每个簇中依次挑选最相关的特征形成最终的特征子集。实验结果表明,相比于已有的五种过滤式特征选择方法,HFSNFP方法在提高预测率的同时降低了误报率,且G-measure与RMSE度量值更佳;相比于已有的两种包裹式特征选择方法,HFSNFP方法在保证缺陷个数预测性能的同时可以显著降低特征选择的时间。 Focused on the issue that the irrelevant and redundant features in software defect data would degrade the perfor- mance of the number of software faults prediction models, this paper proposed a hybrid feature selection method for the number of faults prediction （HFSNFP）. Firstly, HFSNFP computed the relevance between every feature and the number of fault with ReliefF algorithm and selected the top m most relevant features. Then, HFSNFP grouped the m features with spectral clustering algorithm according to the correlation between every two features. Finally, HFSNFP selected the most relevant features from each resulted cluster to form the final feature subset using a wrapper search. Compared with the five existing filter-based fea- ture selection methods, the experimental results show that HFSNFP increases PD value, reduces PF value and achieves better G-measure and RMSE values. Comparied with the two wrapper-based feature selection methods, it demonstrates that HFSNFP can achieve the high performance of the number of faults prediction and reduce the running time of feature selection.

作者马子逸马传香刘瑞奇余啸

机构地区湖北大学计算机与信息工程学院湖北省教育信息化工程研究中心武汉大学国际软件学院武汉大学计算机学院软件工程国家重点实验室

出处《计算机应用研究》 CSCD 北大核心 2018年第2期487-492,502,共7页 Application Research of Computers

基金湖北大学精品课程(013665 150145)

关键词软件缺陷个数预测特征选择谱聚类包裹式特征选择 number of software faults prediction feature selection spectral clustering wrapper-based feature selection

分类号 TP311.53 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1王培,金聪,葛贺贺.面向软件缺陷预测的互信息属性选择方法[J].计算机应用,2012,32(6):1738-1740. 被引量：12
2陈翔,贺成,王宇,管怀文.HFS:一种面向软件缺陷预测的混合特征选择方法[J].计算机应用研究,2016,33(6):1758-1761. 被引量：9
3刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25

二级参考文献75

1COVER T M, THOMAS J A. Elements of information theory [ M]. New York: John Wiley & Sons Inc, 1991.
2KWAK N J, CHOI C H. Input feature selection by mutual informa- tion based on Parzen window[ J]. IEEE Transactions on Pattern A- nalysis and Machine Intelligence, 2002, 24(12) : 1667 - 1671.
3AMIRI F, YOUSEFI M M R, LUCAS C, et al. Mutual information- based feature selection for intrusion detection systems[ J]. Journal of Network and Computer Applications, 2011, 34(4) : 1184 - 1199.
4BAE C, YEH W C, CHUNG Y Y, et al. Feature selection with in- telligent dynamic swarm and rough set[ J]. Expert Systems with Ap- plications, 2010, 37(10) : 7026 -7032.
5BAT'I'ITI R. Using mutual information for selecting features in su- pervised neural net learning[ J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(9) : 1199 - 1207.
6MENZIES T, GREENWALD J, FRANK A. Data mining static code attributes to learn defect predictors[ J]. IEEE Transactions on Software Engineering, 2007, 32( 11 ) : 2 - 13.
7ZHENG JUN. Cost-sensitive boosting neural networks for software defect prediction[ J]. Expert Systems with Applications, 2010, 37 (6) : 4537 - 4543.
8CATAL C, DIRI B. Investigating the effect of dataset size, metrics sets, and feature selection techniques on software fault prediction problem[ J]. Information Sciences, 2009, 179(8) : 1040 - 1058.
9刘海,郝克刚.软件缺陷数据的定义[J].计算机应用,2008,28(1):226-228. 被引量：5
10All T,Beecham S,Bowes D,et al.A systematic literature review on fault prediction performance in software engineering[J].IEEE Trans on Software Engineering,2012,38(6):1276-1304.

共引文献39

1郑继栋.训练扎实指导有序──第十册《基础训练6》第五六七题教学设计[J].小学语文教学,2000(6):57-57.
2魏浩,丁要军.一种基于相关的属性选择改进算法[J].计算机应用与软件,2014,31(8):280-284. 被引量：7
3魏浩,丁要军.一种基于属性相关的C4.5决策树改进算法[J].中北大学学报（自然科学版）,2014,35(4):402-406. 被引量：14
4解维奇,蔡远文,程龙,赵乙镔.面向航天型号软件缺陷预测的属性选择方法[J].计算机测量与控制,2014,22(10):3439-3441.
5陆海洋,荆晓远,董西伟,刘茜.基于代价敏感学习的软件缺陷预测方法[J].计算机技术与发展,2015,25(11):58-60. 被引量：1
6陈恒,刘文广,高东静,彭鑫,赵文耘.面向单个文件的个性化缺陷预测方法[J].计算机科学,2017,44(4):90-95.
7王莉萍,陈翔,王秋萍,赵英全.基于Box-Cox转换的集成跨项目软件缺陷预测方法[J].计算机应用研究,2017,34(7):2023-2026. 被引量：3
8伍蔓,张建升,马传香,安格格,余啸.基于SSDBSCAN的跨项目缺陷预测数据筛选方法[J].湖北大学学报（自然科学版）,2017,39(5):550-557.
9姜丽,姜淑娟,于巧.软件缺陷预测中基于排序集成的特征选择方法[J].小型微型计算机系统,2018,39(7):1410-1414. 被引量：4
10李丽媛,江国华.一种面向软件缺陷预测的特征聚类选择方法[J].计算技术与自动化,2018,37(2):126-131. 被引量：3

同被引文献13

1阳文锐,王如松,黄锦楼,陈展,李锋.反距离加权插值法在污染场地评价中的应用[J].应用生态学报,2007,18(9):2013-2018. 被引量：68
2王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
3陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：127
4马春来,单洪,马涛.一种基于簇中心点自动选择策略的密度峰值聚类算法[J].计算机科学,2016,43(7):255-258. 被引量：47
5刘望舒,陈翔,顾庆,刘树龙,陈道蓄.软件缺陷预测中基于聚类分析的特征选择方法[J].中国科学：信息科学,2016,46(9):1298-1320. 被引量：25
6付忠旺,肖蓉,余啸,谷懿.回归算法对软件缺陷个数预测模型性能的影响[J].计算机应用,2018,38(3):824-828. 被引量：1
7刘洺辛,陈晶,王麒媛.基于改进特征选择方法的文本情感分类研究[J].电信科学,2018,34(10):85-95. 被引量：2
8于巧,姜淑娟,张艳梅,王兴亚,高鹏飞,钱俊彦.分类不平衡对软件缺陷预测模型性能的影响研究[J].计算机学报,2018,41(4):809-824. 被引量：31
9程元启,姚淑珍,谭火彬,李丹丹.基于模糊支持向量机的软件缺陷预测技术[J].计算机工程与设计,2018,39(9):2753-2757. 被引量：9
10简艺恒,余啸.基于数据过采样和集成学习的软件缺陷数目预测方法[J].计算机应用,2018,38(9):2637-2643. 被引量：8

引证文献2

1李莉,纪欣沅,宋嵩.回环软件缺陷数量预测模型[J].计算机工程与应用,2021,57(7):158-163. 被引量：3
2刘国庆,王兴起,魏丹,方景龙,邵艳利.基于最大信息系数的软件缺陷数目预测特征选择方法[J].电信科学,2021,37(5):133-147. 被引量：4

二级引证文献7

1吴瑞霞,张志旺,王琰,周莉,岳峻,卢泰然.基于模糊多目标线性规划的软件缺陷预测方法研究[J].鲁东大学学报（自然科学版）,2021,37(2):131-138. 被引量：2
2李阿红.基于混合神经网络的Android软件缺陷精准预测研究[J].自动化与仪器仪表,2022(8):33-36. 被引量：1
3侯正波.基于BP神经网络的计算机软件缺陷预测方法[J].信息与电脑,2022,34(13):86-88. 被引量：1
4王强,周金宇,金超武.基于风险轨迹的开源软件安全性缺陷定位方法[J].计算机仿真,2023,40(7):397-401.
5刘路瑶,韩培胜,李伟群,李万鹏.面向融合度量的PSO-RBF软件缺陷数量预测模型[J].信息工程大学学报,2023,24(6):691-698. 被引量：3
6李晓平,刘科材,庞婷婷,张贵宇,庹先国,彭英杰,曾祥林.基于最大互信息系数结合弹性网络特征提取的原酒质量评价方法[J].食品与发酵工业,2025,51(16):172-181.
7高方勇.资源受限场景下的软件缺陷特征自动选择研究[J].微型电脑应用,2025,41(7):35-38.

1万月,陈秀宏,何佳佳.利用稀疏自编码的局部谱聚类映射算法[J].传感器与微系统,2018,37(1):145-148. 被引量：2
2王平心,刘强,杨习贝,米据生.基于动态邻域的三支聚类分析[J].计算机科学,2018,45(1):62-66. 被引量：12
3张文喜.基于模拟退火算法优化谱聚类的有杆泵抽油井故障诊断[J].化工管理,2018(3):208-208.
4傅文进,吴小俊.基于l_2范数的加权低秩子空间聚类[J].软件学报,2017,28(12):3347-3357. 被引量：7
5张贤玉.信息系统数据质量分析和提升[J].数字技术与应用,2017,35(12):228-228.
6李燕,卫志华,徐凯.基于Lasso算法的中文情感混合特征选择方法研究[J].计算机科学,2018,45(1):39-46. 被引量：9
7赵丽丽,王雪青,陈超.区间直觉模糊信息下的监理工程师信用评价[J].运筹与管理,2018,27(1):125-131. 被引量：4
8王东.显著性假设检验的特征选择方法[J].计算机产品与流通,2017,6(7):165-165.
9李成龙,吕鑫,李鑫.抗基于历史轨迹预测攻击的动态K-匿名算法[J].计算机工程与应用,2018,54(2):119-124. 被引量：10
10张斌儒,郑宗剑,张瑞,王广民.基于RVM模型的国内游客流量预测研究——以海南为例[J].数学的实践与认识,2017,47(24):30-36. 被引量：8

计算机应用研究

2018年第2期

浏览历史

内容加载中请稍等...

面向软件缺陷个数预测的混合式特征选择方法被引量：2

参考文献3

二级参考文献75

共引文献39

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向软件缺陷个数预测的混合式特征选择方法 被引量：2

参考文献3

二级参考文献75

共引文献39

同被引文献13

引证文献2

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

面向软件缺陷个数预测的混合式特征选择方法被引量：2