软件缺陷预测中基于聚类分析的特征选择方法被引量：25

A cluster-analysis-based feature-selection method for software defect prediction

导出

摘要软件缺陷预测通过挖掘软件历史仓库,构建缺陷预测模型来预测出被测项目内的潜在缺陷程序模块.但有时候搜集到的缺陷预测数据集中含有的冗余特征和无关特征会影响到缺陷预测模型的性能.提出一种基于聚类分析的特征选择方法 FECAR.具体来说,首先基于特征之间的关联性(即FFC),将已有特征进行聚类分析.随后基于特征与类标间的相关性(即FCR),对每个簇中的特征从高到低进行排序并选出指定数量的特征.在实证研究中,借助对称不确定性(symmetric uncertainty)来计算FFC,借助信息增益(information gain)、卡方值(chi-square)或Relief F来计算FCR.以Eclipse和NASA数据集等实际项目为评测对象,重点分析了应用FECAR方法后的缺陷预测模型的性能,FECAR方法选出的特征子集冗余率和比例.结果验证了FECAR方法的有效性. By mining historical software repositories, software defect prediction can construct defect-prediction models to predict potentially faulty modules in projects under testing. However, redundant and irrelevant features in the gathered datasets may influence the effectiveness of existing methods. A novel cluster-analysis-based feature-selection method（FECAR） is proposed. In particular, the original features are first clustered, based on a specific feature correlation（i.e., FFC） measure. Then, for each cluster, features are ranked based on a specific feature and class relevance（i.e., FCR） measure and a given number of features are chosen. In empirical studies,we chose symmetric uncertainty as the FFC measure, and information gain, chi-square, or Relief F as the FCR measures. Based on some real-world projects, such as Eclipse and NASA, we focus on the prediction performance after using FECAR, and analyze the redundancy rate and selection proportion of the selected feature subset. The final results show the effectiveness of FECAR.

作者刘望舒陈翔顾庆刘树龙陈道蓄

机构地区南京大学计算机软件新技术国家重点实验室南京大学计算机科学与技术系南通大学计算机科学与技术学院

出处《中国科学：信息科学》 CSCD 北大核心 2016年第9期1298-1320,共23页 Scientia Sinica(Informationis)

基金国家自然科学基金(批准号:61373012 61321491 91218302 61202006) 国家重点基础研究发展计划(973计划)(批准号:2009C B320705) 江苏省高校自然科学研究项目(批准号:12KJB520014) 南京大学计算机软件新技术国家重点实验室开放课题(批准号:KFKT2016B18) 南京大学软件新技术与产业化协同创新中心资助项目

关键词软件质量保障缺陷预测数据挖掘特征选择聚类分析 software quality assurance defect prediction data mining feature selection cluster analysis

分类号 TP311.53 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献53

1Wang Q, Wu S J, Li M S. Software defect prediction. J Softw, 2008, 19:1565-1580.
2王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
3Hall T, Beecham S, Bowes D, et al. A systematic literature review on fault prediction performance in software engineering. IEEE Trans Softw Eng, 2012, 38:1276-1304.
4Yu S S, Zhou S G, Guan J H. Software engineering data mining: a survey. J Front Comput Sci Tech, 2012, 6:1-31.
5郁抒思,周水庚,关佶红.软件工程数据挖掘研究进展[J].计算机科学与探索,2012,6(1):1-31. 被引量：25
6Chen X, Gu Q, Liu W S, et al. Survey of static software defect prediction. J Softw, 2016, 1:1-25.
7陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：127
8Ghotra B, McIntosh S, Hassan A E. Revisiting the impact of classification techniques on the performance of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 789 -800.
9Peters F, Menzies T, Layman L. LACE2: better privacy-preserving data sharing for cross project defect prediction. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 801-811.
10Tantithamthavorn C, McIntosh S, Hassan A E, et al. The impact of mislabelling on the performance and interpretation of defect prediction models. In: Proceedings of the International Conference on Software Engineering, Firenze, 2015. 812-823.

二级参考文献259

1陈火旺,王戟,董威.高可信软件工程技术[J].电子学报,2003,31(z1):1933-1938. 被引量：116
2张文浩,曹健.软件缺陷预防过程与方法[J].计算机工程,2004,30(B12):23-24. 被引量：4
3胡玉鹏,陈治平,林亚平,李军义.贝叶斯缺陷分析模型及其在软件测试中的应用[J].计算机应用,2005,25(4):808-810. 被引量：3
4刘宏伟,杨孝宗,岳晓光,曲峰.一个NHPP类软件可靠性增长模型框架[J].计算机工程与科学,2005,27(4):1-2. 被引量：4
5陈莉,刘海红,盛昌,陈威.可靠性增长模型和正交缺陷分类的结合及在过程定性分析中的应用[J].科学技术与工程,2005,5(14):963-966. 被引量：1
6郭树行,兰雨晴,金茂忠.软件构件的可信保证研究[J].计算机科学,2007,34(5):243-246. 被引量：13
7郭树行,兰雨晴,金茂忠.基于目标的软件可信性需求规约方法研究[J].计算机工程,2007,33(11):37-38. 被引量：3
8Tan Pangning. Introduction to data mining[M]. Upper Saddle River, NJ, USA: Pearson Education, 2006.
9Xie Tao, Thummalapenta S, Lo D, et al. Data mining for software engineering[J]. Computer, 2009, 42: 55-62.
10Wheeler D. Linux kernel 2.6: It's worth more! 2004.

共引文献253

1郭肇强,周慧聪,刘释然,李言辉,陈林,周毓明,徐宝文.基于信息检索的缺陷定位:问题、进展与挑战[J].软件学报,2020(9):2826-2854. 被引量：18
2陈曙,叶俊民,刘童.一种基于领域适配的跨项目软件缺陷预测方法[J].软件学报,2020,31(2):266-281. 被引量：15
3秦庆强,魏启国.结合软件开发过程的软件缺陷预测方法[J].计算机应用研究,2020,37(S02):210-213.
4贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
5左旭辉,李文泽.高效的小型软件项目的质量保障体系[J].计算机工程与设计,2009,30(9):2211-2212. 被引量：1
6吴超,许建平,陈丽容.基于生命周期的软件缺陷预测技术[J].计算机工程与设计,2009,30(12):2956-2959. 被引量：7
7李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
8罗云锋,贲可荣.软件故障静态预测方法综述[J].计算机科学与探索,2009,3(5):449-459. 被引量：6
9王科欣,王胜利.基于贝叶斯网络技术的软件缺陷预测与故障诊断[J].微型电脑应用,2009(11):31-33. 被引量：5
10库燕,杨叶,李奇.基于COQUALMO的缺陷预测与校准工具的设计与实现[J].计算机工程与设计,2010,31(14):3185-3188.

同被引文献97

1贾燕华,李英梅.基于自适应聚类过采样的软件缺陷预测研究[J].哈尔滨师范大学自然科学学报,2023,39(2):45-50. 被引量：1
2聂林波,刘孟仁.软件缺陷分类的研究[J].计算机应用研究,2004,21(6):84-86. 被引量：39
3何志文,李夕海,刘代志,张斌.基于相关性分析的特征选择方法研究[J].核电子学与探测技术,2005,25(6):729-732. 被引量：11
4王青,伍书剑,李明树.软件缺陷预测技术[J].软件学报,2008,19(7):1565-1580. 被引量：149
5尹相乐,马力,关昕.软件缺陷分类的研究[J].计算机工程与设计,2008,29(19):4910-4913. 被引量：22
6杨朝红,宫云战,肖庆,王雅文.基于软件缺陷模型的测试系统[J].北京邮电大学学报,2008,31(5):1-4. 被引量：22
7刘海,郝克刚.软件缺陷原因分析方法[J].计算机科学,2009,36(1):242-243. 被引量：19
8李宁,李战怀.软件缺陷数据处理研究综述[J].计算机科学,2009,36(8):21-25. 被引量：11
9蒋盛益,王连喜.基于特征相关性的特征选择[J].计算机工程与应用,2010,46(20):153-156. 被引量：16
10姜慧研,宗茂,刘相莹.基于ACO-SVM的软件缺陷预测模型的研究[J].计算机学报,2011,34(6):1148-1154. 被引量：44

引证文献25

1王莉萍,陈翔,王秋萍,赵英全.基于Box-Cox转换的集成跨项目软件缺陷预测方法[J].计算机应用研究,2017,34(7):2023-2026. 被引量：3
2马子逸,马传香,刘瑞奇,余啸.面向软件缺陷个数预测的混合式特征选择方法[J].计算机应用研究,2018,35(2):487-492. 被引量：2
3姜丽,姜淑娟,于巧.软件缺陷预测中基于排序集成的特征选择方法[J].小型微型计算机系统,2018,39(7):1410-1414. 被引量：4
4李丽媛,江国华.一种面向软件缺陷预测的特征聚类选择方法[J].计算技术与自动化,2018,37(2):126-131. 被引量：3
5陈翔,王秋萍.基于代码修改的多目标有监督缺陷预测建模方法[J].计算机科学,2018,45(6):161-165. 被引量：1
6陈翔,沈宇翔,孟少卿,崔展齐,鞠小林,王赞.基于多目标优化的软件缺陷预测特征选择方法[J].计算机科学与探索,2018,12(9):1420-1433. 被引量：8
7倪超,陈翔,刘望舒,顾庆,黄启国,李娜.基于特征迁移和实例迁移的跨项目缺陷预测方法[J].软件学报,2019,30(5):1308-1329. 被引量：17
8李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9
9吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：14
10蒋帅.基于特征选择的软件缺陷预测方法[J].平顶山学院学报,2019,34(5):40-43. 被引量：1

二级引证文献94

1李怀强,周扬.关于软件架构生命周期准确性预测仿真[J].计算机仿真,2018,35(6):308-312.
2李叶飞,官国飞,葛崇慧,陈翔,倪超,钱柱中.FSDNP:针对软件缺陷数预测的特征选择方法[J].计算机工程与应用,2019,55(14):61-68. 被引量：9
3何喜军,马珊,武玉英,蒋国瑞.小样本下多维指标融合的电商产品销量预测[J].计算机工程与应用,2019,55(15):177-184. 被引量：18
4吴方君.静态软件缺陷预测研究进展[J].计算机科学与探索,2019,13(10):1621-1637. 被引量：14
5陈小雁,李雨江.一种Java代码覆盖率工具的应用研究[J].电脑知识与技术,2020,16(5):65-66.
6张洋.部分决策树在软件缺陷预测中的应用[J].软件导刊,2020,19(3):182-185. 被引量：1
7朱应钊.异构迁移学习研究综述[J].电信科学,2020,36(3):100-110. 被引量：7
8张晓峰.软件缺陷预测研究综述[J].信息通信,2020(4):125-127.
9张明亮.基于源文件可疑度的静态软件缺陷检测方法研究[J].黑龙江工业学院学报（综合版）,2020,20(6):55-59. 被引量：1
10万红,李蒙蒙,王昊锋,岳彩通,王力,尚志刚.多目标优化在特征选择子集评价中的应用[J].计算机应用研究,2020,37(8):2320-2323. 被引量：5

1陈翔,顾庆,刘望舒,刘树龙,倪超.静态软件缺陷预测方法研究[J].软件学报,2016,27(1):1-25. 被引量：127
2张志武,荆晓远,吴飞.基于二次学习的半监督字典学习软件缺陷预测[J].模式识别与人工智能,2017,30(3):242-250. 被引量：3
3徐淑峰,孙炜,赵峰,张忠.Adaboost人脸检测算法在嵌入式平台上的优化与实现[J].信息技术,2008,32(6):149-151. 被引量：1
4苑春燕,李爱华.基于信息增益和相关性的贝叶斯分类算法研究[J].网络与信息,2010,24(2):30-31.
5李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
6董西伟,王玉伟,张广顺,周才学.基于迁移学习的跨公司软件缺陷预测[J].计算机工程与设计,2016,37(3):684-689. 被引量：1
7王战中,杨长建,刘超颖,熊蒙.基于MATLAB和ADAMS的六自由度机器人联合仿真[J].制造业自动化,2013,35(18):30-33. 被引量：14
8刘景华,林梦雷,张佳,林耀进.一种启发式的局部随机特征选择算法[J].计算机工程与应用,2016,52(2):170-174. 被引量：5
9日本研发出安全芯片可能改写杀毒软件历史[J].电子商务,2006,7(12):86-86.
10江兵,管群.网络环境下基于可信的软件评估方法的研究[J].计算机工程与设计,2011,32(2):576-579. 被引量：1

中国科学：信息科学

2016年第9期

浏览历史

内容加载中请稍等...

软件缺陷预测中基于聚类分析的特征选择方法被引量：25

参考文献53

二级参考文献259

共引文献253

同被引文献97

引证文献25

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

软件缺陷预测中基于聚类分析的特征选择方法 被引量：25

参考文献53

二级参考文献259

共引文献253

同被引文献97

引证文献25

二级引证文献94

相关作者

相关机构

相关主题

浏览历史

软件缺陷预测中基于聚类分析的特征选择方法被引量：25