一种软件缺陷不平衡数据分类新方法被引量：7

A novel unbalanced data classification method for software defects

下载PDF

导出

摘要针对软件缺陷预测数据中的数据不平衡、预测精度低以及特征维度高的问题,提出了一种RUS-RSMOTE-PCA-Vote的软件缺陷不平衡数据分类方法。首先通过随机欠采样来减少无缺陷样本的数量;在此基础上进行SMOTE过采样,在过采样中综合总体样本的分布状况引入影响因素posFac指导新样本的合成;对经过RUS-RSMOTE混合采样处理后的数据集进行PCA降维,最后应用Vote组合K最近邻、决策树、支持向量机构造集成分类器。在NASA数据集上的实验结果表明,与现有不平衡数据分类方法相比,所提方法在F-value值、G-mean值和AUC值上更优,有效地改善了软件缺陷预测数据集的分类性能。 To solve the problems of data imbalance,low prediction accuracy and feature dimension in software defect prediction data,a RUS-RSMOTE-PCA-Vote(random under sampling-random synthetic minority oversampling technique-principal components analysis-vote)software defect imbalance data classification method was proposed.Firstly,the number of non-defective samples was reduced by random under sampling.On this basis,SMOTE oversampling was carried out,during which the influence factor posFac(position factor)was introduced into the overall sample distribution to guide the synthesis of the new sample.Then the data set after RUS-RSMOTE sampling was subjected to PCA dimensionality reduction.Finally,an integrated classifier was constructed by using Vote in combination with K nearest neighbor,decision tree,and support vector machine.The experimental results on the NASA(National Aeronautics and Space Administration)data set show that the proposed method is superior to the existing unbalanced data classification methods in terms of F-value,G-mean value and AUC value,thus effectively improves the classification performance of the software defect prediction data set.

作者刘文英林亚林李克文雷永秀 LIU Wenying;LIN Yalin;LI Kewen;LEI Yongxiu(College of Computer Science and Technology,China University of Petroleum(East China),Qingdao,Shandong 266580,China)

机构地区中国石油大学(华东)计算机科学与技术学院

出处《山东科技大学学报（自然科学版）》 CAS 北大核心 2021年第2期84-94,共11页 Journal of Shandong University of Science and Technology(Natural Science)

基金国家自然科学基金项目(61673396) 山东省自然科学基金项目(ZR2017MF032)。

关键词软件缺陷预测不平衡数据混合采样特征降维集成分类器 software defect prediction unbalanced data hybrid sampling feature dimensionality reduction ensemble classifier

分类号 TN929.5 [电子电信—通信与信息系统]

引文网络
相关文献

参考文献5

1张忠林,吴挡平.基于概率阈值Bagging算法的不平衡数据分类方法[J].计算机工程与科学,2019,41(6):1086-1094. 被引量：16
2胡峰,王蕾,周耀.基于三支决策的不平衡数据过采样方法[J].电子学报,2018,46(1):135-144. 被引量：32
3刘小花,王涛,吴振强.软件缺陷集成预测模型研究[J].计算机应用研究,2013,30(6):1734-1738. 被引量：6
4古平,欧阳源遊.基于混合采样的非平衡数据集分类研究[J].计算机应用研究,2015,32(2):379-381. 被引量：14
5魏浩,李红,刘小豫.一种改进的SMOTE算法[J].河南科学,2018,36(7):1009-1013. 被引量：4

二级参考文献55

1杨智明.面向不平衡数据的支持向量机分类方法研究[D].哈尔滨:哈尔滨工业大学,2009.
2董燕杰.不平衡数据集分类的Random-SMOTE方法研究[D].大连:大连理工大学,2009.
3MENZIES T, MILTON Z, TURHAN B, et al. Defect prediction from static code features : current results, limitations, new approaches [ J ]. Automated Software Engineering, 2010,17 ( 5 ) : 375-407.
4JIANG Y, CUKIC B, MENZIES T, et al. Comparing design and code metrics for software quality prediction [ C ]//Proc of the 4th International Workshop on Predictor Models in Software Engineering. New York : ACM Press ,2008 : 11-18.
5MENZIES T, TURHAN B, BENER A, et al. Implications of ceiling effects in defect predictors [ C ]// Proc of ACM International Conference on Predictive Models in Software Engineering. 2008: 47-54.
6ZHANG H, NELSON A, MENZIES T. On the value of learning from defect dense components for software defect prediction [ C ]// Proc of ACM International Conference on Predictive Models in Software Engineering. 2010 : 1-9.
7STEFANO C D, FONTANELLA F, FOLINO G, et al. A Bayesian approach for combining ensembles of GP classifiers[ C]//Proc of the 10th International Workshop on Multiple Classifier Systems. 2011:26-35.
8TOSUN A, TURHAN B, BERNER A B. Ensemble of software defect predictors : a case study[ C ]//Proc of the 2nd International Symposium on Empirical Software Engineering and Measurement. 2008:318- 320.
9ZHENG J. Cost-sensitive boosting neural networks for software defect prediction[ J]. Expert Systems with Applications, 2010,37 ( 6 ) : 4537-4543.
10BREIMAN L. Bagging predictors [ J]. Machine Learning, 1996,24 (2) :123-140.

共引文献66

1向菲,谢耀谈.基于混合采样与迁移学习的患者评论识别模型[J].数据分析与知识发现,2020,4(2):39-47. 被引量：2
2车敏诗,聂春燕,范如俊,杨承金,阮新磊.一种基于混沌特征及优化CHAID决策树的情绪识别方法[J].计算机应用研究,2020,37(S02):105-107. 被引量：4
3穆伟蒙,宋燕,窦军.基于密度峰值聚类算法的自适应加权过采样算法[J].智能计算机与应用,2022,12(6):46-53. 被引量：2
4戴翔,毛宇光.基于集成混合采样的软件缺陷预测研究[J].计算机工程与科学,2015,37(5):930-936. 被引量：10
5戴翔,毛宇光.跨机构的软件缺陷集成采样预测研究[J].小型微型计算机系统,2015,36(8):1700-1705. 被引量：5
6张荷,李梅,张阳,蔡晓妍.基于PU学习的软件故障检测研究[J].计算机应用研究,2015,32(11):3324-3327. 被引量：1
7李慧.同行评审软件缺陷预测模型研究[J].科技创业月刊,2015,28(20):106-107. 被引量：1
8王林,郭娜娜.基于差异度的不均衡电信客户数据分类方法[J].计算机应用,2017,37(4):1032-1037. 被引量：11
9阴爱英,吴运兵,杨晓花.面向制造业不平衡数据的混合采样算法[J].计算机工程与设计,2018,39(4):1053-1058. 被引量：4
10张清华,吕功勋,陈玉洪,谢秦.基于字符型属性值更新的动态三支决策模型[J].电子学报,2019,47(2):344-350. 被引量：7

同被引文献67

1姜新盈,王舒梵,严涛.基于层次密度聚类的去噪自适应混合采样[J].计算机系统应用,2022,31(10):206-210. 被引量：1
2高子寒,宋燕.基于边界增强和去噪的自适应双权重过采样方法研究[J].智能计算机与应用,2022,12(1):58-64. 被引量：1
3胡航,杜爽,梁佳柔,康忠琳.学习绩效预测模型构建:源于学习行为大数据分析[J].中国远程教育,2021(4):8-20. 被引量：35
4姜远,黎铭,周志华.Software Defect Detection with ROCUS[J].Journal of Computer Science & Technology,2011,26(2):328-342. 被引量：12
5Jian SHI,Shu-you ZHANG,Le-miao QIU.Credit scoring by feature-weighted support vector machines[J].Journal of Zhejiang University-Science C(Computers and Electronics),2013,14(3):197-204. 被引量：4
6葛建新.我国软件测试项目管理的重要作用[J].价值工程,2014,33(19):204-205. 被引量：1
7韩明鸣,郭虎升,王文剑.面向非平衡多分类问题的二次合成QSMOTE方法[J].南京大学学报（自然科学版）,2019,55(1):1-13. 被引量：3
8李勇,黄志球,房丙午,王勇.代价敏感分类的软件缺陷预测方法[J].计算机科学与探索,2014,8(12):1442-1451. 被引量：15
9张博,史忠植,赵晓非,张建华.一种基于跨领域典型相关性分析的迁移学习方法[J].计算机学报,2015,38(7):1326-1336. 被引量：31
10李勇,黄志球,王勇,房丙午.基于多源数据的跨项目软件缺陷预测[J].吉林大学学报（工学版）,2016,46(6):2034-2041. 被引量：7

引证文献7

1李曼.基于数据挖掘的互联网用户行为特征分析[J].顺德职业技术学院学报,2021,19(4):10-14. 被引量：2
2颜慧.基于机器学习的软件缺陷倾向性预测研究[J].电脑知识与技术,2022,18(7):67-70. 被引量：2
3顾天下,刘勤明.面向高维和不平衡数据的供应链金融信用评价[J].计算机应用研究,2022,39(11):3396-3401. 被引量：5
4宋慧玲,李勇,张文静.基于联邦迁移的跨项目软件缺陷预测[J].南京师大学报（自然科学版）,2024,47(3):122-128. 被引量：2
5喻皓,张莹,李倩,姜立标,尚云鹏.基于机器学习的软件缺陷预测研究[J].重庆大学学报,2025,48(2):10-21. 被引量：2
6刘方宇,王非玉,李佳益.机器学习算法优化软件工程项目中的数据分类[J].中国宽带,2024,20(9):130-132.
7朱宸敏,余粟.受同轴对称抛物线约束的少数类样本合成方法[J].计算机工程,2025,51(5):196-205.

二级引证文献13

1谭本艳,林玉洁.基于SMOTE-LR模型的上市公司失信风险评价研究[J].开发性金融研究,2023(3):17-27. 被引量：1
2秦颖,白杨曦,马世昌.基于供需均衡理论的供应链金融生态系统稳定性仿真分析[J].金融理论与实践,2023(3):1-10. 被引量：4
3孙菁阳.面向聚类的新媒体用户行为挖掘模型构建[J].科技与创新,2023(14):152-154. 被引量：1
4王一丁,曾珺,马培兴.机器学习模型在软件工程中的研究与应用[J].信息与电脑,2024,36(15):209-212. 被引量：4
5Mei Song,He Ma,Yi Zhu,Mengdi Zhang.Credit Risk Prediction Based on Improved ADASYN Sampling and Optimized LightGBM[J].Journal of Social Computing,2024,5(3):232-241.
6屈弘扬.基于机器学习的软件需求变更预测模型研究[J].微型计算机,2024(12):109-111.
7李林锋,陈羽中,姚毅楠,邵伟杰.面向分布式数据安全共享的高速公路路网拥堵监测[J].福建师范大学学报(自然科学版),2025,41(1):11-20. 被引量：3
8汪刘凯,张小波,王未卿,刘澄.基于MIDAS-SVQR的供应链金融质押物风险价值测度新方法[J].中国管理科学,2025,33(3):80-92.
9胡大强,张志磊,康艳,吴纯璐.基于联邦学习的异构软件缺陷预测算法的通信效率优化分析[J].信息与电脑,2025,37(8):105-107.
10卢燕群,赵奕奕.基于层次图神经网络和差异化特征学习的客户流失预测模型[J].计算机应用,2025,45(9):3057-3066.

1林天祥.深部地质钻探中智能勘查自动控制系统设计及应用[J].世界有色金属,2020,45(23):13-14.
2郭畅.基于不平衡数据的个人信贷违约测度探索[J].集美大学学报（自然科学版）,2021,26(1):89-96.
3刘芯溧.基于大数据分析的智能客服系统研究[J].自动化与仪器仪表,2021(3):139-142. 被引量：6
4陈炳鑫,陈黎飞.符号序列的预训练HMM分类方法[J].南京大学学报（自然科学版）,2021,57(1):52-58. 被引量：3
5Kangjie SHEN,Chuanyuan WEI,Yi XIE,Lu WANG,Shuyu WANG,Ming REN,Xinyi DENG,Daohe WANG,Zixu GAO,Zihao FENG,Jianying GU.Re-Exploring Biomarkers and Therapeutic Targets in Primary Melanoma Patients: Insights from Network-Based Analysis of Microarray Data[J].Chinese Journal of Plastic and Reconstructive Surgery,2020,2(4):228-240.
6张志敏.基于数据的不平衡学习大规模分层的目标检测网络方案[J].贵阳学院学报（自然科学版）,2021,16(1):7-10.
7邹云,俞晓婷.胜任力理论与教师德育能力的相关性[J].中学政治教学参考,2021(7):67-69. 被引量：3
8陈铁力.地下水化学成分分类新方法——七阴六阳顺序命名[J].经济技术协作信息,2021(8):122-123.
9聂帅,文连姬,于丹,郭海仙,刘悦,李绍楠,谷婷婷,于任游,刘岩.阻塞性睡眠呼吸暂停患者阻塞平面多种评估方式间相关性分析[J].中国耳鼻咽喉头颈外科,2020,27(12):701-704. 被引量：2
10赵子军.中国主导ISO展览国际标准有望突破空白区[J].中国标准化,2021(3):38-39.

山东科技大学学报（自然科学版）

2021年第2期

浏览历史

内容加载中请稍等...

一种软件缺陷不平衡数据分类新方法被引量：7

参考文献5

二级参考文献55

共引文献66

同被引文献67

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种软件缺陷不平衡数据分类新方法 被引量：7

参考文献5

二级参考文献55

共引文献66

同被引文献67

引证文献7

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种软件缺陷不平衡数据分类新方法被引量：7